Глубокое понимание системы оповещений

Содержание

Основные принципы оповещений

Работа системы оповещений основана на следующих ключевых этапах:

  1. Сбор данных:
  • Система оповещений сначала должна собрать данные с различных ресурсов. Эти данные обычно включают метрики производительности оборудования (например, загрузка CPU, использование памяти), метрики производительности программного обеспечения (например, время отклика, уровень ошибок) и сетевую активность.
  • Источниками данных могут быть специализированное ПО для мониторинга (например, Prometheus), лог-файлы и др.
  1. Анализ и обработка данных:
  • Собранные данные необходимо проанализировать и обработать для выявления метрик, выходящих за пределы нормальных значений.
  1. Генерация оповещения:
  • Когда метрики мониторинга превышают заданные пороги или выявляются аномальные паттерны, система оповещений генерирует оповещение.
  • Для решения о генерации оповещения может использоваться подавление оповещений (alert silencing), что позволяет избежать частого шума оповещений.
  1. Отправка уведомлений:
  • После генерации оповещения система отправляет уведомления соответствующим сотрудникам или командам через заранее определённые каналы связи (например, email, SMS, уведомления в приложении платформы и др.).
  • Уведомления обычно содержат подробную информацию об оповещении: тип оповещения, затронутые ресурсы, текущие значения метрик, временные метки и возможные рекомендации по устранению.

Платформа ASM позволяет пользователям задавать политики оповещений (то есть набор правил оповещений) для сервисов и вычислительных компонентов на основе предустановленных метрик мониторинга, пользовательских метрик, а также данных логов и событий платформы. При обнаружении аномалий или достижении ресурсов состояния предварительного предупреждения система автоматически генерирует оповещение.

В сочетании с функционалом уведомлений платформы информация об оповещениях может напрямую передаваться операционному персоналу или разработчикам, что обеспечивает своевременное реагирование и устранение проблем, гарантируя бесперебойную работу бизнес-процессов платформы.

Типы оповещений

В зависимости от объекта мониторинга платформа определяет следующие типы оповещений:

  • Metric Alerts: Платформа уточняет распространённые метрики мониторинга, удовлетворяющие потребности большинства клиентов. Пользователи могут настраивать оповещения, выбирая метрики мониторинга и задавая условия срабатывания. Оповещения срабатывают при выполнении условий триггера правил оповещений.

  • Custom Alerts: Клиенты добавляют корпоративные правила метрик в соответствии со своими сценариями использования, что лучше удовлетворяет продвинутые потребности предприятий в оповещениях.

  • Log Alerts (только для вычислительных компонентов): Оповещения, срабатывающие по количеству определённого содержимого логов (Error, Warning и др.), обнаруженного в заданном временном интервале для вычислительных компонентов.

  • Event Alerts (только для вычислительных компонентов): Оповещения, срабатывающие по количеству причин событий (Reasons) — причин текущего состояния компонента, таких как BackOff, Pulling, Failed и др., обнаруженных в заданном временном интервале.

Объяснение статусов оповещений

После настройки политик оповещений система в реальном времени отслеживает состояние платформы на основе выбранных метрик мониторинга. Для каждой политики оповещений в зависимости от текущей ситуации на платформе может быть один из следующих статусов:

  • Статус оповещения

    • Alert: По крайней мере одно правило в политике оповещений сработало и сгенерировало оповещение.

    • Processing: По крайней мере одно правило в политике оповещений имеет данные запроса, достигшие или превысившие порог оповещения, и оповещение готовится к срабатыванию — это промежуточное состояние.

    • Normal: Ни одно из правил в политике оповещений не сработало.

  • Статус подавления (silence должен быть установлен для этой политики оповещений)

    • Silence Waiting: Состояние перед началом подавления после установки режима silence. В этом состоянии, если правило политики срабатывает, уведомления отправляются в обычном режиме.

    • Silencing: Состояние с момента начала подавления до его окончания. В этом состоянии, если правило политики срабатывает, уведомления не отправляются.