Глубокое понимание системы оповещений
Содержание
Основные принципы оповещений
Работа системы оповещений основана на следующих ключевых этапах:
- Сбор данных:
- Система оповещений сначала должна собрать данные с различных ресурсов. Эти данные обычно включают метрики производительности оборудования (например, загрузка CPU, использование памяти), метрики производительности программного обеспечения (например, время отклика, уровень ошибок) и сетевую активность.
- Источниками данных могут быть специализированное ПО для мониторинга (например, Prometheus), лог-файлы и т.д.
- Анализ и обработка данных:
- Собранные данные необходимо проанализировать и обработать для выявления метрик, выходящих за пределы нормальных значений.
- Генерация оповещения:
- Когда метрики мониторинга превышают заданные пороги или выявляются аномальные шаблоны, система оповещений генерирует оповещение.
- Использование режима подавления оповещений (alert silencing) позволяет решить, стоит ли генерировать оповещение, что помогает избежать частого шума оповещений.
- Отправка уведомлений:
- После генерации оповещения система отправляет уведомления соответствующим сотрудникам или командам через заранее определённые каналы связи (например, email, SMS, уведомления в приложении платформы и т.д.).
- Уведомления обычно содержат подробную информацию об оповещении: тип оповещения, затронутые ресурсы, текущие значения метрик, временные метки и возможные рекомендации по устранению.
Платформа ASM позволяет пользователям задавать политики оповещений (то есть набор правил оповещений) для сервисов и вычислительных компонентов на основе предустановленных метрик мониторинга, пользовательских метрик, а также данных логов и событий платформы. При возникновении аномалий или достижении ресурсов состояния предварительного предупреждения система автоматически генерирует оповещение.
В сочетании с функционалом уведомлений платформы информация об оповещениях может напрямую передаваться операционному персоналу или разработчикам, что обеспечивает своевременное реагирование и устранение проблем, гарантируя бесперебойную работу бизнес-процессов платформы.
Типы оповещений
В зависимости от объекта мониторинга платформа определяет следующие типы оповещений:
-
Metric Alerts: Платформа уточняет распространённые метрики мониторинга, которые удовлетворяют потребности большинства клиентов. Пользователи могут настраивать оповещения, выбирая метрики мониторинга и задавая условия срабатывания. Оповещения генерируются, когда данные мониторинга соответствуют условиям срабатывания правил оповещений.
-
Custom Alerts: Клиенты добавляют корпоративные правила метрик в соответствии со своими сценариями использования, что позволяет лучше удовлетворять расширенные потребности предприятий в оповещениях.
-
Log Alerts (только для вычислительных компонентов): Оповещения, срабатывающие по количеству определённого содержимого логов (Error, Warning и т.д.), обнаруженного за заданный промежуток времени для вычислительных компонентов.
-
Event Alerts (только для вычислительных компонентов): Оповещения, срабатывающие по количеству причин событий (Reasons) — причин текущего состояния компонента, таких как BackOff, Pulling, Failed и т.д., обнаруженных за заданный промежуток времени.
Объяснение статусов оповещений
После настройки политик оповещений система в режиме реального времени отслеживает состояние платформы на основе выбранных метрик мониторинга. Для каждой политики оповещений, в зависимости от текущей ситуации на платформе, она может находиться в одном из следующих состояний:
-
Статус оповещения
-
Alert: По крайней мере одно правило в политике оповещений сработало и вызвало оповещение.
-
Processing: По крайней мере одно правило в политике оповещений имеет данные запроса, достигшие или превысившие порог оповещения, и оповещение готовится к срабатыванию — это промежуточное состояние.
-
Normal: Ни одно из правил в политике оповещений не вызвало оповещение.
-
-
Статус подавления (silence должен быть установлен для этой политики оповещений)
-
Silence Waiting: Состояние перед началом подавления после установки режима silence. В этом состоянии, если правило политики вызывает оповещение, уведомления отправляются в обычном режиме.
-
Silencing: Состояние с момента начала подавления до его окончания. В этом состоянии, если правило политики вызывает оповещение, уведомления не отправляются.
-