Глубокое понимание оповещения

Содержание

Основные принципы оповещения

Работа системы оповещения основывается на следующих основных этапах:

  1. Сбор данных:
  • Система оповещения сначала должна собирать данные из различных источников. Эти данные обычно включают показатели производительности оборудования (такие как использование ЦП, использование памяти), показатели производительности программного обеспечения (такие как время отклика, уровень ошибок) и сетевую активность.
  • Источниками данных могут быть специализированное программное обеспечение для мониторинга (такие как Prometheus), лог-файлы и т. д.
  1. Анализ и обработка данных:
  • Собранные данные необходимо проанализировать и обработать, чтобы обнаружить любые показатели, превышающие нормальные пределы.
  1. Триггер оповещения:
  • Когда показатели мониторинга превышают заранее установленные пороги или выявляются как аномальные паттерны, система оповещения активирует оповещение.
  • Безмолвие оповещения может быть использовано для решения, следует ли активировать оповещение, тем самым избегая частого шума оповещений.
  1. Отправка уведомлений:
  • Как только оповещение активировано, система будет отправлять уведомления соответствующему персоналу или командам через заранее определенные каналы связи (такие как электронная почта, SMS, уведомления мобильного приложения и т. д.).
  • Уведомления обычно содержат подробную информацию об оповещении, такую как тип оповещения, затронутые ресурсы, текущие значения метрик, временные метки и возможные предложения по разрешению.

Платформа ASM позволяет пользователям устанавливать политики оповещения (т.е. набор правил оповещения) для сервисов и вычислительных компонентов на основе заранее установленных метрик мониторинга, пользовательских метрик мониторинга и журналов платформы и данных событий. Когда ресурсы демонстрируют аномалии или достигают состояния предварительного предупреждения, система автоматически активирует оповещение.

Совместно с функциональностью уведомлений платформы информация о оповещениях может быть непосредственно отправлена операционному персоналу или разработчикам, обеспечивая их возможность своевременно реагировать и устранять проблемы, что, в свою очередь, гарантирует бесперебойную работу бизнес-платформы.

Типы оповещений

В зависимости от объекта мониторинга платформа определяет следующие типы оповещений:

  • Метрик Оповещения: Платформа уточняет общие метрики мониторинга, которые соответствуют потребностям большинства клиентов. Пользователи могут настраивать оповещения, выбирая метрики мониторинга и устанавливая условия срабатывания. Оповещения активируются, когда данные мониторинга соответствуют условиям срабатывания правил оповещения.

  • Пользовательские Оповещения: Клиенты добавляют специфические для предприятия правила метрик в соответствии со своими собственными сценариями использования, лучше удовлетворяя повышенные потребности предприятий в оповещениях.

  • Логовые Оповещения (только для вычислительных компонентов): Оповещения, активируемые количеством определенных содержаний журнала (Ошибка, Предупреждение и т. д.), найденных в указанном временном диапазоне для вычислительных компонентов.

  • Событийные Оповещения (только для вычислительных компонентов): Оповещения, активируемые количеством причин событий (причин текущего состояния компонента, таких как BackOff, Pulling, Failed и т. д.), найденных в указанном временном диапазоне.

Объяснение состояния оповещения

После установки политик оповещения система будет отслеживать состояние платформы в реальном времени, основываясь на выбранных вами метриках мониторинга. Для каждой политики оповещения, в зависимости от конкретной ситуации на текущей платформе, она будет находиться в одном из следующих состояний:

  • Состояние Оповещения

    • Оповещение: По крайней мере одно правило в политике оповещения активировало оповещение.

    • Обработка: По крайней мере одно правило в политике оповещения запросило данные, которые достигли или превысили порог оповещения, и вскоре будет активировано оповещение, что является промежуточным состоянием.

    • Нормально: Ни одно из правил в политике оповещения не активировало оповещение.

  • Состояние Тишины (тишина должна быть установлена для этой политики оповещения)

    • Ожидание Тишины: Состояние перед началом тишины после установки тишины. В этом состоянии, если правило в политике активирует оповещение, уведомления будут отправлены в обычном порядке.

    • Тишина: Состояние с начала тишины до окончания тишины. В этом состоянии, если правило в политике активирует оповещение, уведомления не будут отправлены.