Alert Policies

Вы можете самостоятельно создать пользовательскую политику оповещений на платформе ASM или быстро создать её с помощью шаблона, предоставленного администратором в управлении платформой.

Содержание

Создание персонализированных политик оповещений

Основываясь на данных мониторинга, логов и событий платформы, в сочетании с функционалом уведомлений платформы, создавайте метрики оповещений, пользовательские оповещения, лог-оповещения и типы оповещений по событиям для сервисов и вычислительных компонентов в одном namespace текущей сервисной сетки. При возникновении аномалий в ресурсах, на которые направлена политика оповещений, или при достижении мониторинговыми данными заранее заданного состояния предупреждения, автоматически срабатывают оповещения и отправляются уведомления.

Предварительные требования

  • Если требуется, чтобы конфигурация оповещений автоматически отправляла уведомления, заранее обратитесь к администратору платформы для настройки Notification Policy в разделе Platform Management.

  • Убедитесь, что в кластере, где расположены ресурсы политики оповещений, развернут компонент мониторинга, чтобы политики оповещений, созданные на основе метрик мониторинга, вступали в силу.

  • Убедитесь, что в кластере, где расположены ресурсы политики оповещений, развернут компонент Elasticsearch, чтобы политики оповещений, созданные на основе логов и результатов запросов событий, вступали в силу.

Быстрый старт

  1. В левой навигационной панели нажмите Alerts > Rules.

  2. Нажмите Create Rule.

Основная информация

В области Basic Information настройте основную информацию политики оповещений. Сначала необходимо выбрать различные типы оповещений.

Resource Alerts

Типы оповещений, разделённые по категориям мониторинговых ресурсов, например, следующие сценарии:

  1. Можно непрерывно мониторить некоторые или все Deployments в текущем namespace и срабатывать оповещение, если их статус развертывания не Running.
  2. Можно непрерывно мониторить конкретный микросервис в текущем namespace и срабатывать оповещение, если уровень ошибок трафика сервиса превышает 20%.

Советы:

  • Если не выбраны параметры, связанные с объектом ресурса, по умолчанию выбирается Any. Последующее удаление/добавление объектов ресурсов приведёт к отвязыванию/автоматическому связыванию политики оповещений.
  • Services — необязательный параметр, также можно указать, введя имя и нажав Enter. При вводе поддерживается сопоставление имён сервисов с регулярными выражениями, например cert.*.

Event Alerts

Типы оповещений, разделённые по событиям K8s, например, следующий сценарий:

Для Pod с именем Nginx в текущем namespace после добавления правила сопоставления оповещение сработает, если статус Pod будет Failed.

Совет: Если в правилах сопоставления не выбрано ничего, будут выбраны все ресурсы под некоторым ресурсом, и последующее удаление/добавление ресурсов приведёт к отвязыванию/автоматическому связыванию политики оповещений.

Быстрые советы

Если вы планируете непрерывно мониторить сервис OpenTelemetry, выберите Resource Alerts и в качестве метода управления выберите OpenTelemetry.

Правила оповещений

После выбора типа оповещения и настройки области мониторинга согласно вышеуказанным инструкциям можно добавить соответствующие правила оповещений.

Resource Alerts

  1. В области Rules нажмите Add Alert Rule.

    Примечание: График мониторинга, отображаемый над диалоговым окном, предоставляет предварительный просмотр данных метрик мониторинга или выражений, который изменяется в реальном времени в зависимости от вашего выбора. Вы можете перепроверить введённые данные по графику.

    Monitoring Chart

  2. Выберите тип оповещения и настройте правила оповещений согласно следующим инструкциям.

Metric Alerts: Выберите метрики оповещений, предустановленные платформой.

Custom Alerts

Пожалуйста, следуйте инструкциям ниже для ввода соответствующих данных:

  • Metric Name: Введите имя текущей пользовательской метрики для удобства управления и поиска.
  • Expression: Необходимо добавить конкретное правило метрики в соответствии с вашим сценарием мониторинга для удовлетворения продвинутых требований к мониторингу и оповещениям. Требуется ручной ввод метрик и выражений, распознаваемых Prometheus, например: rate(node_network_receive_bytes{instance="$server",device!~"lo"}[5m]).
  • Unit: Единица измерения метрики мониторинга, может быть введена вручную как пользовательская единица.
  • Legend Parameters: Для удобства отображения и просмотра данных в легенде можно ввести метку мониторинговых данных в качестве ключа, а соответствующее ключу value будет служить идентификатором в легенде. Формат ввода: {{.key}}.

Инструкция по настройке параметров легенды: После ввода корректного выражения наведите курсор на запись в списке статистики ранжирования справа от графика мониторинга над диалоговым окном, чтобы просмотреть все метки данных. Как показано на рисунке.

App Monitoring

Например: Метки мониторинговых данных, полученных через выражение up{service="kubelet"}, включают "__name__":"up","endpoint":"https-metrics","instance":"192.168.18.2:10250","job":"kubelet","namespace":"kube-system","node":"192.168.18.2","service":"kubelet". Если вы хотите использовать целевой endpoint, который собирает данные, в качестве идентификатора легенды, можно ввести параметр легенды {{.instance}}. Эффект отображения показан на следующем рисунке.

App Monitoring Display

  1. Введите условия срабатывания

Trigger Condition состоит из операторов сравнения, порогов оповещения и длительности (опционально). Результат сравнения между текущим значением/количеством логов/количеством событий мониторинговых метрик и порогом оповещения, а также длительность, в течение которой текущее значение остаётся в пределах порога, определяют, будет ли срабатывать оповещение.

Операторы сравнения: > (больше), >= (больше или равно), == (равно), <= (меньше или равно), < (меньше), != (не равно).

Порог: Порог оповещения принимает только числа. Когда для выбранного элемента мониторинга black box метод обнаружения — HTTP, а имя метрики — cluster.blackbox.http.status.code, порог оповещения — это код статуса HTTP-запроса, поддерживается ввод только трёхзначного положительного целого числа, например: 200.

Длительность: Время, в течение которого текущее значение метрики остаётся в пределах порога оповещения. При достижении указанного времени срабатывает оповещение.

  1. Выберите уровень оповещения

Уровень оповещения правила, задаваемый пользователем, позволяет установить разумный уровень оповещения в зависимости от влияния ресурсов, соответствующих правилу, на бизнес-процессы.

Critical: Отказ ресурса, соответствующего правилу оповещения, приводит к прерыванию бизнес-процессов платформы, потере данных и значительному воздействию. Например: Значение статуса здоровья узла равно 0 (недоступен) в течение 3 минут.

High: Ресурс, соответствующий правилу оповещения, имеет известные проблемы, которые могут вызвать сбои функциональности платформы, влияя на нормальную работу. Например: Количество доступных pod-групп вычислительного компонента равно 0 в течение 3 минут.

Medium: Ресурс, соответствующий правилу оповещения, имеет операционные риски. При несвоевременном устранении может повлиять на нормальную работу. Например: Использование CPU узла превышает 80% в течение 3 минут.

Low: Ресурс, соответствующий правилу оповещения, имеет ожидаемые проблемы, которые не влияют на бизнес в краткосрочной перспективе, но представляют потенциальные риски. Например: Использование CPU узла превышает 70% в течение 3 минут.

  1. Нажмите Add.

Event Alerts

  1. После выбора типа оповещения Event Alerts в области Rules нажмите Add Alert Rule.

  2. Выберите временной диапазон. Например: Если временной диапазон установлен на 5 минут, после создания оповещения, если количество событий, соответствующих условиям, достигнуто в любой 5-минутный период, срабатывает оповещение.

  3. Элементы мониторинга событий
    Мониторинг уровня события или причины события выбранных событий.

  • Event Severity: Уровень серьёзности, определённый для выбранного события, например Warning.
  • Event Reason: Конкретная причина события (Reason, например BackOff, Pulling, Failed и т.д.), подтверждается нажатием клавиши Enter. Можно ввести несколько значений, при запросе связь между ними — or, то есть записи, содержащие любую из указанных причин, соответствуют критериям запроса.
  1. Условия срабатывания

    Условия срабатывания используют операторы сравнения для определения необходимости оповещения на основе количества записей событий.

  2. Уровень оповещения

    Уровень оповещения правила, задаваемый пользователем, позволяет установить разумный уровень оповещения в зависимости от влияния ресурсов, соответствующих правилу, на бизнес-процессы.

    Critical: Отказ ресурса, соответствующего правилу оповещения, приводит к прерыванию бизнес-процессов платформы, потере данных и значительному воздействию. Например: Значение статуса здоровья узла равно 0 (недоступен) в течение 3 минут.

    High: Ресурс, соответствующий правилу оповещения, имеет известные проблемы, которые могут вызвать сбои функциональности платформы, влияя на нормальную работу. Например: Количество доступных pod-групп вычислительного компонента равно 0 в течение 3 минут.

    Medium: Ресурс, соответствующий правилу оповещения, имеет операционные риски. При несвоевременном устранении может повлиять на нормальную работу. Например: Использование CPU узла превышает 80% в течение 3 минут.

    Low: Ресурс, соответствующий правилу оповещения, имеет ожидаемые проблемы, которые не влияют на бизнес в краткосрочной перспективе, но представляют потенциальные риски. Например: Использование CPU узла превышает 70% в течение 3 минут.

  3. Нажмите Add.

Проверка результата

Независимо от того, выбрали ли вы пользовательские оповещения или оповещения по событиям, после добавления всплывающее окно закроется, а добавленные вами записи отобразятся в списке Rules на странице создания политики оповещений.

Настройка политики уведомлений (опционально)

Если вы уже создали политику уведомлений на странице управления, вы можете задать действия уведомления после срабатывания оповещения в области Policy Configuration.

  1. Нажмите на выпадающий список Notification Policy и выберите одну или несколько политик уведомлений, созданных на платформе.

  2. Выберите Alert Notification Interval, настройте интервал отправки сообщений об оповещениях с момента срабатывания оповещения до его возврата в нормальное состояние.

  • Global: Выберите использование глобальной конфигурации по умолчанию платформы. Глобальные конфигурации поддерживают обновления.

  • Custom: После выбора Custom можно настроить интервал отправки сообщений об оповещениях, нажав на выпадающий список рядом с уровнем оповещения.
    Примечание: При выборе No Repeat отправляется только одно сообщение при срабатывании оповещения и при его возврате в норму.

Завершение

После проверки правильности введённой информации нажмите Create для завершения операции. Вы можете управлять и просматривать текущий статус каждой политики (например, было ли сработано оповещение) в списке политик оповещений.

Создание политик оповещений с использованием шаблонов

Используйте шаблоны оповещений, созданные на платформе, чтобы быстро создавать политики оповещений для указанных вычислительных компонентов.

Предварительные требования

  • Администраторы создали шаблоны оповещений для вычислительных компонентов на платформе ( Platform Management View > Operations Center > Alerts > Alert Templates).

  • Убедитесь, что в кластере, где расположены ресурсы политики оповещений, развернут компонент мониторинга, чтобы политики оповещений, созданные на основе метрик мониторинга, вступали в силу.

  • Убедитесь, что в кластере, где расположены ресурсы политики оповещений, развернут компонент Elasticsearch, чтобы политики оповещений, созданные на основе логов и результатов запросов событий, вступали в силу.

Шаги

  1. В левой навигационной панели нажмите Alerts > Rules.
  2. Нажмите на рядом с кнопкой Create Rule > From Template.
  3. Настройте основную информацию политики оповещений и выберите Resource Object и Belonging Cluster.
  4. Нажмите Create.

Последующие операции

Просмотр оповещений в реальном времени

Вы можете просматривать текущий статус оповещений созданных вами политик в списке политик оповещений.

Кроме того, для более наглядного отображения текущей ситуации с оповещениями платформа предлагает функцию панели Real-time Alerts, которая централизованно отображает ресурсы, находящиеся в состоянии оповещения, уровень влияния оповещений и подробную информацию об оповещениях в кластерах текущей сервисной сетки, к которым у вас есть права доступа. Это облегчает операционному персоналу и разработчикам получение актуального обзора общей ситуации с оповещениями бизнеса на платформе, своевременное устранение факторов сбоев и обеспечение нормальной работы платформы.

Отключение/включение правил оповещений

Для удобства гибкого управления правилами в политике поддерживается возможность отключения/включения правил в созданных политиках оповещений. При отключении статус правила становится -, и правило не учитывается в общем количестве правил политики оповещений; при повторном включении условия срабатывания оповещения, содержащиеся в правиле, снова становятся активными.

Шаги

  1. В левой навигационной панели нажмите Alerts > Rules.

  2. Нажмите на Name правила, которым нужно управлять.

  3. В области Alert Conditions нажмите переключатель Disable/Enable рядом с правилом для его отключения/включения.