Alert Policies

Вы можете самостоятельно создать пользовательскую политику оповещений на платформе ASM или быстро создать её с помощью шаблона, предоставленного администратором в управлении платформой.

Содержание

Создание персонализированных политик оповещений

Основываясь на данных мониторинга, логов и событий платформы, в сочетании с функционалом уведомлений платформы, создавайте метрики оповещений, пользовательские оповещения, оповещения по логам и типы оповещений по событиям для сервисов и вычислительных компонентов в рамках одного namespace в текущей сервисной сетке. При возникновении аномалий у ресурсов, на которые направлена политика оповещений, или при достижении мониторинговых данных предопределённого состояния предупреждения, автоматически срабатывают оповещения и отправляются уведомления.

Предварительные условия

  • Если требуется, чтобы конфигурация оповещений автоматически отправляла уведомления, заранее обратитесь к администратору платформы для настройки Notification Policy в разделе Platform Management.

  • Убедитесь, что в кластере, где находятся ресурсы политики оповещений, развернут компонент мониторинга, чтобы созданные на основе метрик мониторинга политики оповещений вступали в силу.

  • Убедитесь, что в кластере, где находятся ресурсы политики оповещений, развернут компонент Elasticsearch, чтобы созданные на основе логов и результатов запросов к событиям политики оповещений вступали в силу.

Быстрый старт

  1. В левой навигационной панели нажмите Alerts > Rules.

  2. Нажмите Create Rule.

Основная информация

В области Basic Information настройте основную информацию политики оповещений. Сначала необходимо выбрать разные типы оповещений.

Resource Alerts

Типы оповещений, разделённые по категориям мониторинговых ресурсов, например, следующие два сценария:

  1. Можно непрерывно мониторить некоторые или все Deployments в текущем namespace и срабатывать оповещение, если их статус развертывания не Running.
  2. Можно непрерывно мониторить конкретный микросервис в текущем namespace и срабатывать оповещение, если уровень ошибок трафика сервиса превышает 20%.

Советы:

  • Если не выбраны связанные параметры в объекте ресурса, по умолчанию выбирается Any. Последующее удаление/добавление объектов ресурсов приведёт к отвязыванию/автоматическому связыванию политики оповещений.
  • Services — необязательный параметр, также можно указать, введя имя и нажав Enter. При вводе поддерживается сопоставление имён сервисов с помощью регулярных выражений, например cert.*.

Event Alerts

Типы оповещений, разделённые по событиям K8s, например, следующий сценарий:

Для Pod с именем Nginx в текущем namespace после добавления правила сопоставления можно срабатывать оповещение, когда статус Pod становится Failed.

Совет: Если в правилах сопоставления не сделан выбор, будут выбраны все ресурсы в рамках некоторого ресурса, а последующее удаление/добавление ресурсов приведёт к отвязыванию/автоматическому связыванию политики оповещений.

Быстрые советы

Если вы планируете непрерывно мониторить сервис OpenTelemetry, выберите Resource Alerts и в качестве метода управления выберите OpenTelemetry.

Правила оповещений

После выбора типа оповещения и настройки области мониторинга согласно вышеуказанным инструкциям, можно добавить соответствующие правила оповещений.

Resource Alerts

  1. В области Rules нажмите Add Alert Rule.

    Примечание: График мониторинга, отображаемый над диалоговым окном, предоставляет предварительный просмотр данных мониторинговых метрик или выражений, который изменяется в реальном времени в зависимости от вашего выбора. Вы можете перепроверить введённые данные на основе графика.

    Monitoring Chart

  2. Выберите тип оповещения и настройте правила оповещений согласно следующим инструкциям.

Metric Alerts: Выберите метрики оповещений, предустановленные платформой.

Custom Alerts

Пожалуйста, следуйте инструкциям ниже для ввода соответствующих данных:

  • Metric Name: Введите имя текущей пользовательской метрики для удобства управления и поиска.
  • Expression: Необходимо добавить конкретное правило метрики в соответствии с вашим сценарием мониторинга для удовлетворения продвинутых потребностей мониторинга и оповещений. Требуется ручной ввод метрик и выражений, распознаваемых Prometheus, например: rate(node_network_receive_bytes{instance="$server",device!~"lo"}[5m]).
  • Unit: Единица измерения мониторинговой метрики, может быть введена вручную как пользовательская единица.
  • Legend Parameters: Для удобства отображения и просмотра данных в легенде можно ввести метку мониторинговых данных как ключ, а value, соответствующее ключу, будет служить идентификатором легенды. Формат ввода: {{.key}}.

Инструкция по настройке параметров легенды: После ввода корректного выражения наведите курсор на запись списка статистики ранжирования справа от графика мониторинга над диалоговым окном, чтобы просмотреть все метки данных. Как показано на рисунке.

App Monitoring

Например: Метки мониторинговых данных, полученных через выражение up{service="kubelet"}, включают "__name__":"up","endpoint":"https-metrics","instance":"192.168.18.2:10250","job":"kubelet","namespace":"kube-system","node":"192.168.18.2","service":"kubelet". Если вы хотите использовать целевой endpoint, собирающий данные, в качестве идентификатора легенды, можно ввести параметр легенды {{.instance}}. Эффект отображения показан на следующем рисунке.

App Monitoring Display

  1. Введите условия срабатывания

Trigger Condition состоит из операторов сравнения, порогов оповещения и длительности (опционально). Результат сравнения между текущим значением/количеством логов/событий мониторинговых метрик и порогом оповещения, а также длительность, в течение которой текущее значение остаётся в пределах порога, определяют, будет ли срабатывать оповещение.

Операторы сравнения: > (больше), >= (больше или равно), == (равно), <= (меньше или равно), < (меньше), != (не равно).

Порог: Порог оповещения принимает только числа. Если у выбранного элемента мониторинга blackbox метод обнаружения — HTTP, а имя метрики выбрано как cluster.blackbox.http.status.code, порог оповещения — это код статуса HTTP-запроса, поддерживается ввод только трёхзначного положительного целого числа, например: 200.

Длительность: Время, в течение которого текущее значение метрики остаётся в пределах порога оповещения. При достижении указанного времени срабатывает оповещение.

  1. Выберите уровень оповещения

Уровень оповещения правила, задаваемый пользователем, позволяет установить разумный уровень оповещения в зависимости от влияния ресурсов, соответствующих правилу, на бизнес-процессы.

Critical: Отказ ресурса, соответствующего правилу оповещения, приводит к прерыванию бизнес-процессов платформы, потере данных и значительному влиянию. Например: Значение состояния здоровья узла равно 0 (недоступен) в течение 3 минут.

High: У ресурса, соответствующего правилу, есть известные проблемы, которые могут вызвать сбои функциональности платформы и повлиять на нормальную работу. Например: Количество доступных pod-групп вычислительного компонента равно 0 в течение 3 минут.

Medium: У ресурса, соответствующего правилу, есть операционные риски. При несвоевременном устранении может повлиять на нормальную работу. Например: Использование CPU узла превышает 80% в течение 3 минут.

Low: У ресурса, соответствующего правилу, есть ожидаемые проблемы, которые в краткосрочной перспективе не влияют на бизнес, но представляют потенциальные риски. Например: Использование CPU узла превышает 70% в течение 3 минут.

  1. Нажмите Add.

Event Alerts

  1. После выбора типа оповещения Event Alerts в области Rules нажмите Add Alert Rule.

  2. Выберите временной диапазон. Например: если временной диапазон установлен на 5 минут, после создания оповещения, если количество событий, удовлетворяющих условиям, достигается в любой 5-минутный период, срабатывает оповещение.

  3. Элементы мониторинга событий
    Мониторьте уровень события или причину события выбранных событий.

  • Event Severity: Уровень серьёзности, определённый для выбранного события, например Warning.
  • Event Reason: Конкретная причина события (Reason, например BackOff, Pulling, Failed и т.д.), подтверждается нажатием Enter. Можно ввести несколько полей, при запросе связь между ними — or, то есть записи, содержащие любую из указанных причин, удовлетворяют критериям запроса.
  1. Условия срабатывания

    Условия срабатывания используют операторы сравнения для определения необходимости оповещения на основе количества записей событий.

  2. Уровень оповещения

    Уровень оповещения правила, задаваемый пользователем, позволяет установить разумный уровень оповещения в зависимости от влияния ресурсов, соответствующих правилу, на бизнес-процессы.

    Critical: Отказ ресурса, соответствующего правилу оповещения, приводит к прерыванию бизнес-процессов платформы, потере данных и значительному влиянию. Например: Значение состояния здоровья узла равно 0 (недоступен) в течение 3 минут.

    High: У ресурса, соответствующего правилу, есть известные проблемы, которые могут вызвать сбои функциональности платформы и повлиять на нормальную работу. Например: Количество доступных pod-групп вычислительного компонента равно 0 в течение 3 минут.

    Medium: У ресурса, соответствующего правилу, есть операционные риски. При несвоевременном устранении может повлиять на нормальную работу. Например: Использование CPU узла превышает 80% в течение 3 минут.

    Low: У ресурса, соответствующего правилу, есть ожидаемые проблемы, которые в краткосрочной перспективе не влияют на бизнес, но представляют потенциальные риски. Например: Использование CPU узла превышает 70% в течение 3 минут.

  3. Нажмите Add.

Проверка результата

Независимо от того, выбрали ли вы пользовательские оповещения или оповещения по событиям, после добавления всплывающее окно закроется, а добавленные записи отобразятся в списке Rules на странице создания политики оповещений.

Конфигурация политики уведомлений (опционально)

Если вы уже создали политику уведомлений на странице управления, вы можете настроить действия уведомлений после срабатывания оповещения в области Policy Configuration.

  1. Нажмите выпадающий список Notification Policy и выберите одну или несколько политик уведомлений, созданных на платформе.

  2. Выберите Alert Notification Interval, настройте интервал отправки сообщений об оповещениях с момента срабатывания оповещения до его возврата в нормальное состояние.

  • Global: Выберите использование глобальной конфигурации по умолчанию платформы. Глобальные конфигурации поддерживают обновления.

  • Custom: После выбора Custom можно настроить интервал отправки сообщений, нажав на выпадающий список рядом с уровнем оповещения.
    Примечание: При выборе No Repeat отправляется только одно сообщение при срабатывании оповещения и при его возврате в норму.

Завершение

После подтверждения корректности введённой информации нажмите Create для завершения операции. Вы можете управлять и просматривать текущий статус каждой политики (например, было ли сработано оповещение) в списке политик оповещений.

Создание политик оповещений с использованием шаблонов

Используйте шаблоны оповещений, созданные на платформе, чтобы быстро создавать политики оповещений для указанных вычислительных компонентов.

Предварительные условия

  • Администраторы создали шаблоны оповещений для вычислительных компонентов на платформе ( Platform Management View > Operations Center > Alerts > Alert Templates).

  • Убедитесь, что в кластере, где находятся ресурсы политики оповещений, развернут компонент мониторинга, чтобы созданные на основе метрик мониторинга политики оповещений вступали в силу.

  • Убедитесь, что в кластере, где находятся ресурсы политики оповещений, развернут компонент Elasticsearch, чтобы созданные на основе логов и результатов запросов к событиям политики оповещений вступали в силу.

Шаги

  1. В левой навигационной панели нажмите Alerts > Rules.
  2. Нажмите на рядом с кнопкой Create Rule > From Template.
  3. Настройте основную информацию политики оповещений и выберите Resource Object и Belonging Cluster.
  4. Нажмите Create.

Последующие операции

Просмотр оповещений в реальном времени

Вы можете просматривать текущий статус оповещений созданных вами политик в списке политик оповещений.

Кроме того, для более наглядного отображения текущей ситуации с оповещениями платформа предлагает функцию панели Real-time Alerts, которая централизованно отображает ресурсы, на которых в данный момент срабатывают оповещения, уровень влияния оповещений и подробную информацию об оповещениях в кластерах текущей сервисной сетки, к которым у вас есть права доступа. Это облегчает операционному персоналу и разработчикам получение оперативного обзора общей ситуации с бизнес-оповещениями на платформе, своевременное устранение факторов сбоев и обеспечение нормальной работы платформы.

Отключение/включение правил оповещений

Для удобного гибкого управления правилами в рамках политики поддерживается возможность отключения/включения правил в созданных политиках оповещений. При отключении статус правила становится -, и правило не учитывается в общем количестве правил политики оповещений; при повторном включении условия срабатывания оповещения, содержащиеся в правиле, снова становятся активными.

Шаги

  1. В левой навигационной панели нажмите Alerts > Rules.

  2. Нажмите на Name правила, которым хотите управлять.

  3. В области Alert Conditions нажмите переключатель Disable/Enable рядом с правилом для его отключения/включения.