• Русский
  • Alert Policies

    Вы можете самостоятельно создать пользовательскую политику оповещений на платформе ASM или быстро создать её с помощью шаблона, предоставленного администратором в управлении платформой.

    Создание персонализированных политик оповещений

    На основе данных мониторинга, логов и событий платформы, в сочетании с функционалом уведомлений платформы, создавайте метрики оповещений, пользовательские оповещения, оповещения по логам и оповещения по событиям для сервисов и вычислительных компонентов в рамках одного namespace текущей сервисной сетки. При возникновении аномалий в ресурсах, на которые направлена политика оповещений, или при достижении мониторинговыми данными заранее заданного состояния предупреждения, автоматически срабатывают оповещения и отправляются уведомления.

    Предварительные условия

    • Если требуется, чтобы конфигурация оповещений автоматически отправляла уведомления, заранее обратитесь к администратору платформы для настройки Notification Policy в разделе Platform Management.

    • Убедитесь, что в кластере, где расположены ресурсы политики оповещений, развернут компонент мониторинга, чтобы созданные на основе метрик мониторинга политики оповещений были активны.

    • Убедитесь, что в кластере, где расположены ресурсы политики оповещений, развернут компонент Elasticsearch, чтобы созданные на основе логов и результатов запросов по событиям политики оповещений были активны.

    Быстрый старт

    1. В левой навигационной панели нажмите Alerts > Rules.

    2. Нажмите Create Rule.

    Основная информация

    В области Basic Information настройте основную информацию политики оповещений. Сначала необходимо выбрать типы оповещений.

    Resource Alerts

    Типы оповещений, разделённые по категориям мониторинговых ресурсов, например, следующие сценарии:

    1. Можно непрерывно мониторить некоторые или все Deployments в текущем namespace и срабатывать на оповещение, если их статус развертывания не Running.
    2. Можно непрерывно мониторить конкретный микросервис в текущем namespace и срабатывать на оповещение, если процент ошибок трафика сервиса превышает 20%.

    Советы:

    • Если не выбраны параметры, связанные с объектом ресурса, по умолчанию выбирается Any. Последующее удаление/добавление объектов ресурсов приведёт к отвязке/автоматической привязке политики оповещений.
    • Services — необязательный параметр, также можно указать, введя имя и нажав Enter. При вводе поддерживается сопоставление имён сервисов с помощью регулярных выражений, например cert.*.

    Event Alerts

    Типы оповещений, разделённые по событиям K8s, например, следующий сценарий:

    Для Pod с именем Nginx в текущем namespace после добавления правила сопоставления можно срабатывать на оповещение, если статус Pod — Failed.

    Совет: Если в правилах сопоставления ничего не выбрано, будут выбраны все ресурсы в рамках некоторого ресурса, и последующее удаление/добавление ресурсов приведёт к отвязке/автоматической привязке политики оповещений.

    Быстрые советы

    Если вы хотите непрерывно мониторить сервис OpenTelemetry, выберите Resource Alerts и в качестве метода управления выберите OpenTelemetry.

    Правила оповещений

    После выбора типа оповещения и настройки области мониторинга согласно вышеуказанным инструкциям можно добавить соответствующие правила оповещений.

    Resource Alerts

    1. В области Rules нажмите Add Alert Rule.

      Примечание: График мониторинга, отображаемый над диалоговым окном, предоставляет предварительный просмотр данных метрик или выражений мониторинга, который меняется в реальном времени в зависимости от вашего выбора. Вы можете перепроверить введённые данные по графику.

      Monitoring Chart

    2. Выберите тип оповещения и настройте правила оповещений согласно следующим инструкциям.

    Metric Alerts: Выберите предустановленные платформой метрики оповещений.

    Custom Alerts

    Пожалуйста, следуйте инструкциям ниже для ввода соответствующих данных:

    • Metric Name: Введите имя текущей пользовательской метрики для удобства управления и поиска.
    • Expression: Необходимо добавить конкретное правило метрики в соответствии с вашим сценарием мониторинга для удовлетворения продвинутых потребностей мониторинга и оповещений. Требуется вручную ввести метрики и выражения, распознаваемые Prometheus, например: rate(node_network_receive_bytes{instance="$server",device!~"lo"}[5m]).
    • Unit: Единица измерения метрики мониторинга, может быть введена вручную как пользовательская единица.
    • Legend Parameters: Для удобства отображения и просмотра данных в легенде можно ввести метку мониторинговых данных как ключ, а соответствующее ключу value будет служить идентификатором в легенде. Формат ввода: {{.key}}.

    Инструкция по настройке параметров легенды: После ввода корректного выражения наведите курсор на запись в списке статистики ранжирования справа от графика мониторинга над диалоговым окном, чтобы просмотреть все метки данных. Как показано на рисунке.

    App Monitoring

    Например: Метки мониторинговых данных, полученных через выражение up{service="kubelet"}, включают "__name__":"up","endpoint":"https-metrics","instance":"192.168.18.2:10250","job":"kubelet","namespace":"kube-system","node":"192.168.18.2","service":"kubelet". Если вы хотите использовать целевой endpoint, собирающий данные, в качестве идентификатора легенды, можно ввести параметр легенды {{.instance}}. Эффект отображения показан на следующем рисунке.

    App Monitoring Display

    1. Введите условия срабатывания

    Trigger Condition состоит из операторов сравнения, порогов оповещения и длительности (опционально). Результат сравнения между текущим значением/количеством логов/количеством событий мониторинговых метрик и порогом оповещения, а также длительность, в течение которой текущее значение находится в пределах порога, определяют, будет ли срабатывать оповещение.

    Операторы сравнения: > (больше), >= (больше или равно), == (равно), <= (меньше или равно), < (меньше), != (не равно).

    Порог: Порог оповещения принимает только числа. Если для выбранного элемента мониторинга blackbox метод обнаружения — HTTP, а имя метрики выбрано как cluster.blackbox.http.status.code, порог оповещения — это код статуса HTTP-запроса, поддерживается ввод только трёхзначного положительного целого числа, например: 200.

    Длительность: Время, в течение которого текущее значение метрики остаётся в пределах порога оповещения. При достижении указанного времени срабатывает оповещение.

    1. Выберите уровень оповещения

    Уровень оповещения правила, задаваемый пользователем, позволяет установить разумный уровень оповещения в зависимости от влияния ресурсов, соответствующих правилу, на бизнес-процессы.

    Critical: Отказ ресурса, соответствующего правилу оповещения, приводит к прерыванию бизнес-процессов платформы, потере данных и значительному воздействию. Например: Значение статуса здоровья узла равно 0 (недоступен) в течение 3 минут.

    High: Ресурс, соответствующий правилу оповещения, имеет известные проблемы, которые могут вызвать сбои в функциональности платформы, влияя на нормальную работу. Например: Количество доступных pod-групп вычислительного компонента равно 0 в течение 3 минут.

    Medium: Ресурс, соответствующий правилу оповещения, имеет операционные риски. При несвоевременном устранении может повлиять на нормальную работу. Например: Использование CPU узла превышает 80% в течение 3 минут.

    Low: Ресурс, соответствующий правилу оповещения, имеет ожидаемые проблемы, которые в краткосрочной перспективе не влияют на бизнес, но представляют потенциальные риски. Например: Использование CPU узла превышает 70% в течение 3 минут.

    1. Нажмите Add.

    Event Alerts

    1. После выбора типа оповещения Event Alerts в области Rules нажмите Add Alert Rule.

    2. Выберите временной диапазон. Например: Если временной диапазон установлен на 5 минут, после создания оповещения, если количество событий, удовлетворяющих условиям, достигается в любой 5-минутный период, срабатывает оповещение.

    3. Элементы мониторинга событий
      Мониторьте уровень события или причину события выбранных событий.

    • Event Severity: Уровень серьёзности, определённый для выбранного события, например Warning.
    • Event Reason: Конкретная причина события (Reason, например BackOff, Pulling, Failed и т. д.), подтверждается нажатием клавиши Enter. Можно ввести несколько значений, при запросе между ними действует логика or, то есть записи, содержащие любую из указанных причин события, соответствуют критериям запроса.
    1. Условия срабатывания

      Условия срабатывания используют операторы сравнения для определения необходимости оповещения на основе количества записей событий.

    2. Уровень оповещения

      Уровень оповещения правила, задаваемый пользователем, позволяет установить разумный уровень оповещения в зависимости от влияния ресурсов, соответствующих правилу, на бизнес-процессы.

      Critical: Отказ ресурса, соответствующего правилу оповещения, приводит к прерыванию бизнес-процессов платформы, потере данных и значительному воздействию. Например: Значение статуса здоровья узла равно 0 (недоступен) в течение 3 минут.

      High: Ресурс, соответствующий правилу оповещения, имеет известные проблемы, которые могут вызвать сбои в функциональности платформы, влияя на нормальную работу. Например: Количество доступных pod-групп вычислительного компонента равно 0 в течение 3 минут.

      Medium: Ресурс, соответствующий правилу оповещения, имеет операционные риски. При несвоевременном устранении может повлиять на нормальную работу. Например: Использование CPU узла превышает 80% в течение 3 минут.

      Low: Ресурс, соответствующий правилу оповещения, имеет ожидаемые проблемы, которые в краткосрочной перспективе не влияют на бизнес, но представляют потенциальные риски. Например: Использование CPU узла превышает 70% в течение 3 минут.

    3. Нажмите Add.

    Проверка результата

    Независимо от того, выбрали ли вы пользовательские оповещения или оповещения по событиям, после добавления всплывающее окно закрывается, а добавленные записи отображаются в списке Rules на странице создания политики оповещений.

    Настройка политики уведомлений (опционально)

    Если вы уже создали политику уведомлений на странице управления, в области Policy Configuration можно настроить действия уведомлений после срабатывания оповещения.

    1. Нажмите выпадающий список Notification Policy и выберите одну или несколько политик уведомлений, созданных на платформе.

    2. Выберите Alert Notification Interval, настройте интервал отправки сообщений об оповещениях с момента срабатывания оповещения до его возврата в нормальное состояние.

    • Global: Использовать глобальную конфигурацию по умолчанию платформы. Глобальные конфигурации поддерживают обновления.

    • Custom: После выбора Custom можно настроить интервал отправки сообщений, нажав на выпадающий список рядом с уровнем оповещения.
      Примечание: При выборе No Repeat отправляется только одно сообщение при срабатывании оповещения и при его возврате в норму.

    Завершение

    После проверки правильности введённой информации нажмите Create для завершения операции. Вы можете управлять и просматривать текущий статус каждой политики (например, было ли сработано оповещение) в списке политик оповещений.

    Создание политик оповещений с использованием шаблонов

    Используйте созданные на платформе шаблоны оповещений для быстрого создания политик оповещений для указанных вычислительных компонентов.

    Предварительные условия

    • Администраторы создали шаблоны оповещений для вычислительных компонентов на платформе ( Platform Management View > Operations Center > Alerts > Alert Templates).

    • Убедитесь, что в кластере, где расположены ресурсы политики оповещений, развернут компонент мониторинга, чтобы созданные на основе метрик мониторинга политики оповещений были активны.

    • Убедитесь, что в кластере, где расположены ресурсы политики оповещений, развернут компонент Elasticsearch, чтобы созданные на основе логов и результатов запросов по событиям политики оповещений были активны.

    Шаги

    1. В левой навигационной панели нажмите Alerts > Rules.
    2. Нажмите на рядом с кнопкой Create Rule > From Template.
    3. Настройте основную информацию политики оповещений и выберите Resource Object и Belonging Cluster.
    4. Нажмите Create.

    Последующие операции

    Просмотр оповещений в реальном времени

    Вы можете просматривать текущий статус оповещений созданных вами политик в списке политик оповещений.

    Кроме того, для более наглядного отображения текущей ситуации с оповещениями платформа предоставляет панель Real-time Alerts, которая централизованно отображает ресурсы, на которых в данный момент срабатывают оповещения, уровень влияния оповещений и подробную информацию об оповещениях в кластерах текущей сервисной сетки, к которым у вас есть права доступа. Это облегчает операционному персоналу и разработчикам получение оперативного обзора общей ситуации с бизнес-оповещениями на платформе, своевременное устранение причин сбоев и обеспечение нормальной работы платформы.

    Отключение/включение правил оповещений

    Для удобного гибкого управления правилами в рамках политики поддерживается возможность отключения/включения правил в созданных политиках оповещений. При отключении статус правила становится -, и правило не учитывается в общем количестве правил политики оповещений; при повторном включении условия срабатывания оповещения, содержащиеся в правиле, снова становятся активными.

    Шаги

    1. В левой навигационной панели нажмите Alerts > Rules.

    2. Нажмите на Name правила, которым хотите управлять.

    3. В области Alert Conditions переключите тумблер Disable/Enable рядом с правилом для его отключения или включения.