Вы можете самостоятельно создать пользовательскую политику оповещений на платформе ASM или быстро создать её с помощью шаблона, предоставленного администратором в управлении платформой.
Основываясь на данных мониторинга, логов и событий платформы, в сочетании с функционалом уведомлений платформы, создавайте метрики оповещений, пользовательские оповещения, лог-оповещения и типы оповещений по событиям для сервисов и вычислительных компонентов в одном namespace текущей сервисной сетки. При возникновении аномалий в ресурсах, на которые направлена политика оповещений, или при достижении мониторинговыми данными заранее заданного состояния предупреждения, автоматически срабатывают оповещения и отправляются уведомления.
Если требуется, чтобы конфигурация оповещений автоматически отправляла уведомления, заранее обратитесь к администратору платформы для настройки Notification Policy в разделе Platform Management.
Убедитесь, что в кластере, где расположены ресурсы политики оповещений, развернут компонент мониторинга, чтобы политики оповещений, созданные на основе метрик мониторинга, вступали в силу.
Убедитесь, что в кластере, где расположены ресурсы политики оповещений, развернут компонент Elasticsearch, чтобы политики оповещений, созданные на основе логов и результатов запросов событий, вступали в силу.
В левой навигационной панели нажмите Alerts > Rules.
Нажмите Create Rule.
В области Basic Information настройте основную информацию политики оповещений. Сначала необходимо выбрать различные типы оповещений.
Resource Alerts
Типы оповещений, разделённые по категориям мониторинговых ресурсов, например, следующие сценарии:
Советы:
cert.*
.Event Alerts
Типы оповещений, разделённые по событиям K8s, например, следующий сценарий:
Для Pod с именем Nginx в текущем namespace после добавления правила сопоставления оповещение сработает, если статус Pod будет Failed.
Совет: Если в правилах сопоставления не выбрано ничего, будут выбраны все ресурсы под некоторым ресурсом, и последующее удаление/добавление ресурсов приведёт к отвязыванию/автоматическому связыванию политики оповещений.
Быстрые советы
Если вы планируете непрерывно мониторить сервис OpenTelemetry, выберите Resource Alerts и в качестве метода управления выберите OpenTelemetry.
После выбора типа оповещения и настройки области мониторинга согласно вышеуказанным инструкциям можно добавить соответствующие правила оповещений.
В области Rules нажмите Add Alert Rule.
Примечание: График мониторинга, отображаемый над диалоговым окном, предоставляет предварительный просмотр данных метрик мониторинга или выражений, который изменяется в реальном времени в зависимости от вашего выбора. Вы можете перепроверить введённые данные по графику.
Выберите тип оповещения и настройте правила оповещений согласно следующим инструкциям.
Metric Alerts: Выберите метрики оповещений, предустановленные платформой.
Custom Alerts
Пожалуйста, следуйте инструкциям ниже для ввода соответствующих данных:
rate(node_network_receive_bytes{instance="$server",device!~"lo"}[5m])
.value
будет служить идентификатором в легенде. Формат ввода: {{.key}}
.Инструкция по настройке параметров легенды: После ввода корректного выражения наведите курсор на запись в списке статистики ранжирования справа от графика мониторинга над диалоговым окном, чтобы просмотреть все метки данных. Как показано на рисунке.
Например: Метки мониторинговых данных, полученных через выражение up{service="kubelet"}
, включают "__name__":"up","endpoint":"https-metrics","instance":"192.168.18.2:10250","job":"kubelet","namespace":"kube-system","node":"192.168.18.2","service":"kubelet"
. Если вы хотите использовать целевой endpoint, который собирает данные, в качестве идентификатора легенды, можно ввести параметр легенды {{.instance}}
. Эффект отображения показан на следующем рисунке.
Trigger Condition состоит из операторов сравнения, порогов оповещения и длительности (опционально). Результат сравнения между текущим значением/количеством логов/количеством событий мониторинговых метрик и порогом оповещения, а также длительность, в течение которой текущее значение остаётся в пределах порога, определяют, будет ли срабатывать оповещение.
Операторы сравнения: > (больше), >= (больше или равно), == (равно), <= (меньше или равно), < (меньше), != (не равно).
Порог: Порог оповещения принимает только числа. Когда для выбранного элемента мониторинга black box метод обнаружения — HTTP
, а имя метрики — cluster.blackbox.http.status.code
, порог оповещения — это код статуса HTTP-запроса, поддерживается ввод только трёхзначного положительного целого числа, например: 200.
Длительность: Время, в течение которого текущее значение метрики остаётся в пределах порога оповещения. При достижении указанного времени срабатывает оповещение.
Уровень оповещения правила, задаваемый пользователем, позволяет установить разумный уровень оповещения в зависимости от влияния ресурсов, соответствующих правилу, на бизнес-процессы.
Critical: Отказ ресурса, соответствующего правилу оповещения, приводит к прерыванию бизнес-процессов платформы, потере данных и значительному воздействию. Например: Значение статуса здоровья узла равно 0 (недоступен) в течение 3 минут.
High: Ресурс, соответствующий правилу оповещения, имеет известные проблемы, которые могут вызвать сбои функциональности платформы, влияя на нормальную работу. Например: Количество доступных pod-групп вычислительного компонента равно 0 в течение 3 минут.
Medium: Ресурс, соответствующий правилу оповещения, имеет операционные риски. При несвоевременном устранении может повлиять на нормальную работу. Например: Использование CPU узла превышает 80% в течение 3 минут.
Low: Ресурс, соответствующий правилу оповещения, имеет ожидаемые проблемы, которые не влияют на бизнес в краткосрочной перспективе, но представляют потенциальные риски. Например: Использование CPU узла превышает 70% в течение 3 минут.
После выбора типа оповещения Event Alerts в области Rules нажмите Add Alert Rule.
Выберите временной диапазон. Например: Если временной диапазон установлен на 5 минут, после создания оповещения, если количество событий, соответствующих условиям, достигнуто в любой 5-минутный период, срабатывает оповещение.
Элементы мониторинга событий
Мониторинг уровня события или причины события выбранных событий.
or
, то есть записи, содержащие любую из указанных причин, соответствуют критериям запроса.Условия срабатывания
Условия срабатывания используют операторы сравнения для определения необходимости оповещения на основе количества записей событий.
Уровень оповещения
Уровень оповещения правила, задаваемый пользователем, позволяет установить разумный уровень оповещения в зависимости от влияния ресурсов, соответствующих правилу, на бизнес-процессы.
Critical: Отказ ресурса, соответствующего правилу оповещения, приводит к прерыванию бизнес-процессов платформы, потере данных и значительному воздействию. Например: Значение статуса здоровья узла равно 0 (недоступен) в течение 3 минут.
High: Ресурс, соответствующий правилу оповещения, имеет известные проблемы, которые могут вызвать сбои функциональности платформы, влияя на нормальную работу. Например: Количество доступных pod-групп вычислительного компонента равно 0 в течение 3 минут.
Medium: Ресурс, соответствующий правилу оповещения, имеет операционные риски. При несвоевременном устранении может повлиять на нормальную работу. Например: Использование CPU узла превышает 80% в течение 3 минут.
Low: Ресурс, соответствующий правилу оповещения, имеет ожидаемые проблемы, которые не влияют на бизнес в краткосрочной перспективе, но представляют потенциальные риски. Например: Использование CPU узла превышает 70% в течение 3 минут.
Нажмите Add.
Независимо от того, выбрали ли вы пользовательские оповещения или оповещения по событиям, после добавления всплывающее окно закроется, а добавленные вами записи отобразятся в списке Rules на странице создания политики оповещений.
Если вы уже создали политику уведомлений на странице управления, вы можете задать действия уведомления после срабатывания оповещения в области Policy Configuration.
Нажмите на выпадающий список Notification Policy и выберите одну или несколько политик уведомлений, созданных на платформе.
Выберите Alert Notification Interval, настройте интервал отправки сообщений об оповещениях с момента срабатывания оповещения до его возврата в нормальное состояние.
Global: Выберите использование глобальной конфигурации по умолчанию платформы. Глобальные конфигурации поддерживают обновления.
Custom: После выбора Custom можно настроить интервал отправки сообщений об оповещениях, нажав на выпадающий список рядом с уровнем оповещения.
Примечание: При выборе No Repeat отправляется только одно сообщение при срабатывании оповещения и при его возврате в норму.
После проверки правильности введённой информации нажмите Create для завершения операции. Вы можете управлять и просматривать текущий статус каждой политики (например, было ли сработано оповещение) в списке политик оповещений.
Используйте шаблоны оповещений, созданные на платформе, чтобы быстро создавать политики оповещений для указанных вычислительных компонентов.
Администраторы создали шаблоны оповещений для вычислительных компонентов на платформе ( Platform Management View > Operations Center > Alerts > Alert Templates).
Убедитесь, что в кластере, где расположены ресурсы политики оповещений, развернут компонент мониторинга, чтобы политики оповещений, созданные на основе метрик мониторинга, вступали в силу.
Убедитесь, что в кластере, где расположены ресурсы политики оповещений, развернут компонент Elasticsearch, чтобы политики оповещений, созданные на основе логов и результатов запросов событий, вступали в силу.
Вы можете просматривать текущий статус оповещений созданных вами политик в списке политик оповещений.
Кроме того, для более наглядного отображения текущей ситуации с оповещениями платформа предлагает функцию панели Real-time Alerts, которая централизованно отображает ресурсы, находящиеся в состоянии оповещения, уровень влияния оповещений и подробную информацию об оповещениях в кластерах текущей сервисной сетки, к которым у вас есть права доступа. Это облегчает операционному персоналу и разработчикам получение актуального обзора общей ситуации с оповещениями бизнеса на платформе, своевременное устранение факторов сбоев и обеспечение нормальной работы платформы.
Для удобства гибкого управления правилами в политике поддерживается возможность отключения/включения правил в созданных политиках оповещений. При отключении статус правила становится -
, и правило не учитывается в общем количестве правил политики оповещений; при повторном включении условия срабатывания оповещения, содержащиеся в правиле, снова становятся активными.
Шаги
В левой навигационной панели нажмите Alerts > Rules.
Нажмите на Name правила, которым нужно управлять.
В области Alert Conditions нажмите переключатель Disable/Enable рядом с правилом для его отключения/включения.