Вы можете самостоятельно создать пользовательскую политику оповещений на платформе ASM или быстро создать её с помощью шаблона, предоставленного администратором в управлении платформой.
Основываясь на данных мониторинга, логов и событий платформы, в сочетании с функционалом уведомлений платформы, создавайте метрики оповещений, пользовательские оповещения, оповещения по логам и типы оповещений по событиям для сервисов и вычислительных компонентов в рамках одного namespace в текущей сервисной сетке. При возникновении аномалий у ресурсов, на которые направлена политика оповещений, или при достижении мониторинговых данных предопределённого состояния предупреждения, автоматически срабатывают оповещения и отправляются уведомления.
Если требуется, чтобы конфигурация оповещений автоматически отправляла уведомления, заранее обратитесь к администратору платформы для настройки Notification Policy в разделе Platform Management.
Убедитесь, что в кластере, где находятся ресурсы политики оповещений, развернут компонент мониторинга, чтобы созданные на основе метрик мониторинга политики оповещений вступали в силу.
Убедитесь, что в кластере, где находятся ресурсы политики оповещений, развернут компонент Elasticsearch, чтобы созданные на основе логов и результатов запросов к событиям политики оповещений вступали в силу.
В левой навигационной панели нажмите Alerts > Rules.
Нажмите Create Rule.
В области Basic Information настройте основную информацию политики оповещений. Сначала необходимо выбрать разные типы оповещений.
Resource Alerts
Типы оповещений, разделённые по категориям мониторинговых ресурсов, например, следующие два сценария:
Советы:
cert.*
.Event Alerts
Типы оповещений, разделённые по событиям K8s, например, следующий сценарий:
Для Pod с именем Nginx в текущем namespace после добавления правила сопоставления можно срабатывать оповещение, когда статус Pod становится Failed.
Совет: Если в правилах сопоставления не сделан выбор, будут выбраны все ресурсы в рамках некоторого ресурса, а последующее удаление/добавление ресурсов приведёт к отвязыванию/автоматическому связыванию политики оповещений.
Быстрые советы
Если вы планируете непрерывно мониторить сервис OpenTelemetry, выберите Resource Alerts и в качестве метода управления выберите OpenTelemetry.
После выбора типа оповещения и настройки области мониторинга согласно вышеуказанным инструкциям, можно добавить соответствующие правила оповещений.
В области Rules нажмите Add Alert Rule.
Примечание: График мониторинга, отображаемый над диалоговым окном, предоставляет предварительный просмотр данных мониторинговых метрик или выражений, который изменяется в реальном времени в зависимости от вашего выбора. Вы можете перепроверить введённые данные на основе графика.
Выберите тип оповещения и настройте правила оповещений согласно следующим инструкциям.
Metric Alerts: Выберите метрики оповещений, предустановленные платформой.
Custom Alerts
Пожалуйста, следуйте инструкциям ниже для ввода соответствующих данных:
rate(node_network_receive_bytes{instance="$server",device!~"lo"}[5m])
.value
, соответствующее ключу, будет служить идентификатором легенды. Формат ввода: {{.key}}
.Инструкция по настройке параметров легенды: После ввода корректного выражения наведите курсор на запись списка статистики ранжирования справа от графика мониторинга над диалоговым окном, чтобы просмотреть все метки данных. Как показано на рисунке.
Например: Метки мониторинговых данных, полученных через выражение up{service="kubelet"}
, включают "__name__":"up","endpoint":"https-metrics","instance":"192.168.18.2:10250","job":"kubelet","namespace":"kube-system","node":"192.168.18.2","service":"kubelet"
. Если вы хотите использовать целевой endpoint, собирающий данные, в качестве идентификатора легенды, можно ввести параметр легенды {{.instance}}
. Эффект отображения показан на следующем рисунке.
Trigger Condition состоит из операторов сравнения, порогов оповещения и длительности (опционально). Результат сравнения между текущим значением/количеством логов/событий мониторинговых метрик и порогом оповещения, а также длительность, в течение которой текущее значение остаётся в пределах порога, определяют, будет ли срабатывать оповещение.
Операторы сравнения: > (больше), >= (больше или равно), == (равно), <= (меньше или равно), < (меньше), != (не равно).
Порог: Порог оповещения принимает только числа. Если у выбранного элемента мониторинга blackbox метод обнаружения — HTTP
, а имя метрики выбрано как cluster.blackbox.http.status.code
, порог оповещения — это код статуса HTTP-запроса, поддерживается ввод только трёхзначного положительного целого числа, например: 200.
Длительность: Время, в течение которого текущее значение метрики остаётся в пределах порога оповещения. При достижении указанного времени срабатывает оповещение.
Уровень оповещения правила, задаваемый пользователем, позволяет установить разумный уровень оповещения в зависимости от влияния ресурсов, соответствующих правилу, на бизнес-процессы.
Critical: Отказ ресурса, соответствующего правилу оповещения, приводит к прерыванию бизнес-процессов платформы, потере данных и значительному влиянию. Например: Значение состояния здоровья узла равно 0 (недоступен) в течение 3 минут.
High: У ресурса, соответствующего правилу, есть известные проблемы, которые могут вызвать сбои функциональности платформы и повлиять на нормальную работу. Например: Количество доступных pod-групп вычислительного компонента равно 0 в течение 3 минут.
Medium: У ресурса, соответствующего правилу, есть операционные риски. При несвоевременном устранении может повлиять на нормальную работу. Например: Использование CPU узла превышает 80% в течение 3 минут.
Low: У ресурса, соответствующего правилу, есть ожидаемые проблемы, которые в краткосрочной перспективе не влияют на бизнес, но представляют потенциальные риски. Например: Использование CPU узла превышает 70% в течение 3 минут.
После выбора типа оповещения Event Alerts в области Rules нажмите Add Alert Rule.
Выберите временной диапазон. Например: если временной диапазон установлен на 5 минут, после создания оповещения, если количество событий, удовлетворяющих условиям, достигается в любой 5-минутный период, срабатывает оповещение.
Элементы мониторинга событий
Мониторьте уровень события или причину события выбранных событий.
or
, то есть записи, содержащие любую из указанных причин, удовлетворяют критериям запроса.Условия срабатывания
Условия срабатывания используют операторы сравнения для определения необходимости оповещения на основе количества записей событий.
Уровень оповещения
Уровень оповещения правила, задаваемый пользователем, позволяет установить разумный уровень оповещения в зависимости от влияния ресурсов, соответствующих правилу, на бизнес-процессы.
Critical: Отказ ресурса, соответствующего правилу оповещения, приводит к прерыванию бизнес-процессов платформы, потере данных и значительному влиянию. Например: Значение состояния здоровья узла равно 0 (недоступен) в течение 3 минут.
High: У ресурса, соответствующего правилу, есть известные проблемы, которые могут вызвать сбои функциональности платформы и повлиять на нормальную работу. Например: Количество доступных pod-групп вычислительного компонента равно 0 в течение 3 минут.
Medium: У ресурса, соответствующего правилу, есть операционные риски. При несвоевременном устранении может повлиять на нормальную работу. Например: Использование CPU узла превышает 80% в течение 3 минут.
Low: У ресурса, соответствующего правилу, есть ожидаемые проблемы, которые в краткосрочной перспективе не влияют на бизнес, но представляют потенциальные риски. Например: Использование CPU узла превышает 70% в течение 3 минут.
Нажмите Add.
Независимо от того, выбрали ли вы пользовательские оповещения или оповещения по событиям, после добавления всплывающее окно закроется, а добавленные записи отобразятся в списке Rules на странице создания политики оповещений.
Если вы уже создали политику уведомлений на странице управления, вы можете настроить действия уведомлений после срабатывания оповещения в области Policy Configuration.
Нажмите выпадающий список Notification Policy и выберите одну или несколько политик уведомлений, созданных на платформе.
Выберите Alert Notification Interval, настройте интервал отправки сообщений об оповещениях с момента срабатывания оповещения до его возврата в нормальное состояние.
Global: Выберите использование глобальной конфигурации по умолчанию платформы. Глобальные конфигурации поддерживают обновления.
Custom: После выбора Custom можно настроить интервал отправки сообщений, нажав на выпадающий список рядом с уровнем оповещения.
Примечание: При выборе No Repeat отправляется только одно сообщение при срабатывании оповещения и при его возврате в норму.
После подтверждения корректности введённой информации нажмите Create для завершения операции. Вы можете управлять и просматривать текущий статус каждой политики (например, было ли сработано оповещение) в списке политик оповещений.
Используйте шаблоны оповещений, созданные на платформе, чтобы быстро создавать политики оповещений для указанных вычислительных компонентов.
Администраторы создали шаблоны оповещений для вычислительных компонентов на платформе ( Platform Management View > Operations Center > Alerts > Alert Templates).
Убедитесь, что в кластере, где находятся ресурсы политики оповещений, развернут компонент мониторинга, чтобы созданные на основе метрик мониторинга политики оповещений вступали в силу.
Убедитесь, что в кластере, где находятся ресурсы политики оповещений, развернут компонент Elasticsearch, чтобы созданные на основе логов и результатов запросов к событиям политики оповещений вступали в силу.
Вы можете просматривать текущий статус оповещений созданных вами политик в списке политик оповещений.
Кроме того, для более наглядного отображения текущей ситуации с оповещениями платформа предлагает функцию панели Real-time Alerts, которая централизованно отображает ресурсы, на которых в данный момент срабатывают оповещения, уровень влияния оповещений и подробную информацию об оповещениях в кластерах текущей сервисной сетки, к которым у вас есть права доступа. Это облегчает операционному персоналу и разработчикам получение оперативного обзора общей ситуации с бизнес-оповещениями на платформе, своевременное устранение факторов сбоев и обеспечение нормальной работы платформы.
Для удобного гибкого управления правилами в рамках политики поддерживается возможность отключения/включения правил в созданных политиках оповещений. При отключении статус правила становится -
, и правило не учитывается в общем количестве правил политики оповещений; при повторном включении условия срабатывания оповещения, содержащиеся в правиле, снова становятся активными.
Шаги
В левой навигационной панели нажмите Alerts > Rules.
Нажмите на Name правила, которым хотите управлять.
В области Alert Conditions нажмите переключатель Disable/Enable рядом с правилом для его отключения/включения.