Управление оповещениями
Содержание
Обзор функцииКлючевые возможностиПреимущества функцииСоздание политик оповещений через UIПредварительные условияПроцедураВыбор типа оповещенияНастройка правил оповещенийДругие настройкиДополнительные примечанияСоздание оповещений по ресурсам через CLIПредварительные условияПроцедураСоздание оповещений по событиям через CLIПредварительные условияПроцедураСоздание политик оповещений через alert TemplatesПредварительные условияПроцедураСоздание шаблона оповещенийСоздание политик оповещений с использованием alert TemplatesНастройка заглушения оповещенийНастройка через UIНастройка через CLIРекомендации по настройке правил оповещенийОбзор функции
Функция управления оповещениями платформы предназначена для помощи пользователям в комплексном мониторинге и своевременном обнаружении аномалий системы. Используя предустановленные системные оповещения и гибкие возможности создания пользовательских оповещений, в сочетании со стандартизированными шаблонами оповещений и многоуровневым механизмом управления, она предоставляет полное решение по оповещениям для операционного и технического персонала.
Будь то администраторы платформы или бизнес-пользователи, они могут удобно настраивать и управлять политиками оповещений в рамках своих полномочий для эффективного мониторинга ресурсов платформы.
Ключевые возможности
- Встроенные системные политики оповещений: Предустановлены богатые правила оповещений, основанные на типичных сценариях диагностики сбоев для кластеров
globalи рабочих кластеров. - Пользовательские правила оповещений: Поддерживается создание правил оповещений на основе различных источников данных, включая предустановленные метрики мониторинга, пользовательские метрики, black-box мониторинг, данные логов платформы и события платформы.
- Управление шаблонами оповещений: Поддерживается создание и управление стандартизированными шаблонами оповещений для быстрого применения к похожим ресурсам.
- Интеграция уведомлений об оповещениях: Поддерживается отправка информации об оповещениях операционному и техническому персоналу через различные каналы.
- Изоляция просмотра оповещений: Разграничение оповещений управления платформой и бизнес-оповещений, что обеспечивает фокусировку персонала с разными ролями на соответствующей информации.
- Просмотр оповещений в реальном времени: Предоставляет оповещения в реальном времени с концентрированным отображением количества ресурсов, находящихся в состоянии оповещения, и подробной информацией об оповещениях.
- Просмотр истории оповещений: Поддерживается просмотр исторических записей оповещений за определённый период, что облегчает анализ последних состояний мониторинга для операционного и технического персонала и администраторов.
Преимущества функции
- Всестороннее покрытие мониторинга: Поддерживается мониторинг различных типов ресурсов, таких как кластеры, узлы и вычислительные компоненты, а также предоставляются богатые встроенные системные политики оповещений, которые можно использовать без дополнительной настройки.
- Эффективное управление оповещениями: Стандартизированные конфигурации через шаблоны оповещений повышают операционную эффективность, а разделение просмотров оповещений облегчает персоналу с разными ролями быстро находить соответствующие оповещения.
- Своевременное обнаружение проблем: Уведомления об оповещениях автоматически запускаются для обеспечения своевременного обнаружения проблем, поддерживается многоканальная отправка оповещений для проактивного предотвращения проблем.
- Надёжное управление правами доступа: Строгий контроль доступа к политикам оповещений гарантирует безопасность и управляемость информации об оповещениях.
Создание политик оповещений через UI
Предварительные условия
- Настроена политика уведомлений (если требуется автоматическая отправка оповещений).
- В целевом кластере установлены компоненты мониторинга (требуется при создании политик оповещений на основе метрик мониторинга).
- В целевом кластере установлены компоненты хранения логов и сбора логов (требуется при создании политик оповещений на основе логов и событий).
Процедура
- Перейдите в Центр эксплуатации и обслуживания > alerts > alert Policies.
- Нажмите Create Alert Policy.
- Настройте базовую информацию.
Выбор типа оповещения
Оповещение по ресурсу
- Типы оповещений классифицированы по типу ресурса (например, состояние deployment в namespace).
- Описание выбора ресурса:
- По умолчанию "Any", если параметр не выбран, поддерживается автоматическая привязка к вновь добавленным ресурсам.
- При выборе "Select All" применяется только к текущему ресурсу.
- При выборе нескольких namespace имена ресурсов поддерживают регулярные выражения (например,
cert.*).
Оповещение по событию
- Типы оповещений классифицированы по конкретным событиям (например, аномальное состояние Pod).
- По умолчанию выбираются все ресурсы под указанным ресурсом, поддерживается автоматическая привязка к вновь добавленным ресурсам.
Настройка правил оповещений
Нажмите Add Alert Rule и настройте параметры в соответствии с типом оповещения:
Параметры оповещений по ресурсу
Параметры оповещений по событию
Другие настройки
- Выберите одну или несколько созданных политик уведомлений.
- Настройте интервалы отправки оповещений.
- Global: Использовать конфигурацию по умолчанию платформы.
- Custom: Можно задать разные интервалы отправки в зависимости от уровней оповещений.
- При выборе "Do Not Repeat" уведомления будут отправляться только при срабатывании и восстановлении оповещения.
Дополнительные примечания
- В разделе "More" правила оповещения можно задать labels и annotations.
- Пожалуйста, обратитесь к Prometheus Alerting Rules Documentation для настройки labels и annotations.
- Внимание: не используйте переменную
$valueв labels, так как это может вызвать исключения оповещений.
Создание оповещений по ресурсам через CLI
Предварительные условия
- Настроена политика уведомлений (если требуется автоматическая отправка оповещений).
- В целевом кластере установлены компоненты мониторинга (требуется при создании политик оповещений на основе метрик мониторинга).
- В целевом кластере установлены компоненты хранения логов и сбора логов (требуется при создании политик оповещений на основе логов и событий).
Процедура
-
Создайте новый YAML-файл конфигурации с именем
example-alerting-rule.yaml. -
Добавьте ресурсы PrometheusRule в YAML-файл и отправьте его. В следующем примере создаётся новая политика оповещений с именем policy:
Создание оповещений по событиям через CLI
Предварительные условия
- Настроена политика уведомлений (если требуется автоматическая отправка оповещений).
- В целевом кластере установлены компоненты мониторинга (требуется при создании политик оповещений на основе метрик мониторинга).
- В целевом кластере установлены компоненты хранения логов и сбора логов (требуется при создании политик оповещений на основе логов и событий).
Процедура
-
Создайте новый YAML-файл конфигурации с именем
example-alerting-rule.yaml. -
Добавьте ресурсы PrometheusRule в YAML-файл и отправьте его. В следующем примере создаётся новая политика оповещений с именем policy2:
Создание политик оповещений через alert Templates
alert templates — это сочетание правил оповещений и политик уведомлений, ориентированных на похожие ресурсы. С помощью alert templates легко и быстро создавать политики оповещений для кластеров, узлов или вычислительных компонентов на платформе.
Предварительные условия
- Настроена политика уведомлений (если требуется автоматическая отправка оповещений).
- В целевом кластере установлены компоненты мониторинга (требуется при создании политик оповещений на основе метрик мониторинга).
Процедура
Создание шаблона оповещений
- В левой навигационной панели нажмите Центр эксплуатации и обслуживания > alerts > alert Templates.
- Нажмите Create alert Template.
- Настройте базовую информацию шаблона оповещений.
- В разделе alert Rules нажмите Add alert Rule и добавьте правила оповещений согласно описаниям параметров ниже:
- Нажмите Create.
Создание политик оповещений с использованием alert Templates
- В левой навигационной панели нажмите Центр эксплуатации и обслуживания > alerts > alert Policies.
Совет: Вы можете переключать целевой кластер через верхнюю панель навигации. - Нажмите кнопку раскрытия рядом с кнопкой Create alert Policy > Template Create alert Policy.
- Настройте некоторые параметры, опираясь на описания ниже:
- Нажмите Create.
Настройка заглушения оповещений
Поддерживается заглушение оповещений для кластеров, узлов и вычислительных компонентов. При настройке заглушения для конкретной политики оповещений можно контролировать, что все правила в рамках этой политики не будут отправлять уведомления при срабатывании в течение заданного периода заглушения. Можно настроить постоянное заглушение или заглушение на заданное время.
Например: при обновлении или обслуживании платформы многие ресурсы могут показывать аномальные состояния, что приводит к множеству срабатывающих оповещений и частому получению уведомлений операционным персоналом до завершения обновления или обслуживания. Настройка заглушения для политики оповещений позволяет предотвратить такую ситуацию.
Примечание: Когда статус заглушения достигает времени окончания, настройка заглушения автоматически снимается.
Настройка через UI
-
В левой навигационной панели нажмите Центр эксплуатации и обслуживания > alerts > alert Policies.
-
Нажмите кнопку действий справа от политики оповещений, которую нужно заглушить > Set Silence.
-
Включите переключатель alert Silence.
Совет: Этот переключатель управляет применением настройки заглушения. Чтобы отменить заглушение, просто выключите переключатель.
-
Настройте соответствующие параметры согласно описаниям ниже:
Совет: Если не выбран диапазон заглушения или имя ресурса, по умолчанию используется Any, что означает, что последующие действия Delete/Add ресурсов будут соответствовать удалению/добавлению заглушения в политиках оповещений; если выбрано "Select All", заглушение применяется только к текущему выбранному диапазону ресурсов, и последующие действия Delete/Add ресурсов не обрабатываются.
-
Нажмите Set.
Совет: С момента установки заглушения до начала времени заглушения статус политики оповещений считается Silence Waiting. В этот период при срабатывании правил уведомления отправляются как обычно; с начала заглушения до её окончания статус политики — Silencing, и при срабатывании правил уведомления не отправляются.
Настройка через CLI
-
Укажите имя ресурса политики оповещений, для которой нужно настроить заглушение, и выполните команду:
-
Измените ресурс, добавив аннотации заглушения, как показано в примере, и отправьте изменения.
Рекомендации по настройке правил оповещений
Большее количество правил оповещений не всегда означает лучший результат. Избыточные или сложные правила могут привести к лавине оповещений и увеличить нагрузку на обслуживание. Рекомендуется ознакомиться с приведёнными ниже рекомендациями перед настройкой правил, чтобы пользовательские правила достигали своих целей при сохранении эффективности.
- Используйте минимально необходимое количество новых правил: Создавайте только те правила, которые соответствуют вашим конкретным требованиям. Использование минимального количества правил позволяет создать более управляемую и централизованную систему оповещений в среде мониторинга.
- Фокусируйтесь на симптомах, а не на причинах: Создавайте правила, которые уведомляют пользователей о симптомах, а не о корневых причинах этих симптомов. Это гарантирует, что при появлении соответствующих симптомов пользователи получат оповещения и смогут исследовать причины, вызвавшие эти оповещения. Такой подход значительно сокращает общее количество необходимых правил.
- Планируйте и оценивайте потребности перед внесением изменений: Сначала определите, какие симптомы важны и какие действия вы хотите, чтобы пользователи выполняли при их появлении. Затем оцените существующие правила, чтобы решить, можно ли их изменить для достижения целей без создания новых правил для каждого симптома. Модификация существующих правил и тщательное создание новых помогает упростить систему оповещений.
- Предоставляйте чёткие сообщения оповещений: При создании сообщений оповещений включайте описание симптомов, возможных причин и рекомендуемых действий. Информация должна быть ясной, краткой и содержать процедуры устранения неполадок или ссылки на дополнительную релевантную информацию. Это помогает пользователям быстро оценивать ситуацию и принимать соответствующие меры.
- Разумно устанавливайте уровни серьёзности: Назначайте уровням серьёзности правила, чтобы указать, как пользователи должны реагировать при срабатывании оповещений. Например, классифицируйте оповещения с уровнем Critical как требующие немедленных действий соответствующего персонала. Установление уровней серьёзности помогает пользователям принимать решения о реакции на оповещения и обеспечивает своевременное реагирование на критические проблемы.