Мониторинг и оповещения
Распределённое хранилище предоставляет встроенные возможности сбора метрик мониторинга и уведомлений об оповещениях. После включения функций мониторинга и оповещений вы можете отслеживать и получать оповещения по таким аспектам, как кластер хранения, производительность хранилища и компоненты хранилища, с поддержкой настройки стратегий уведомлений.
Интуитивно представленные данные мониторинга могут использоваться для поддержки принятия решений при проведении инспекций эксплуатации и обслуживания или настройке производительности, а комплексный механизм оповещений и уведомлений поможет обеспечить стабильную работу системы хранения.
Совет: Если функции мониторинга и оповещений не были включены при создании распределённого хранилища, вам потребуется найти альтернативные решения для мониторинга и оповещений хранилища. Например, вручную настроить панели мониторинга и стратегии оповещений в центре эксплуатации и обслуживания.
Содержание
МониторингОбзор хранилищаМониторинг производительностиМониторинг компонентовОповещенияНастройка уведомленийОбработка оповещенийАнализ неисправностейМониторинг
Платформа автоматически собирает общие метрики мониторинга для распределённого хранилища, такие как производительность чтения и записи, использование CPU и памяти. В разделе Storage Management > Distributed Storage на вкладке Monitoring вы можете просматривать данные мониторинга в реальном времени по этим метрикам.
Обзор хранилища
Отслеживайте состояние здоровья хранилища, использование физической ёмкости и количество активных компонентов OSD/MON. В случае аномального состояния хранилища вы можете проверить причину оповещения.
Мониторинг производительности
Отслеживайте пропускную способность чтения и записи, а также IOPS чтения и записи с трёх уровней: кластер, пул хранения и OSD. Кроме того, можно мониторить задержки чтения и записи специально для OSD.
Мониторинг компонентов
Отслеживайте использование CPU и памяти таких компонентов, как MON и OSD.
Оповещения
В платформе включён набор стандартных стратегий оповещений. Как только ресурс становится аномальным или данные мониторинга достигают состояния предупреждения, оповещения автоматически срабатывают. Предустановленные стратегии достаточно для типичных операционных задач, таких как оповещения о состоянии компонентов и кластера, оповещения о ёмкости устройств и оповещения по пользовательским данным.
Настройка уведомлений
Для своевременного получения оповещений рекомендуется настроить стратегии уведомлений в центре эксплуатации и обслуживания: отправлять информацию об оповещениях по электронной почте, SMS и другим каналам соответствующим сотрудникам, напоминая им принять необходимые меры для устранения проблем или предотвращения сбоев. Нажмите Alert Configuration, чтобы перейти в центр эксплуатации и обслуживания для завершения настройки, см. Create Alert Strategies。
Обработка оповещений
-
Если мониторинг кластера хранения показывает состояние
Warning, это означает, что сработало оповещение, и связанная аномалия может привести к сбою. Пожалуйста, своевременно проверьте детали в разделе Real-time Alerts и выявите и устраните неисправность на основе причины. -
Если мониторинг кластера хранения показывает состояние
Failure, это указывает на то, что кластер хранения не может работать нормально. Немедленно локализуйте проблему и приступайте к устранению неисправности.
В таблице ниже приведены значения уровней оповещений, используемых в предустановленных стратегиях, которые могут служить вам ориентиром при выработке принципов обработки оповещений.
Анализ неисправностей
В разделе Alert History фиксируются все оповещения, которые были сработаны и больше не требуют действий. При проведении анализа неисправностей с использованием истории оповещений для эффективного подведения итогов вам может потребоваться ответить на следующие вопросы.
-
Каковы были конкретные аномальные условия во время инцидента.
-
Есть ли закономерность в повторяющемся оповещении, можно ли предотвратить его появление в следующий раз.
-
Показывает ли временная шкала всплеск оповещений в определённый период; был ли он вызван форс-мажором или операционной ошибкой, требуется ли корректировка плана эксплуатации.