• Русский
  • Мониторинг и оповещения

    Распределённое хранилище предоставляет встроенные возможности по сбору метрик мониторинга и уведомлению об оповещениях. После включения функций мониторинга и оповещений вы можете отслеживать и получать оповещения по таким аспектам, как кластер хранения, производительность хранилища и компоненты хранилища, с поддержкой настройки стратегий уведомлений.

    Интуитивно представленные данные мониторинга могут использоваться для поддержки принятия решений при проведении инспекций эксплуатации и обслуживания или оптимизации производительности, а комплексный механизм оповещений поможет обеспечить стабильную работу системы хранения.

    Совет: Если функции мониторинга и оповещений не были включены при создании распределённого хранилища, вам потребуется искать альтернативные решения для мониторинга и оповещений хранилища. Например, вручную настроить панели мониторинга и стратегии оповещений в центре эксплуатации и обслуживания.

    Содержание

    Мониторинг

    Платформа автоматически собирает распространённые метрики мониторинга для распределённого хранилища, такие как производительность чтения и записи, использование CPU и памяти. В разделе Storage Management > Distributed Storage на вкладке Monitoring вы можете просматривать данные мониторинга в реальном времени по этим метрикам.

    Обзор хранилища

    Отслеживайте состояние здоровья хранилища, использование физической ёмкости и количество активных компонентов OSD/MON. В случае аномального состояния хранилища вы можете проверить причину оповещения.

    Мониторинг производительности

    Отслеживайте пропускную способность чтения и записи, а также IOPS чтения и записи с трёх уровней: кластер, storage pool и OSD. Кроме того, можно мониторить задержки чтения и записи конкретно для OSD.

    Мониторинг компонентов

    Отслеживайте использование CPU и памяти таких компонентов, как MON и OSD.

    Оповещения

    В платформе включён набор стандартных стратегий оповещений. Как только ресурс становится аномальным или данные мониторинга достигают состояния предупреждения, оповещения автоматически срабатывают. Предустановленные стратегии достаточно для типичных операционных задач, таких как оповещения о состоянии компонентов и кластера, оповещения о ёмкости устройств и оповещения по пользовательским данным.

    Настройка уведомлений

    Для своевременного получения оповещений рекомендуется настроить стратегии уведомлений в центре эксплуатации и обслуживания: отправлять информацию об оповещениях по электронной почте, SMS и другим каналам соответствующим сотрудникам, напоминая им принять необходимые меры для устранения проблем или предотвращения сбоев. Нажмите Alert Configuration, чтобы перейти в центр эксплуатации и обслуживания для завершения настройки, см. Create Alert Strategies

    Обработка оповещений

    • Если кластер хранения находится в состоянии Warning, это означает, что сработало оповещение, и связанная аномалия может привести к сбою. Пожалуйста, оперативно проверьте детали в разделе Real-time Alerts и выявите и устраните неисправность на основе причины.

    • Если кластер хранения находится в состоянии Failure, это указывает на то, что кластер хранения не может нормально функционировать. Необходимо немедленно локализовать проблему и провести устранение неисправности.

    В таблице ниже приведены значения уровней оповещений, используемых в предустановленных стратегиях, которые могут служить вам ориентиром при формировании принципов обработки оповещений.

    Уровень оповещенияЗначение
    DisasterРесурс, соответствующий правилу оповещения, вышел из строя, что вызвало прерывание работы платформы, потерю данных и значительное воздействие.
    SevereРесурс, соответствующий правилу оповещения, имеет известные проблемы, которые могут привести к сбоям функций платформы и повлиять на нормальную работу сервисов.
    WarningРесурс, соответствующий правилу оповещения, подвергается операционным рискам, которые могут повлиять на нормальную работу сервисов при отсутствии своевременных действий.

    Анализ инцидентов

    В разделе Alert History фиксируются все сработавшие оповещения, которые больше не требуют действий. При проведении анализа инцидентов с использованием истории оповещений для эффективного подведения итогов рекомендуется ответить на следующие вопросы.

    • Каковы были конкретные аномальные условия в момент инцидента.

    • Есть ли закономерность в повторяющемся оповещении, можно ли предотвратить его появление в будущем.

    • Показывает ли временная шкала всплеск оповещений в определённый период; был ли он вызван форс-мажором или операционной ошибкой, требуется ли корректировка плана эксплуатации.