• Русский
  • Мониторинг и оповещения

    Распределённое хранилище предоставляет встроенные возможности сбора метрик мониторинга и уведомлений об оповещениях. После включения функций мониторинга и оповещений вы можете отслеживать и получать оповещения по таким аспектам, как кластер хранения, производительность хранилища и компоненты хранилища, с поддержкой настройки стратегий уведомлений.

    Интуитивно представленные данные мониторинга могут использоваться для поддержки принятия решений при проведении инспекций эксплуатации и обслуживания или настройке производительности, а комплексный механизм оповещений и уведомлений поможет обеспечить стабильную работу системы хранения.

    Совет: Если функции мониторинга и оповещений не были включены при создании распределённого хранилища, вам потребуется найти альтернативные решения для мониторинга и оповещений хранилища. Например, вручную настроить панели мониторинга и стратегии оповещений в центре эксплуатации и обслуживания.

    Мониторинг

    Платформа автоматически собирает общие метрики мониторинга для распределённого хранилища, такие как производительность чтения и записи, использование CPU и памяти. В разделе Storage Management > Distributed Storage на вкладке Monitoring вы можете просматривать данные мониторинга в реальном времени по этим метрикам.

    Обзор хранилища

    Отслеживайте состояние здоровья хранилища, использование физической ёмкости и количество активных компонентов OSD/MON. В случае аномального состояния хранилища вы можете проверить причину оповещения.

    Мониторинг производительности

    Отслеживайте пропускную способность чтения и записи, а также IOPS чтения и записи с трёх уровней: кластер, пул хранения и OSD. Кроме того, можно мониторить задержки чтения и записи специально для OSD.

    Мониторинг компонентов

    Отслеживайте использование CPU и памяти таких компонентов, как MON и OSD.

    Оповещения

    В платформе включён набор стандартных стратегий оповещений. Как только ресурс становится аномальным или данные мониторинга достигают состояния предупреждения, оповещения автоматически срабатывают. Предустановленные стратегии достаточно для типичных операционных задач, таких как оповещения о состоянии компонентов и кластера, оповещения о ёмкости устройств и оповещения по пользовательским данным.

    Настройка уведомлений

    Для своевременного получения оповещений рекомендуется настроить стратегии уведомлений в центре эксплуатации и обслуживания: отправлять информацию об оповещениях по электронной почте, SMS и другим каналам соответствующим сотрудникам, напоминая им принять необходимые меры для устранения проблем или предотвращения сбоев. Нажмите Alert Configuration, чтобы перейти в центр эксплуатации и обслуживания для завершения настройки, см. Create Alert Strategies

    Обработка оповещений

    • Если мониторинг кластера хранения показывает состояние Warning, это означает, что сработало оповещение, и связанная аномалия может привести к сбою. Пожалуйста, своевременно проверьте детали в разделе Real-time Alerts и выявите и устраните неисправность на основе причины.

    • Если мониторинг кластера хранения показывает состояние Failure, это указывает на то, что кластер хранения не может работать нормально. Немедленно локализуйте проблему и приступайте к устранению неисправности.

    В таблице ниже приведены значения уровней оповещений, используемых в предустановленных стратегиях, которые могут служить вам ориентиром при выработке принципов обработки оповещений.

    Уровень оповещенияЗначение
    DisasterРесурс, соответствующий правилу оповещения, вышел из строя, что вызывает прерывание работы платформы, потерю данных и значительное влияние.
    SevereРесурс, соответствующий правилу оповещения, имеет известные проблемы, которые могут привести к сбоям функций платформы и повлиять на нормальную работу.
    WarningРесурс, соответствующий правилу оповещения, сталкивается с операционными рисками, которые могут повлиять на нормальную работу сервисов при отсутствии действий.

    Анализ неисправностей

    В разделе Alert History фиксируются все оповещения, которые были сработаны и больше не требуют действий. При проведении анализа неисправностей с использованием истории оповещений для эффективного подведения итогов вам может потребоваться ответить на следующие вопросы.

    • Каковы были конкретные аномальные условия во время инцидента.

    • Есть ли закономерность в повторяющемся оповещении, можно ли предотвратить его появление в следующий раз.

    • Показывает ли временная шкала всплеск оповещений в определённый период; был ли он вызван форс-мажором или операционной ошибкой, требуется ли корректировка плана эксплуатации.