Мониторинг и оповещения

Локальное хранилище предоставляет готовые возможности по сбору метрик мониторинга и оповещений. После включения компонента мониторинга платформы можно настроить мониторинг и оповещения на основе кластеров хранения, производительности и ёмкости хранилища с поддержкой настройки политик уведомлений.

Интуитивно представленные данные мониторинга могут использоваться для поддержки принятия решений при операционных проверках или настройке производительности, а комплексный механизм оповещений поможет обеспечить стабильную работу системы хранения.

Содержание

Мониторинг

Мониторинг производительности

По умолчанию платформа собирает часто используемые метрики мониторинга производительности, такие как пропускная способность чтения и записи, IOPS и задержки для локального хранилища. Данные мониторинга в реальном времени по этим метрикам можно просмотреть на вкладке Monitoring страницы Local Storage в разделе Storage Management. Платформа визуально отображает эти метрики с помощью графиков и диаграмм, что позволяет администраторам чётко наблюдать текущую производительность хранилища и быстро выявлять потенциальные проблемы.

Мониторинг ёмкости

Поскольку локальное хранилище может использовать только локально доступные ресурсы хранения на узлах, пользователи должны убедиться в наличии достаточного объёма свободной ёмкости на узлах перед объявлением локального хранилища, чтобы избежать проблем, вызванных избыточным объявлением.

Для помощи в этом платформа предоставляет подробный мониторинг ёмкости в разделе Details локального хранилища, классифицированный по типам устройств. Пользователи могут проверить доступное пространство хранения, чётко отображаемое в числовом и графическом форматах. Если для какого-либо типа устройства доступная ёмкость недостаточна, необходимо освободить место или добавить дополнительные дисковые устройства перед использованием локального хранилища.

Оповещения

Платформа включает набор стандартных политик оповещений. Если ресурсы становятся аномальными или данные мониторинга достигают порога предупреждения, оповещения автоматически срабатывают. Преднастроенные политики оповещений эффективно покрывают типичные операционные потребности, включая оповещения о состоянии здоровья кластера и ёмкости по типам устройств.

Настройка уведомлений

Для своевременного получения оповещений необходимо настроить политики уведомлений в центре операций. Уведомления могут отправляться по электронной почте, SMS или другими способами соответствующим сотрудникам, что обеспечивает оперативное реагирование для устранения проблем или предотвращения сбоев. Пользователи могут получить доступ к настройкам политик уведомлений непосредственно из интерфейса центра операций. Подробные инструкции по настройке оповещений доступны в документации [Creating Alert Policies].

Обработка оповещений

  • Если состояние здоровья кластера хранения изменяется на Alert, администраторы должны немедленно провести расследование. Раздел Details предоставляет информацию для диагностики и решения этих проблем. Распространённые причины включают аномалии в службах узлов или проблемы с конкретными типами устройств.

    Пункт проверкиСоответствующее состояниеПричина
    Состояние здоровьяAlertВызвано аномалиями в службах узлов или проблемами с типом устройства.
    Состояние службыUnknownУзел находится в состоянии notready, возможно из-за сбоев сети или отключения питания.
    Состояние типа устройстваUnavailableИспользуемый диск может не быть raw-диском или отсутствовать.
  • Оповещения в реальном времени, срабатывающие на вкладке Alert, требуют оперативного внимания, даже если текущее состояние кластера хранения отображается как Healthy. Быстрая реакция предотвращает развитие более серьёзных проблем. В следующей таблице приведены уровни оповещений и их значение:

    Уровень оповещенияЗначение
    CriticalУказывает на серьёзные проблемы, вызывающие перебои в работе платформы или потерю данных с серьёзными последствиями.
    MajorИзвестные проблемы, которые могут повлиять на функциональность платформы и нормальное ведение бизнеса.
    WarningСуществует риск операционных проблем; требуется своевременное вмешательство, чтобы избежать влияния на нормальную работу.

Анализ после инцидента

В журнале Alert History фиксируются все ранее сработавшие оповещения, которые больше не требуют немедленных действий. При анализе после инцидента следует рассмотреть следующие вопросы:

  • Какие конкретные аномалии наблюдались в момент инцидента?
  • Есть ли повторяющиеся шаблоны конкретных оповещений? Как их можно проактивно предотвратить в будущем?
  • Был ли всплеск оповещений в определённые периоды, связанный с внешними факторами или операционными инцидентами? Следует ли скорректировать операционные стратегии соответственно?