• Русский
  • Мониторинг, метрики и алерты

    Используйте панели мониторинга платформы и политики оповещений, чтобы отслеживать использование ресурсов RabbitMQ, состояние брокера, рост очередей и характер трафика. Мониторинг должен отвечать на два разных вопроса:

    • Достаточно ли здорова инстанция, чтобы принимать трафик?
    • Успевает ли рабочая нагрузка обрабатывать объем сообщений и выдерживать целевые показатели хранения?

    Сбор метрик

    Платформа собирает метрики RabbitMQ по умолчанию. Встроенная панель мониторинга отображает наиболее распространенные сигналы брокера и ресурсов для эксплуатационного анализа и настройки производительности.

    По умолчанию метрики RabbitMQ публикуются брокером на порту 15692. Если включена интеграция отдельного exporter (spec.exporter.enabled=true), метрики также доступны из сервиса exporter на порту 9419.

    Убедитесь, что listener брокера присутствует:

    kubectl -n <namespace> exec <instance-name>-server-0 -- \
      rabbitmq-diagnostics listeners

    Убедитесь, что Service предоставляет ожидаемые порты:

    kubectl -n <namespace> get svc <instance-name>

    Основные категории метрик

    КатегорияНа что обращать вниманиеПочему это важно
    Доступность инстанцииФаза RabbitmqCluster, готовность и доступность сервисаПоказывает, доступен ли кластер с точки зрения платформы и сети.
    Соединения и каналыКоличество соединений, каналов и consumersВнезапные падения или всплески обычно указывают на сбои на стороне клиента или штормы соединений.
    Скорость публикации и доставкиСкорость поступления, доставки, подтверждения и повторной доставки сообщенийПоказывает, сохраняется ли баланс между producers и consumers.
    Накопление в очередиmessages_ready, messages_unacknowledged, количество очередейУказывает на отставание consumers, зависшие consumers или циклы повторных попыток.
    ПамятьИспользование памяти, high watermark, memory alarmsMemory alarms могут блокировать publishers и снижать пропускную способность.
    ДискСвободное дисковое пространство и disk alarmsDisk alarms могут блокировать publishers и указывать на накопление backlog или проблему с размером хранилища.
    Дескрипторы файлов и сокетыИспользуемые дескрипторы файлов и количество сокетовЗащищает брокер от исчерпания ресурсов, связанных с соединениями.
    Плагины и listenersListener'ы Management, Prometheus, TLS, Shovel или FederationПодтверждает, что эксплуатационные функции остаются включенными после обновлений.

    RabbitMQ по умолчанию экспортирует в основном метрики на уровне брокера. Когда требуется детальный анализ по очередям или обменникам, объединяйте метрики брокера с метриками приложения, командами проверки очередей и дашбордами, специфичными для рабочей нагрузки.

    Рекомендуемые сигналы для алертов

    Создайте или настройте политики оповещений для следующих условий:

    СигналРекомендуемая стартовая точкаЭксплуатационный смысл
    Доступность инстанции!= 1 в течение 30 секундКластер не полностью доступен для клиентов.
    Использование памяти узла> 80% в течение 30 секундДавление на память растет и может вызвать alarms брокера.
    Использование хранилища узла> 80% в течение 30 секундБрокер приближается к давлению на диск и риску блокировки публикации.
    Количество каналовПорог, основанный на архитектуре приложенияРезкий рост может указывать на churn соединений или утечки каналов.
    Количество соединенийПорог, основанный на архитектуре приложенияБольшие падения или всплески часто указывают на проблемы клиента или сети.
    Частота записи сообщенийПорог, основанный на ожидаемой рабочей нагрузкеПадение может указывать на проблемы у producers; всплеск может потребовать масштабирования или контроля backlog.
    Накопление в очередиУстойчивый рост числа ready или unacknowledged сообщенийConsumers не успевают за потоком или паттерны повторных попыток нездоровы.

    Как интерпретировать распространенные сигналы

    СигналИнтерпретацияРекомендуемые дальнейшие действия
    Активен disk alarmБрокер защищает себя, потому что свободного места меньше настроенного watermark.Проверьте backlog, использование хранилища и политики хранения сообщений.
    Активен memory alarmБрокер испытывает давление на память и может блокировать publishers.Проверьте churn соединений, рост очередей и ресурсоемкие рабочие нагрузки.
    Растет messages_readyConsumers недостаточно быстро извлекают сообщения из очереди.Проверьте состояние consumers, масштабирование, контроль backlog и топологию повторных попыток.
    Растет messages_unacknowledgedConsumers удерживают доставки дольше, чем ожидалось.Проверьте задержку consumers, prefetch, downstream-зависимости и зависших consumers.
    Резко падает количество соединенийProducers или consumers потеряли подключение.Проверьте экспонирование сервиса, TLS, учетные данные и alarms брокера.
    Резко растет количество соединенийКлиенты, возможно, многократно переподключаются.Проверьте rolling restarts, DNS, сбои TLS и циклы переподключения приложения.

    Рекомендации по политике алертов

    Перейдите на страницу Alerts > Alert Policies в Application Service, чтобы создать политики оповещений для RabbitMQ. Встроенные метрики — самый быстрый способ обеспечить базовое покрытие. Когда встроенных метрик недостаточно, создайте пользовательские алерты на основе PromQL и протестируйте их, прежде чем полагаться на них в production.

    Дополнительные сведения о настройке и использовании алертов см. в документации платформы Alert Management.

    Связанная информация