Устранение неполадок RabbitMQ

Используйте это руководство, если экземпляр RabbitMQ работает некорректно, клиенты не могут подключиться, очереди неожиданно растут или обновление либо миграция ведут себя не так, как ожидается.

Для каждой проблемы сначала начните с симптома, подтвердите влияние, выполните предложенные проверки и только затем выберите способ устранения.

Содержание

Pod запущен, но cluster не healthy Clients не могут пройти аутентификацию или авторизацию TLS Connections fail Publishing blocked or slow Queues растут, а consumers не успевают Upgrade или migration застряли Management API или UI недоступны Related Information

Pod запущен, но cluster не healthy

Item	Guidance
Symptom	Pods находятся в состоянии `Running` или `Ready`, но workload по-прежнему завершается с ошибкой или количество broker nodes меньше ожидаемого.
Impact	Producers, consumers или queue replicas могут не работать либо маршрутизироваться неравномерно.
Common causes	Проблемы peer discovery, проблемы со storage, неудачное cluster join или разделённая cluster membership.
Checks	`kubectl get rabbitmqcluster <instance-name>`, `kubectl get pods -l app.kubernetes.io/name=<instance-name>`, `kubectl exec <pod> -- rabbitmqctl cluster_status`
Recommendations	Сравните `status.conditions` с `rabbitmqctl cluster_status`. Если Pod readiness и broker membership расходятся, считайте cluster degraded, пока все ожидаемые broker nodes не появятся в `cluster_status`.

Clients не могут пройти аутентификацию или авторизацию

Item	Guidance
Symptom	Clients сообщают об отказе в доступе, отказе в разрешении или не могут открыть channels.
Impact	Producers не могут публиковать сообщения, а consumers — получать их.
Common causes	Неверный user, неверный password, отсутствующий virtual host или недостаточные permissions `configure`, `write` либо `read`.
Checks	`rabbitmqadmin list users`, `rabbitmqadmin list vhosts`, `rabbitmqadmin list permissions`, review конфигурации application
Recommendations	Убедитесь, что application использует intended virtual host и dedicated user, и подтвердите, что permissions соответствуют required resource naming pattern.

TLS Connections fail

Item	Guidance
Symptom	Ошибки TLS handshake, ошибки unknown CA или ошибки hostname verification.
Impact	Clients и operational tools не могут подключиться к RabbitMQ.
Common causes	Отсутствие доверия к CA, неверные SANs в certificate, отключённые plain listeners до обновления clients или неверный endpoint port.
Checks	`kubectl explain rabbitmqcluster.spec.tls`, `kubectl exec <pod> -- rabbitmq-diagnostics listeners`, проверка client-side TLS trust store
Recommendations	Переиздайте certificates с требуемыми service и external names, распространите CA certificate и убедитесь, что clients используют `amqps://` или HTTPS с правильным port.

Publishing blocked or slow

Item	Guidance
Symptom	Publishers замирают, throughput соединений падает или в application logs отображаются blocked connections.
Impact	Ingestion сообщений отстаёт или останавливается.
Common causes	Memory alarms, disk alarms или рост queue backlog.
Checks	`kubectl exec <pod> -- rabbitmq-diagnostics status`, `rabbitmqadmin list queues name messages message_bytes consumers`, platform monitoring dashboards
Recommendations	Сначала устраните disk или memory pressure. Затем выясните, почему consumers не успевают, и нужно ли добавить queue TTL или limits по длине.

Queues растут, а consumers не успевают

Item	Guidance
Symptom	`messages_ready` или `messages_unacknowledged` растёт в течение длительного времени.
Impact	Растёт использование disk, может увеличиться publish latency, и consumers могут сильно отстать.
Common causes	Сбои consumers, низкий prefetch, медленные downstream dependencies или retry loop.
Checks	`rabbitmqadmin list queues name messages consumers arguments`, метрики consumer application, проверка topology retry и DLQ
Recommendations	Восстановите или масштабируйте consumers, проверьте retry logic и добавьте queue policies, такие как `message-ttl`, `max-length` или DLQ routing, если workload требует ограниченного backlog.

Upgrade или migration застряли

Item	Guidance
Symptom	Обновление version или Shovel migration не завершается ожидаемым образом.
Impact	Environment остаётся в длительном change window.
Common causes	Проблемы health cluster до изменения, несовместимые plugins, недостаточное storage или недоступные source либо destination brokers.
Checks	`kubectl get rabbitmqcluster <instance-name> -o yaml`, `kubectl exec <pod> -- rabbitmq-plugins list -e`, `kubectl exec <pod> -- rabbitmqctl shovel_status`, `kubectl exec <pod> -- rabbitmq-diagnostics status`
Recommendations	Перед продолжением ещё раз подтвердите baseline health, проверьте сетевую доступность и совместимость plugins и остановите change, если cluster не может поддерживать healthy membership.

Management API или UI недоступны

Item	Guidance
Symptom	Management endpoint истекает по timeout или возвращает errors.
Impact	`rabbitmqadmin`, management UI и operational automation не могут использовать HTTP API.
Common causes	Проблемы exposure сервиса, несоответствие TLS, отключён management listener или broker перегружен.
Checks	`kubectl get svc <instance-name>`, `kubectl get endpoints <instance-name>`, `kubectl exec <pod> -- rabbitmq-diagnostics listeners`
Recommendations	Убедитесь, что service type и port mapping соответствуют способу доступа, и проверьте, включены ли TLS-only listeners.

#Устранение неполадок RabbitMQ

#Содержание

#Pod запущен, но cluster не healthy

#Clients не могут пройти аутентификацию или авторизацию

#TLS Connections fail

#Publishing blocked or slow

#Queues растут, а consumers не успевают

#Upgrade или migration застряли

#Management API или UI недоступны

#Related Information