监控与告警

嵌入面板中的监控数据可用于 RabbitMQ 的资源、性能等监控与告警,支持通知策略的配置。

直观呈现的监控数据可以辅助决策,为操作检查或性能调优提供帮助,而全面的告警和通知机制则有助于确保数据库操作的稳定性。

监控

平台默认收集 RabbitMQ 资源、性能等常用的监控指标。在实例的 监控 标签页中,可以查看这些指标的实时监控数据。

类别指标
节点监控节点可用内存、磁盘、文件描述符及其他指标的监控
消息监控发送和接收消息的监控
队列监控对队列的整体监控
通道监控对通道的整体监控
连接监控对客户端连接的整体监控

RabbitMQ 指标主要暴露各种组件的整体指标,因此默认的监控面板无法准确监控特定 队列交换机 的状态。

告警

前往应用服务的 告警 > 告警策略 页面创建与 RabbitMQ 相应的告警策略(您也可以使用全平台的告警功能来创建告警)。

配置告警策略

要启用告警,首先在应用服务中创建一个告警策略。告警策略描述了您希望监控的对象、希望在何种情况下接收告警以及如何通知相关告警。

平台包含以下内置告警指标:

名称推荐触发条件描述
实例可用性!=1,且持续 30 秒监控集群的可用性
通道数量根据实际规格和客户应用设置阈值实时监控通道数量
消息写入频率根据实际规格设置阈值实时监控消息写入频率
连接数量根据实际规格设置阈值实时监控连接数量
队列数量根据实际规格设置阈值实时监控队列数量
节点 CPU 利用率>80%,且持续 30 秒实时监控 CPU 使用率;如果 CPU 使用率过高,请考虑扩展。
节点内存利用率>80%,且持续 30 秒实时监控内存使用率;如果内存使用率过高,请立即进行扩展。
节点存储空间利用率>80%,且持续 30 秒实时监控存储空间使用率;如果使用率过高,请考虑扩展。

这些告警指标允许快速创建告警策略。

除了内置告警指标外,还可以定义自定义告警指标。自定义告警要求您自己编辑 PromQL 并将其提交到告警指标表单中。PromQL 是一种相对复杂的表达式,可以使用内置的 Prometheus 控制台进行编辑和调试。如需了解 PromQL 的基本支持,请参阅 PromQL 官方文档

有关配置和使用告警的更多信息,请参阅