简体中文

监控与告警

该平台提供了全面的监控功能，结合 Redis 实例的集成面板。这些监控功能支持性能分析、资源利用率跟踪以及可配置的告警机制，以实现主动管理。

监控

平台会自动收集与 Redis 实例相关的关键性能指标，包括资源利用率和操作性能。这些指标可以通过实例的监控标签实时查看。

类别	指标
集群状态监控	键数统计、命令执行指标、复制延迟等
资源监控	内存利用率、网络流量模式、存储使用情况等
性能监控	连接数、网络 I/O 吞吐量、命令延迟等

告警

要为 Redis 实例配置告警规则，请导航至 Alauda 应用服务的告警 > 规则页面。

配置告警规则

实现告警需要在 Alauda 应用服务中创建一个告警规则。告警规则定义了监控目标、触发通知的阈值条件以及通知的传递机制。

平台提供了以下预配置的告警指标：

指标	推荐阈值	描述
实例状态	!=1，持续 30 秒	监控实例的可用性和操作状态
Key 访问命中率	<80%，持续 30 秒	监控缓存效率；低命中率可能表明缓存未命中，需调整策略（增加 TTL 值、优化键模式等）
平均响应时间	>0.1s，持续 30 秒	监控命令执行延迟；响应时间过长可能表明 CPU 限制、工作负载过重或大键操作
主从切换	=1，持续 30 秒	监测主从角色转换，可能提示基础设施的问题或 Redis 节点故障
单节点输入带宽	根据环境特定的阈值	实时监控网络输入，以防止带宽饱和影响服务可用性
单节点输出带宽	根据环境特定的阈值	实时监控网络输出，以防止带宽饱和影响服务可用性
单节点客户端连接数	根据环境特定的阈值	监控连接模式，检测潜在的连接泄漏或异常访问模式
单节点 CPU 利用率	>80%，持续 30 秒	监控 CPU 消耗；持续高利用率可能需要规划容量和扩展
单节点内存利用率	>80%，持续 30 秒	监控内存使用情况；接近容量限制时需要立即扩展，以防止驱逐或 OOM 条件
单节点存储利用率	>80%，持续 30 秒	监控 RDB/AOF 配置下的持久存储使用情况；高使用率需要扩容

这些预配置指标便于快速实现告警规则。对于更复杂的监控需求，可以使用 Prometheus 查询语法定义自定义告警指标：

(1/(1+(avg(irate(redis_keyspace_misses_total{namespace=~"<namespace>", pod=~"<podname prefix>-.*"}[5m])) by(namespace,service) / (avg(irate(redis_keyspace_hits_total{namespace=~"<namespace>", pod=~"<podname prefix>-.*"}[5m])) by(namespace,service)+1))))

在此示例中，redis_keyspace_misses_total 代表 Prometheus 收集的指标，<namespace> 用于按命名空间过滤资源，<podname prefix> 指定由 Deployment 或 StatefulSet 管理的资源的 Pods 名称模式。有关指标查询的全面信息，请参阅 PromQL 官方文档。

有关告警配置和管理的详细指导，请参见。

Redis APIs

监控与告警

目录

监控

告警

配置告警规则

Redis APIs

#监控与告警

#目录

#监控

#告警

#配置告警规则

监控与告警

目录

监控

告警

配置告警规则