监控与告警

该平台提供了全面的监控功能,结合 Redis 实例的集成面板。这些监控功能支持性能分析、资源利用率跟踪以及可配置的告警机制,以实现主动管理。

目录

监控

平台会自动收集与 Redis 实例相关的关键性能指标,包括资源利用率和操作性能。这些指标可以通过实例的 监控 标签实时查看。

类别指标
集群状态监控键数统计、命令执行指标、复制延迟等
资源监控内存利用率、网络流量模式、存储使用情况等
性能监控连接数、网络 I/O 吞吐量、命令延迟等

告警

要为 Redis 实例配置告警规则,请导航至 Alauda 应用服务的 告警 > 规则 页面。

配置告警规则

实现告警需要在 Alauda 应用服务中创建一个告警规则。告警规则定义了监控目标、触发通知的阈值条件以及通知的传递机制。

平台提供了以下预配置的告警指标:

指标推荐阈值描述
实例状态!=1,持续 30 秒监控实例的可用性和操作状态
Key 访问命中率<80%,持续 30 秒监控缓存效率;低命中率可能表明缓存未命中,需调整策略(增加 TTL 值、优化键模式等)
平均响应时间>0.1s,持续 30 秒监控命令执行延迟;响应时间过长可能表明 CPU 限制、工作负载过重或大键操作
主从切换=1,持续 30 秒监测主从角色转换,可能提示基础设施的问题或 Redis 节点故障
单节点输入带宽根据环境特定的阈值实时监控网络输入,以防止带宽饱和影响服务可用性
单节点输出带宽根据环境特定的阈值实时监控网络输出,以防止带宽饱和影响服务可用性
单节点客户端连接数根据环境特定的阈值监控连接模式,检测潜在的连接泄漏或异常访问模式
单节点 CPU 利用率>80%,持续 30 秒监控 CPU 消耗;持续高利用率可能需要规划容量和扩展
单节点内存利用率>80%,持续 30 秒监控内存使用情况;接近容量限制时需要立即扩展,以防止驱逐或 OOM 条件
单节点存储利用率>80%,持续 30 秒监控 RDB/AOF 配置下的持久存储使用情况;高使用率需要扩容

这些预配置指标便于快速实现告警规则。对于更复杂的监控需求,可以使用 Prometheus 查询语法定义自定义告警指标:

(1/(1+(avg(irate(redis_keyspace_misses_total{namespace=~"<namespace>", pod=~"<podname prefix>-.*"}[5m])) by(namespace,service) / (avg(irate(redis_keyspace_hits_total{namespace=~"<namespace>", pod=~"<podname prefix>-.*"}[5m])) by(namespace,service)+1))))

在此示例中,redis_keyspace_misses_total 代表 Prometheus 收集的指标,<namespace> 用于按命名空间过滤资源,<podname prefix> 指定由 DeploymentStatefulSet 管理的资源的 Pods 名称模式。有关指标查询的全面信息,请参阅 PromQL 官方文档

有关告警配置和管理的详细指导,请参见