该平台提供了全面的监控功能,结合 Redis 实例的集成面板。这些监控功能支持性能分析、资源利用率跟踪以及可配置的告警机制,以实现主动管理。
平台会自动收集与 Redis 实例相关的关键性能指标,包括资源利用率和操作性能。这些指标可以通过实例的 监控 标签实时查看。
类别 | 指标 |
---|---|
集群状态监控 | 键数统计、命令执行指标、复制延迟等 |
资源监控 | 内存利用率、网络流量模式、存储使用情况等 |
性能监控 | 连接数、网络 I/O 吞吐量、命令延迟等 |
要为 Redis 实例配置告警规则,请导航至 Alauda 应用服务的 告警 > 规则 页面。
实现告警需要在 Alauda 应用服务中创建一个告警规则。告警规则定义了监控目标、触发通知的阈值条件以及通知的传递机制。
平台提供了以下预配置的告警指标:
指标 | 推荐阈值 | 描述 |
---|---|---|
实例状态 | !=1,持续 30 秒 | 监控实例的可用性和操作状态 |
Key 访问命中率 | <80%,持续 30 秒 | 监控缓存效率;低命中率可能表明缓存未命中,需调整策略(增加 TTL 值、优化键模式等) |
平均响应时间 | >0.1s,持续 30 秒 | 监控命令执行延迟;响应时间过长可能表明 CPU 限制、工作负载过重或大键操作 |
主从切换 | =1,持续 30 秒 | 监测主从角色转换,可能提示基础设施的问题或 Redis 节点故障 |
单节点输入带宽 | 根据环境特定的阈值 | 实时监控网络输入,以防止带宽饱和影响服务可用性 |
单节点输出带宽 | 根据环境特定的阈值 | 实时监控网络输出,以防止带宽饱和影响服务可用性 |
单节点客户端连接数 | 根据环境特定的阈值 | 监控连接模式,检测潜在的连接泄漏或异常访问模式 |
单节点 CPU 利用率 | >80%,持续 30 秒 | 监控 CPU 消耗;持续高利用率可能需要规划容量和扩展 |
单节点内存利用率 | >80%,持续 30 秒 | 监控内存使用情况;接近容量限制时需要立即扩展,以防止驱逐或 OOM 条件 |
单节点存储利用率 | >80%,持续 30 秒 | 监控 RDB/AOF 配置下的持久存储使用情况;高使用率需要扩容 |
这些预配置指标便于快速实现告警规则。对于更复杂的监控需求,可以使用 Prometheus 查询语法定义自定义告警指标:
在此示例中,redis_keyspace_misses_total
代表 Prometheus 收集的指标,<namespace>
用于按命名空间过滤资源,<podname prefix>
指定由 Deployment
或 StatefulSet
管理的资源的 Pods 名称模式。有关指标查询的全面信息,请参阅 PromQL 官方文档。
有关告警配置和管理的详细指导,请参见。