监控模块为平台管理员和运维人员提供了指标、仪表板、告警和通知等运维能力。
该平台结合了开源组件如 Prometheus / VictoriaMetrics 和监控仪表板,使管理的集群、节点、组件、自定义应用程序、Pods、容器等实现实时监控。
支持快速设置集群、节点和计算组件层面的监控指标告警、日志告警(仅适用于计算组件)和事件告警。此外,允许根据实际需求自定义监控指标算法,以增加必要的告警指标和规则。通知策略可以配置,以便及时将告警信息发送给运维人员,帮助避免系统故障或迅速解决问题,降低系统运维成本并确保系统稳定性。
监控模块具有以下核心优势:
全面监控覆盖
支持对多个层面的广泛监控,如集群、节点、组件和容器,实现从基础设施到应用的端到端监控链路。
灵活的告警配置
提供丰富的预设告警规则,同时支持自定义告警规则和算法,以满足不同的监控场景。
多样化的可视化展示
集成专业的监控仪表板,支持多种数据可视化方法,直观呈现系统运行状态。
高效的告警通知
支持多渠道告警通知,包括电子邮件、短信、Webhook 等,确保及时传达告警信息。
可扩展的监控架构
基于行业领先的 Prometheus / VictoriaMetrics 技术栈,具备卓越的可扩展性和兼容性。
监控模块适用于以下场景:
集群健康监控
实时监控集群中的资源使用情况、节点状态和组件运行状况,以便及时发现潜在问题。
应用性能分析
监控应用运行指标和容器资源使用情况,以优化应用性能。
故障预警与诊断
通过设置合理的告警规则,提前检测系统异常,快速识别和解决问题。
容量规划
基于历史监控数据进行趋势分析,为资源扩展和优化提供依据。
使用监控模块时,请注意以下限制:
监控数据的存储时间取决于存储容量配置,默认保留期限为 7 天。
Prometheus 和 VictoriaMetrics 不能同时安装在同一集群中,请做好选择规划并选择其一进行安装。
自定义监控指标的采集间隔最低支持 60 秒。
告警通知渠道需预先配置相应服务(例如电子邮件服务器、短信网关、企业微信/钉钉机器人等)。