介绍

模块概述

监控模块为平台管理员和运维人员提供了指标、仪表板、告警和通知等运维能力。

该平台结合了开源组件如 Prometheus / VictoriaMetrics 和监控仪表板,使管理的集群、节点、组件、自定义应用程序、Pods、容器等实现实时监控。

支持快速设置集群、节点和计算组件层面的监控指标告警、日志告警(仅适用于计算组件)和事件告警。此外,允许根据实际需求自定义监控指标算法,以增加必要的告警指标和规则。通知策略可以配置,以便及时将告警信息发送给运维人员,帮助避免系统故障或迅速解决问题,降低系统运维成本并确保系统稳定性。

模块优势

监控模块具有以下核心优势:

  • 全面监控覆盖

    支持对多个层面的广泛监控,如集群、节点、组件和容器,实现从基础设施到应用的端到端监控链路。

  • 灵活的告警配置

    提供丰富的预设告警规则,同时支持自定义告警规则和算法,以满足不同的监控场景。

  • 多样化的可视化展示

    集成专业的监控仪表板,支持多种数据可视化方法,直观呈现系统运行状态。

  • 高效的告警通知

    支持多渠道告警通知,包括电子邮件、短信、Webhook 等,确保及时传达告警信息。

  • 可扩展的监控架构

    基于行业领先的 Prometheus / VictoriaMetrics 技术栈,具备卓越的可扩展性和兼容性。

应用场景

监控模块适用于以下场景:

  • 集群健康监控

    实时监控集群中的资源使用情况、节点状态和组件运行状况,以便及时发现潜在问题。

  • 应用性能分析

    监控应用运行指标和容器资源使用情况,以优化应用性能。

  • 故障预警与诊断

    通过设置合理的告警规则,提前检测系统异常,快速识别和解决问题。

  • 容量规划

    基于历史监控数据进行趋势分析,为资源扩展和优化提供依据。

使用限制

使用监控模块时,请注意以下限制:

  • 监控数据的存储时间取决于存储容量配置,默认保留期限为 7 天。

  • Prometheus 和 VictoriaMetrics 不能同时安装在同一集群中,请做好选择规划并选择其一进行安装。

  • 自定义监控指标的采集间隔最低支持 60 秒。

  • 告警通知渠道需预先配置相应服务(例如电子邮件服务器、短信网关、企业微信/钉钉机器人等)。