监控模块架构

整体架构说明
监控系统由以下核心功能模块组成:
- 监控系统
- 数据采集与存储:从多个来源收集和持久化监控指标
- 数据查询与可视化:提供灵活的监控数据查询和展示能力
- 告警系统
- 告警规则管理:配置和管理告警策略
- 告警触发与通知:评估告警规则并发送通知
- 实时告警状态:提供系统当前告警状态的实时视图
- 通知系统
- 通知配置:管理通知模板、联系人组及通知策略
- 通知服务器:管理各种通知渠道的配置
监控系统
数据采集与存储
- Prometheus/VictoriaMetrics Operator 的职责:
- 加载并验证监控采集配置
- 加载并验证告警规则配置
- 将配置同步到 Prometheus/VictoriaMetrics 实例
- 监控数据来源:
- Nevermore:生成日志相关的指标
- Warlock:生成事件相关的指标
- Prometheus/VictoriaMetrics:通过 ServiceMonitor 发现并采集多种 exporters 的指标
数据查询与可视化
-
监控数据查询流程:
- 浏览器发起查询请求(路径:
/platform/monitoring.alauda.io/v1beta1
)
- ALB 将请求转发至 Courier 组件
- Courier API 处理查询:
- 内置指标:通过 indicators 接口获取 PromQL 并查询
- 自定义指标:直接转发 PromQL 到监控组件
- 监控仪表板获取数据并展示
-
监控仪表板管理流程:
- 用户访问
global
集群的 ALB(路径:/kubernetes/集群名/apis/ait.alauda.io/v1alpha2/MonitorDashboard
)
- ALB 转发请求至 Erebus 组件
- Erebus 路由请求到目标监控集群
- Warlock 组件负责:
- 验证监控仪表板配置的合法性
- 管理 MonitorDashboard CR 资源
告警系统
告警规则管理
告警规则配置流程:
- 用户访问
global
集群的 ALB(路径:/kubernetes/集群名/apis/monitoring.coreos.com/v1/prometheusrules
)
- 请求经过 ALB -> Erebus -> 目标集群 kube-apiserver
- 各组件的职责:
- Prometheus/VictoriaMetrics Operator:
- 验证告警规则的合法性
- 管理 PrometheusRule CR
- Nevermore:监听并处理日志告警指标
- Warlock:监听并处理事件告警指标
告警处理流程
- 告警评估:
- PrometheusRule/VMRule 定义告警规则
- Prometheus/VictoriaMetrics 定期评估规则
- 告警通知:
- 一旦触发,告警会发送至 Alertmanager
- Alertmanager -> ALB -> Courier API
- Courier API 负责通知的分发
- 告警存储:
- 告警历史存储在 ElasticSearch/ClickHouse 中
实时告警状态
- 状态收集:
global
集群的 Courier 生成指标:
- cpaas_active_alerts:当前活动告警
- cpaas_active_silences:当前静默配置
- Global Prometheus 每 15 秒收集一次数据
- 状态展示:
- 前端通过 Courier API 查询并展示实时状态
通知系统
通知配置管理
通知模板、通知联系人组和通知策略的管理流程如下:
- 用户通过浏览器访问
global
集群的标准 API
- 访问路径:
/apis/ait.alauda.io/v1beta1/namespaces/cpaas-system
- 管理相关资源:
- 通知模板:apiVersion: "ait.alauda.io/v1beta1", kind: "NotificationTemplate"
- 通知联系人组:apiVersion: "ait.alauda.io/v1beta1", kind: "NotificationGroup"
- 通知策略:apiVersion: "ait.alauda.io/v1beta1", kind: "Notification"
- Courier 负责:
- 验证通知模板的合法性
- 验证通知联系人组的合法性
- 验证通知策略的合法性
通知服务器管理
- 用户通过浏览器访问
global
集群的 ALB
- 访问路径:
/kubernetes/global/api/v1/namespaces/cpaas-system/secrets
- 管理并提交通知服务器配置
- 资源名称:platform-email-server
- Courier 负责: