监控模块架构

整体架构说明

监控系统由以下核心功能模块组成:

  1. 监控系统
    • 数据采集与存储:从多个来源收集和持久化监控指标
    • 数据查询与可视化:提供灵活的监控数据查询和展示能力
  2. 告警系统
    • 告警规则管理:配置和管理告警策略
    • 告警触发与通知:评估告警规则并发送通知
    • 实时告警状态:提供系统当前告警状态的实时视图
  3. 通知系统
    • 通知配置:管理通知模板、联系人组及通知策略
    • 通知服务器:管理各种通知渠道的配置

监控系统

数据采集与存储

  1. Prometheus/VictoriaMetrics Operator 的职责:
    • 加载并验证监控采集配置
    • 加载并验证告警规则配置
    • 将配置同步到 Prometheus/VictoriaMetrics 实例
  2. 监控数据来源:
    • Nevermore:生成日志相关的指标
    • Warlock:生成事件相关的指标
    • Prometheus/VictoriaMetrics:通过 ServiceMonitor 发现并采集多种 exporters 的指标

数据查询与可视化

  1. 监控数据查询流程:

    • 浏览器发起查询请求(路径:/platform/monitoring.alauda.io/v1beta1
    • ALB 将请求转发至 Courier 组件
    • Courier API 处理查询:
      • 内置指标:通过 indicators 接口获取 PromQL 并查询
      • 自定义指标:直接转发 PromQL 到监控组件
    • 监控仪表板获取数据并展示
  2. 监控仪表板管理流程:

    • 用户访问 global 集群的 ALB(路径:/kubernetes/集群名/apis/ait.alauda.io/v1alpha2/MonitorDashboard
    • ALB 转发请求至 Erebus 组件
    • Erebus 路由请求到目标监控集群
    • Warlock 组件负责:
      • 验证监控仪表板配置的合法性
      • 管理 MonitorDashboard CR 资源

告警系统

告警规则管理

告警规则配置流程:

  1. 用户访问 global 集群的 ALB(路径:/kubernetes/集群名/apis/monitoring.coreos.com/v1/prometheusrules
  2. 请求经过 ALB -> Erebus -> 目标集群 kube-apiserver
  3. 各组件的职责:
    • Prometheus/VictoriaMetrics Operator:
      • 验证告警规则的合法性
      • 管理 PrometheusRule CR
    • Nevermore:监听并处理日志告警指标
    • Warlock:监听并处理事件告警指标

告警处理流程

  1. 告警评估:
    • PrometheusRule/VMRule 定义告警规则
    • Prometheus/VictoriaMetrics 定期评估规则
  2. 告警通知:
    • 一旦触发,告警会发送至 Alertmanager
    • Alertmanager -> ALB -> Courier API
    • Courier API 负责通知的分发
  3. 告警存储:
    • 告警历史存储在 ElasticSearch/ClickHouse 中

实时告警状态

  1. 状态收集:
    • global 集群的 Courier 生成指标:
      • cpaas_active_alerts:当前活动告警
      • cpaas_active_silences:当前静默配置
    • Global Prometheus 每 15 秒收集一次数据
  2. 状态展示:
    • 前端通过 Courier API 查询并展示实时状态

通知系统

通知配置管理

通知模板、通知联系人组和通知策略的管理流程如下:

  1. 用户通过浏览器访问 global 集群的标准 API
    • 访问路径:/apis/ait.alauda.io/v1beta1/namespaces/cpaas-system
  2. 管理相关资源:
    • 通知模板:apiVersion: "ait.alauda.io/v1beta1", kind: "NotificationTemplate"
    • 通知联系人组:apiVersion: "ait.alauda.io/v1beta1", kind: "NotificationGroup"
    • 通知策略:apiVersion: "ait.alauda.io/v1beta1", kind: "Notification"
  3. Courier 负责:
    • 验证通知模板的合法性
    • 验证通知联系人组的合法性
    • 验证通知策略的合法性

通知服务器管理

  1. 用户通过浏览器访问 global 集群的 ALB
    • 访问路径:/kubernetes/global/api/v1/namespaces/cpaas-system/secrets
  2. 管理并提交通知服务器配置
    • 资源名称:platform-email-server
  3. Courier 负责:
    • 验证通知服务器配置的合法性