核心概念

监控

指标

指标用于量化描述系统的运行状态,每个指标包含四个基本要素:

  • 指标名称:用于标识监控对象,如 cpu_usage
  • 指标值:具体的测量数值,如 85.5
  • 时间戳:记录测量时间
  • 标签:用于多维度数据分类,如 {pod="nginx-1", namespace="default"}

PromQL

PromQL 是 Prometheus 的查询语言,用于从监控系统中查询和聚合指标数据。

内置指标

平台基于长期运维经验,预置了一系列常用的监控指标。您可以在配置告警规则或创建监控面板时直接使用这些指标,无需额外配置。

Exporter

Exporter 是用于收集监控数据的组件,主要职责包括:

  • 从目标系统收集原始监控数据
  • 将数据转换为标准的时间序列指标格式
  • 通过 HTTP 接口提供指标数据供查询

ServiceMonitor

ServiceMonitor 用于声明性地管理监控配置,主要定义:

  • 监控目标的选择标准
  • 指标采集接口的配置
  • 采集任务的执行参数(间隔、超时等)

告警

告警规则

告警规则定义了触发告警的具体条件:

  • 告警表达式:使用 PromQL 语句描述告警触发的条件
  • 告警阈值:明确的触发边界值
  • 持续时间:条件必须持续满足的时长
  • 告警级别:区分告警的严重性(如 P0/P1/P2)

告警策略

告警策略将多个告警规则组合在一起进行统一配置:

  • 告警对象:规则适用的目标范围
  • 通知方式:告警发送的渠道
  • 发送间隔:重复告警通知的时间间隔

通知

通知策略

通知策略管理发送告警消息的规则:

  • 接收人:告警通知的目标用户
  • 通知渠道:支持的消息发送方式
  • 通知模板:消息内容格式的定义

通知模板

通知模板自定义告警消息的展示格式:

  • 标题模板:告警消息的标题格式
  • 内容模板:告警详情的组织形式
  • 变量替换:支持动态数据填充

监控面板

面板

面板是多个相关图表的集合,为系统状态提供整体视图。支持灵活的布局安排,可以按行或列组织图表。

图表

图表是监控数据的可视化表示,支持多种展示类型。

数据源

监控数据源的配置。目前仅支持当前集群的监控组件作为数据源,暂不支持自定义数据源。

变量

变量作为值的占位符,可用于指标查询。通过面板顶部的变量选择器,您可以动态调整查询条件,使图表内容实时更新。