核心概念

目录

Monitoring

Metrics

指标用于定量描述系统的运行状态,每个指标由四个基本要素组成:

  • Metric Name:用于标识被监控对象,如 cpu_usage
  • Metric Value:具体的测量数值,如 85.5
  • Timestamp:记录测量时间
  • Labels:用于多维度数据分类,如 {pod="nginx-1", namespace="default"}

PromQL

PromQL 是 Prometheus 的查询语言,用于查询和聚合监控系统中的指标数据。

Built-in Indicators

平台基于长期的运营经验预置了一系列常用的监控指标,配置告警规则或创建监控面板时可以直接使用,无需额外配置。

Exporter

Exporter 是用于采集监控数据的组件,主要职责包括:

  • 从目标系统采集原始监控数据
  • 将数据转换为标准的时序指标格式
  • 通过 HTTP 接口提供指标数据供查询

ServiceMonitor

ServiceMonitor 用于声明式管理监控配置,主要定义:

  • 监控目标的选择条件
  • 指标采集接口的配置
  • 采集任务的执行参数(间隔、超时等)

Alarms

Alarm Rules

告警规则定义触发告警的具体条件:

  • Alarm Expression:使用 PromQL 语句描述触发告警的条件
  • Alarm Threshold:触发的明确边界值
  • Duration:条件需持续满足的时间
  • Alarm Level:区分告警的严重程度(如 P0/P1/P2)

Alarm Policies

告警策略将多个告警规则组织在一起进行统一配置:

  • Alarm Targets:规则的目标范围
  • Notification Method:告警发送的渠道
  • Sending Interval:重复告警通知的时间间隔

Notifications

Notification Policies

通知策略管理告警消息的发送规则:

  • Recipients:告警通知的目标用户
  • Notification Channels:支持的消息发送方式
  • Notification Templates:消息内容格式的定义

Notification Templates

通知模板自定义告警消息的展示格式:

  • Title Template:告警消息标题的格式
  • Content Template:告警详情的组织方式
  • Variable Replacement:支持动态数据填充

Monitoring Dashboard

Dashboard

监控面板是多个相关面板的集合,提供系统状态的整体视图。支持灵活的布局排列,可按行或列组织面板。

Panels

面板是监控数据的可视化表现,支持多种展示类型。

Data Sources

监控数据源的配置。目前仅支持当前集群的监控组件作为数据源,暂不支持自定义数据源。

Variables

变量作为值的占位符,可用于指标查询。通过监控面板顶部的变量选择器,可以动态调整查询条件,实现图表内容的实时更新。