核心概念
目录
Monitoring
Metrics
指标用于定量描述系统的运行状态,每个指标由四个基本要素组成:
- Metric Name:用于标识被监控对象,如
cpu_usage
- Metric Value:具体的测量数值,如
85.5
- Timestamp:记录测量时间
- Labels:用于多维度数据分类,如
{pod="nginx-1", namespace="default"}
PromQL
PromQL 是 Prometheus 的查询语言,用于查询和聚合监控系统中的指标数据。
Built-in Indicators
平台基于长期的运维经验预置了一系列常用的监控指标,配置告警规则或创建监控面板时可以直接使用,无需额外配置。
Exporter
Exporter 是用于采集监控数据的组件,主要职责包括:
- 从目标系统采集原始监控数据
- 将数据转换为标准的时序指标格式
- 通过 HTTP 接口提供指标数据供查询
ServiceMonitor
ServiceMonitor 用于声明式管理监控配置,主要定义:
- 监控目标的选择条件
- 指标采集接口的配置
- 采集任务的执行参数(间隔、超时等)
Alarms
Alarm Rules
告警规则定义触发告警的具体条件:
- Alarm Expression:使用 PromQL 语句描述触发告警的条件
- Alarm Threshold:触发的明确边界值
- Duration:条件需持续满足的时间
- Alarm Level:区分告警的严重等级(如 P0/P1/P2)
Alarm Policies
告警策略将多个告警规则组织在一起进行统一配置:
- Alarm Targets:规则的目标范围
- Notification Method:发送告警的渠道
- Sending Interval:重复告警通知的时间间隔
Notifications
Notification Policies
通知策略管理告警消息的发送规则:
- Recipients:告警通知的目标用户
- Notification Channels:支持的消息发送方式
- Notification Templates:消息内容格式的定义
Notification Templates
通知模板自定义告警消息的展示格式:
- Title Template:告警消息标题的格式
- Content Template:告警详情的组织方式
- Variable Replacement:支持动态数据填充
Monitoring Dashboard
Dashboard
监控面板是多个相关面板的集合,提供系统状态的整体视图。支持灵活的布局排列,可按行或列组织面板。
Panels
面板是监控数据的可视化表现,支持多种展示类型。
Data Sources
监控数据源的配置。目前仅支持当前集群的监控组件作为数据源,暂不支持自定义数据源。
Variables
变量作为值的占位符,可用于指标查询。通过监控面板顶部的变量选择器,可以动态调整查询条件,实现图表内容的实时更新。