平台的告警管理功能旨在帮助用户全面监控并及时发现系统异常。通过利用预置的系统告警和灵活的自定义告警能力,结合标准化的告警模板和分级管理机制,为运维人员提供完整的告警解决方案。
无论是平台管理员还是业务人员,都可以在各自权限范围内方便地配置和管理告警策略,有效监控平台资源。
global
集群和工作负载集群预设丰富的告警规则。资源告警
cert.*
)。事件告警
点击 添加告警规则,根据告警类型配置以下参数:
资源告警参数
参数 | 说明 |
---|---|
Expression | Prometheus 格式的监控指标算法表达式,例如 rate(node_network_receive_bytes{instance="$server",device!~"lo"}[5m]) |
Metric Unit | 自定义监控指标单位,可手动输入或从平台预置单位中选择 |
Legend Parameter | 控制图表中曲线对应的名称,格式为 {{.LabelName}} ,例如 {{.hostname}} |
Time Range | 日志/事件查询的时间窗口 |
Log Content | 日志内容查询字段(如 Error),多个查询字段之间用 OR 连接 |
Event Reason | 事件原因查询字段(Reason,如 BackOff、Pulling、Failed 等),多个查询字段之间用 OR 连接 |
Trigger Condition | 由比较运算符、告警阈值和持续时间(可选)组成的条件。根据实时值/日志条数/事件条数与告警阈值的比较及实时值在阈值范围内的持续时间判断是否触发告警。 |
alert Level | 分为四个等级:Critical、Serious、Warning 和 Info。可根据告警规则对业务的影响合理设置对应资源的告警等级。 |
事件告警参数
参数 | 说明 |
---|---|
Time Range | 事件查询的时间窗口 |
Event Monitoring Item | 支持监控事件级别或事件原因,多个字段之间用 OR 连接 |
Trigger Condition | 基于事件数量的比较判断 |
alert Level | 与资源告警等级定义相同 |
$value
变量,可能导致告警异常。example-alerting-rule.yaml
。example-alerting-rule.yaml
。告警模板是针对类似资源的告警规则和通知策略的组合。通过告警模板,可以方便快捷地为平台上的集群、节点或计算组件创建告警策略。
参数 | 说明 |
---|---|
Expression | Prometheus 格式的监控指标算法表达式,例如 rate(node_network_receive_bytes{instance="$server",device!~"lo"}[5m]) |
Metric Unit | 自定义监控指标单位,可手动输入或从平台预置单位中选择 |
Legend Parameter | 控制图表中曲线对应的名称,格式为 {{.LabelName}} ,例如 {{.hostname}} |
Time Range | 日志/事件查询的时间窗口 |
Log Content | 日志内容查询字段(如 Error),多个查询字段之间用 OR 连接 |
Event Reason | 事件原因查询字段(Reason,如 BackOff、Pulling、Failed 等),多个查询字段之间用 OR 连接 |
Trigger Condition | 由比较运算符、告警阈值和持续时间(可选)组成的条件。 |
alert Level | 分为四个等级:Critical、Serious、Warning 和 Info。可根据告警规则对业务的影响合理设置对应资源的告警等级。 |
参数 | 说明 |
---|---|
模板名称 | 选择要使用的告警模板名称。模板按集群、节点和计算组件分类。选择模板后,可查看告警模板内设置的告警规则、通知策略等信息。 |
资源类型 | 选择模板是针对 集群、节点 还是 计算组件 的告警策略模板;对应的资源名称将显示。 |
支持对集群、节点和计算组件的告警进行静默设置。通过对特定告警策略设置静默,可以控制该告警策略下所有规则在静默期间触发时不发送通知消息。支持永久静默和自定义时间静默。
例如:平台升级或维护时,许多资源可能出现异常状态,导致大量告警触发,运维人员在升级或维护完成前频繁收到告警通知。设置告警策略静默可以避免此类情况。
注意:静默状态持续到静默结束时间时,静默设置将自动清除。
在左侧导航栏点击 运维中心 > 告警 > 告警策略。
点击要静默的告警策略右侧的操作按钮 > 设置静默。
切换 告警静默 开关至开启状态。
提示:该开关控制静默设置是否生效。取消静默只需关闭开关。
根据以下说明配置相关参数:
提示:若未选择静默范围或资源名称,默认为 任意,表示后续的 删除/添加 资源操作将对应 删除静默/添加静默 告警策略;选择“全选”时,仅作用于当前选中资源范围,后续的 删除/添加 资源操作不做处理。
参数 | 说明 |
---|---|
静默范围 | 静默设置生效的资源范围。 |
资源名称 | 静默设置针对的资源对象名称。 |
静默时间 | 告警静默的时间范围。静默时间开始时,告警进入静默状态;若静默结束时间后告警策略仍处于告警状态或触发告警,告警通知将恢复。永久:静默设置持续到告警策略被删除。自定义:自定义静默开始和结束时间,时间间隔不得少于 5 分钟。 |
点击 设置。
提示:从设置静默到静默开始前,告警策略静默状态为 静默等待,此期间策略内规则触发告警时正常发送通知;静默开始到结束期间,告警策略静默状态为 静默中,此期间策略内规则触发告警时不发送通知。
更多的告警规则并不总是更好。冗余或复杂的告警规则可能导致告警风暴,增加维护负担。建议在配置告警规则前阅读以下指南,确保自定义规则既能达到预期目的,又保持高效。