平台的告警管理功能旨在帮助用户全面监控和及时发现系统异常。通过利用预装的系统告警和灵活的自定义告警能力,结合标准化的告警模板和分级管理机制,为运维人员提供了一整套完整的告警解决方案。
无论是平台管理员还是业务人员,都可以便捷地在各自的权限范围内配置和管理告警策略,以有效监控平台资源。
global
集群和工作负载集群的常见故障诊断思路,预置丰富的告警规则。资源告警
cert.*
)。事件告警
点击 添加告警规则,根据告警类型配置以下参数:
资源告警参数
参数 | 说明 |
---|---|
表达式 | Prometheus格式的监控指标算法,例如 rate(node_network_receive_bytes{instance="$server",device!~"lo"}[5m]) |
指标单位 | 自定义监控指标单位,可以手动输入或从平台预置单位中选择 |
图例参数 | 控制图表中曲线对应的名称,格式为 {{.LabelName}} ,例如 {{.hostname}} |
时间范围 | 日志/事件查询的时间窗口 |
日志内容 | 日志内容的查询字段(例如错误),多个查询字段之间为OR关系 |
事件原因 | 事件原因的查询字段(原因,例如:BackOff、Pulling、Failed等),多个查询字段之间为OR关系 |
触发条件 | 由比较运算符、告警阈值和持续时间(可选)组成的条件。通过实时值/日志条数/事件条数与告警阈值的比较,以及实时值在告警阈值范围内的持续时间来判断是否触发告警。 |
告警等级 | 分为四个等级:危急、严重、警告和信息。可以根据告警规则对业务的影响设定合理的告警等级。 |
事件告警参数
参数 | 说明 |
---|---|
时间范围 | 事件查询的时间窗口 |
事件监控项 | 支持监控事件等级或事件原因,多个字段之间为OR关系 |
触发条件 | 基于事件计数的比较判断 |
告警等级 | 与资源告警等级定义相同 |
$value
变量,这可能导致告警异常。example-alerting-rule.yaml
的新YAML配置文件。example-alerting-rule.yaml
的新YAML配置文件。告警模板是一组针对相似资源的告警规则和通知策略的组合。通过告警模板,可以轻松快速地为平台上的集群、节点或计算组件创建告警策略。
参数 | 说明 |
---|---|
表达式 | Prometheus格式的监控指标算法,例如 rate(node_network_receive_bytes{instance="$server",device!~"lo"}[5m]) |
指标单位 | 自定义监控指标单位,可手动输入或从平台预置单位中选择 |
图例参数 | 控制图表中曲线对应的名称,格式为 {{.LabelName}} ,例如 {{.hostname}} |
时间范围 | 日志/事件查询的时间窗口 |
日志内容 | 日志内容的查询字段(例如错误),多个查询字段之间为OR关系 |
事件原因 | 事件原因的查询字段(原因,例如:BackOff、Pulling、Failed等),多个查询字段之间为OR关系 |
触发条件 | 由比较运算符、告警阈值、持续时间(可选)组成的条件 |
告警等级 | 分为危急、严重、警告和信息四个等级。可以根据告警规则对业务的影响设定合理的告警等级。 |
参数 | 说明 |
---|---|
模板名称 | 要使用的告警模板的名称。模板按照集群、节点、计算组件分类排列。选中模板后,可查看告警模板中设置的告警规则、通知策略等信息。 |
资源类型 | 选择模板是否为 集群、节点 或 计算组件 的告警策略模板,相应的资源名称将显示。 |
支持为集群、节点和计算组件设置告警静默。通过为指定的告警策略设置静默,可以控制该告警策略下的所有规则在设定的静默时间范围内触发告警时不发送通知消息。支持设置永久静默和自定义时间静默。
例如,平台在进行升级或维护时,可能会有诸多资源出现异常状态,导致大量告警被触发,这使得运维人员在升级或维护完成前频繁收到告警通知。如能为告警策略设置静默可避免该情况的发生。
注意:如果静默状态持续到静默结束时间,静默设置将自动清除。
在左侧导航栏中,单击 运维中心 > 告警 > 告警策略。
单击待静默设置的告警策略右侧的操作按钮 > 设置静默。
打开 告警静默 的开关。
提示:此开关用于控制静默设置是否生效。取消静默时,只需关闭开关即可。
根据以下说明配置相关参数:
提示:如果未选择静默范围或资源名称,则默认为 任意,即后续 删除/添加 资源操作将对应 删除静默/添加静默 的告警策略;如果选择 全选,则仅对当前选定的资源范围有效,后续 删除/添加 资源的操作不会被处理。
参数 | 说明 |
---|---|
静默范围 | 静默设置生效的资源范围。 |
资源名称 | 静默设置针对的资源对象名称。 |
静默时间 | 告警静默的时间范围。告警将从静默时间开始进入静默状态,如果告警策略在静默结束时间后仍处于告警状态或触发告警,则恢复告警通知。 永久:静默设置将持续到告警策略被删除前。 自定义:自定义设置静默的开始和结束时间,时间间隔不得小于5分钟。 |
单击 设置。
提示:从设置静默起,到静默开始前,告警策略的静默状态为 静默等待;在此期间,策略中的规则触发告警时会正常发送通知;静默开始后至静默结束,告警策略的静默状态为 静默中,规则触发告警时将不会发送通知。
告警规则并不总是越多越好,冗余或复杂的告警规则可能引发告警风暴,增加维护负担。在配置告警规则前,建议您先阅读以下指南,以确保自定义规则能够实现预期目的的同时保持高效。