平台的告警管理功能旨在帮助用户全面监控并及时发现系统异常。通过利用预装的系统告警和灵活的自定义告警能力,结合标准化的告警模板和分级管理机制,为运维人员提供完整的告警解决方案。
无论是平台管理员还是业务人员,都可以在各自权限范围内方便地配置和管理告警策略,实现对平台资源的有效监控。
global
集群和工作负载集群。资源告警
cert.*
)。事件告警
点击 添加告警规则,根据告警类型配置以下参数:
资源告警参数
参数 | 描述 |
---|---|
Expression | Prometheus 格式的监控指标算法,例如 rate(node_network_receive_bytes{instance="$server",device!~"lo"}[5m]) |
Metric Unit | 自定义监控指标单位,可手动输入或从平台预设单位中选择 |
Legend Parameter | 控制图表中曲线对应的名称,格式为 {{.LabelName}} ,例如 {{.hostname}} |
Time Range | 日志/事件查询的时间窗口 |
Log Content | 日志内容查询字段(如 Error),多个查询字段之间用 OR 连接 |
Event Reason | 事件原因查询字段(Reason,如 BackOff、Pulling、Failed 等),多个查询字段之间用 OR 连接 |
Trigger Condition | 由比较运算符、告警阈值和持续时间(可选)组成的条件。根据实时值/日志数量/事件数量与告警阈值的比较及实时值在告警阈值范围内的持续时间判断是否触发告警。 |
alert Level | 分为四个等级:Critical、Serious、Warning 和 Info。可根据告警规则对业务的影响,为对应资源设置合理的告警等级。 |
事件告警参数
参数 | 描述 |
---|---|
Time Range | 事件查询的时间窗口 |
Event Monitoring Item | 支持监控事件等级或事件原因,多个字段之间用 OR 连接 |
Trigger Condition | 基于事件数量进行比较判断 |
alert Level | 与资源告警等级定义相同 |
$value
变量,否则可能导致告警异常。新建 YAML 配置文件,命名为 example-alerting-rule.yaml
。
在 YAML 文件中添加 PrometheusRule 资源并提交。以下示例创建了一个名为 policy 的新告警策略:
新建 YAML 配置文件,命名为 example-alerting-rule.yaml
。
在 YAML 文件中添加 PrometheusRule 资源并提交。以下示例创建了一个名为 policy2 的新告警策略:
告警模板是针对相似资源的告警规则和通知策略的组合。通过告警模板,可以方便快捷地为平台上的集群、节点或计算组件创建告警策略。
参数 | 描述 |
---|---|
Expression | Prometheus 格式的监控指标算法,例如 rate(node_network_receive_bytes{instance="$server",device!~"lo"}[5m]) |
Metric Unit | 自定义监控指标单位,可手动输入或从平台预设单位中选择 |
Legend Parameter | 控制图表中曲线对应的名称,格式为 {{.LabelName}} ,例如 {{.hostname}} |
Time Range | 日志/事件查询的时间窗口 |
Log Content | 日志内容查询字段(如 Error),多个查询字段之间用 OR 连接 |
Event Reason | 事件原因查询字段(Reason,如 BackOff、Pulling、Failed 等),多个查询字段之间用 OR 连接 |
Trigger Condition | 由比较运算符、告警阈值和持续时间(可选)组成的条件。 |
alert Level | 分为四个等级:Critical、Serious、Warning 和 Info。可根据告警规则对业务的影响,为对应资源设置合理的告警等级。 |
参数 | 描述 |
---|---|
模板名称 | 选择要使用的告警模板名称。模板按集群、节点和计算组件分类。选择模板后,可查看告警模板中设置的告警规则、通知策略等信息。 |
资源类型 | 选择模板是针对 集群、节点 还是 计算组件 的告警策略模板;对应的资源名称将显示。 |
支持对集群、节点和计算组件的告警进行静默设置。通过对特定告警策略设置静默,可以控制该告警策略下所有规则在静默时间段内触发时不发送通知消息。支持永久静默和自定义时间静默。
例如:平台升级或维护时,许多资源可能出现异常状态,导致大量告警触发,运维人员在升级或维护完成前频繁收到告警通知。对告警策略设置静默可避免此类情况。
注意:静默状态持续到静默结束时间后,静默设置将自动清除。
在左侧导航栏点击 运维中心 > 告警 > 告警策略。
点击要静默的告警策略右侧的操作按钮 > 设置静默。
切换 告警静默 开关至开启状态。
提示:该开关控制静默设置是否生效。取消静默只需关闭开关。
根据以下说明配置相关参数:
提示:若未选择静默范围或资源名称,默认为 任意,表示后续的 删除/添加 资源操作将对应 删除静默/添加静默 告警策略;选择“全选”时,仅对当前选中资源范围生效,后续的 删除/添加 资源操作不再处理。
参数 | 描述 |
---|---|
静默范围 | 静默设置生效的资源范围。 |
资源名称 | 静默设置针对的资源对象名称。 |
静默时间 | 告警静默的时间范围。告警将在静默时间开始时进入静默状态,若静默结束时间后告警策略仍处于告警状态或再次触发告警,则恢复发送告警通知。永久:静默设置持续到告警策略被删除。自定义:自定义静默开始和结束时间,时间间隔不得少于 5 分钟。 |
点击 设置。
提示:从设置静默到静默开始这段时间内,告警策略的静默状态为 静默等待,此期间策略内规则触发告警时正常发送通知;静默开始至结束期间,告警策略静默状态为 静默中,策略内规则触发告警时不发送通知。
指定要设置静默的告警策略资源名称,执行以下命令:
按示例修改资源,添加静默注解并提交。
更多的告警规则并不总是更好。冗余或复杂的告警规则可能导致告警风暴,增加维护负担。建议您在配置告警规则前阅读以下指导,确保自定义规则既能达到预期目的,又保持高效。