介绍

在实例运维过程中,告警可用于通知需要特别关注的异常或状态。当实例出现异常或达到告警状态时,告警可以自动触发,帮助您及时发现并定位问题。

为了提升系统运维效率,平台基于故障排查中常用的监控指标建立了告警规则,并将其分类整合为内置告警策略。

平台支持基于预定义监控指标和用户自定义监控指标的告警规则。当资源出现异常或达到告警状态时,告警可以自动触发。结合平台的通知功能,告警信息可主动推送给运维人员,提醒他们及时处理告警资源,确保平台业务的顺畅运行。

为方便对平台上大量资源设置告警,平台支持通过告警模板自定义类似实例的标准化告警配置,帮助您基于已有模板快速创建资源的告警策略。

目录

告警类型

  • Metric Alert:平台提取的常用监控指标,满足大多数客户需求。您可以通过选择监控指标并设置触发条件来配置告警。当监控数据满足告警规则的触发条件时,将触发告警。

  • Custom Alert:您可以基于实际使用场景,新增企业特定的指标规则,在 Metric Alert 的基础上更好地满足企业的高级告警需求。

状态说明

  • 告警状态

    • Alert:查询告警规则配置获得的数据满足触发条件,已触发告警。

    • Pending:查询告警规则配置获得的监控数据大于或等于触发条件中的告警阈值,但持续时间尚未满足触发条件,表示告警触发前的临界状态。例如:若告警规则的触发条件为“CPU 使用率超过 80% 且持续 3 分钟”,当系统首次检测到 CPU 超过 80% 时,会将规则标记为 Pending。系统会持续评估,若 CPU 使用率持续超过 80% 达 3 分钟,规则状态将变为 Alert;若后续评估中 CPU 使用率降至 80% 以下,规则状态将恢复为 Normal

    • Normal:查询告警规则配置获得的数据未达到告警阈值。

  • 静默状态

    • Silent Pending:设置静默后开始静默前的状态。在此状态下,策略中的规则触发告警时,通知仍会正常发送。

    • Silent:从开始静默到结束静默的状态。在此状态下,策略中的规则触发告警时,不会发送通知。

实时告警

平台通过实时告警展示当前处于告警状态的资源数量及详细告警信息,使运维人员和管理员能够实时了解平台业务的整体告警情况,及时识别并处理故障,保障平台正常运行。

告警历史

为协助运维人员和管理员分析近期监控告警情况及追溯历史问题,平台支持查看一段时间内的历史告警记录。可查看的历史信息包括发生时间、告警规则、故障资源、通知方式、状态及通知接收人等。

注意:告警历史的保留时间与事件的保留时间一致,可在 Administrator 部分通过修改日志存储组件的配置参数进行更新。