介绍

在实例的运维过程中,警报可用于通知异常或需要特别关注的状态。当实例遇到异常或达到警告状态时,可以自动触发警报,帮助您及时发现和定位问题。

为了提高系统的运维效率,平台根据排查常见实例故障时使用的监控指标,建立了警报规则,并将其分类和整合为内置警报策略。

平台支持基于预定义监控指标和用户自定义监控指标的警报规则。当资源发生异常或达到警告状态时,警报可以自动触发。结合平台的通知功能,警报信息可以主动推送给运维人员,提醒他们及时处理警报资源,确保平台业务的顺利进行。

为了方便对平台上大量资源设置警报,平台支持通过警报模板自定义标准化的警报配置,允许您基于现有模板快速为资源创建警报策略。

警报类型

  • 指标警报: 平台提取的常见监控指标,满足大多数客户需求。您可以通过选择监控指标和设置触发条件来配置警报。当监控数据满足警报规则的触发条件时,将触发警报。

  • 自定义警报: 您可以根据实际使用案例添加企业特定的指标规则,以更好地满足企业在指标警报基础上的高级警报需求。

状态描述

  • 警报状态

    • 警报: 从查询警报规则配置中获取的数据满足触发条件,已触发警报。

    • 待确认: 从查询警报规则配置中获取的监控数据大于或等于触发条件中的 警报阈值,但持续时间尚未满足触发条件,表示警报触发前的关键状态。例如:如果警报规则的触发条件是 CPU使用率超过80%且持续3分钟,当系统首次检测到CPU超过80%时,将该规则标记为 待确认。系统将继续评估,如果CPU使用率在3分钟内保持在80%以上,该规则的状态将更改为 警报;如果在任何后续评估中CPU使用率降至80%以下,则该规则的状态将恢复为 正常

    • 正常: 从查询警报规则配置中获取的数据未达到警报阈值。

  • 静默状态

    • 静默待确认: 在设置静默后的静默开始前的状态。在此状态下,当策略中的规则触发警报时,通知将正常发送。

    • 静默: 从静默开始到静默结束的状态。在此状态下,当策略中的规则触发警报时,通知将不会发送。

实时警报

平台通过实时警报显示当前处于警报状态的资源数量和详细的警报信息,使运维人员和管理员能够实时了解平台上业务的整体警报状况,及时识别和处理故障,以确保平台的正常运行。

警报历史

为了帮助运维人员和管理员分析最近的监控警报状况并追溯历史问题,平台支持查看一段时间内的历史警报记录。可查看的历史信息包括发生时间、警报规则、故障资源、通知方式、状态和通知接收者等。

注意: 警报历史的保留时间与事件的保留时间相同,并可以通过修改日志存储组件的配置参数在 Administrator 部分进行更新。