告警的深入理解

目录

告警的基本原理

告警系统的运行基于以下核心步骤:

  1. 数据采集:
  • 告警系统首先需要从各种资源中采集数据。这些数据通常包括硬件性能指标(如 CPU 利用率、内存使用率)、软件性能指标(如响应时间、错误率)以及网络活动。
  • 数据来源可能包括专门的监控软件(如 Prometheus)、日志文件等。
  1. 数据分析与处理:
  • 需要对采集到的数据进行分析和处理,以检测是否有指标超出正常范围。
  1. 告警触发:
  • 当监控数据指标超过预设阈值或被识别为异常模式时,告警系统将触发告警。
  • 可以使用告警静默来决定是否触发告警,从而避免频繁的告警噪声。
  1. 通知发送:
  • 一旦触发告警,系统会通过预定的通信渠道(如电子邮件、短信、平台应用通知等)向相关人员或团队发送通知。
  • 通知通常包含告警的详细信息,如告警类型、受影响资源、当前指标值、时间戳以及可能的解决建议。

ASM 平台允许用户基于预设监控指标、自定义监控指标以及平台日志和事件数据,为服务和计算组件设置告警策略(即一组告警规则)。当资源出现异常或达到预警状态时,系统会自动触发告警。

结合平台的通知功能,告警信息可以直接推送给运维人员或开发人员,确保他们能够及时响应和处理问题,从而保障平台业务的顺利运行。

告警类型

根据监控对象,平台定义了以下几种告警类型:

  • 指标告警:平台细化了满足大多数客户需求的常用监控指标。用户可以通过选择监控指标并设置触发条件来配置告警。当监控数据满足告警规则的触发条件时,触发告警。

  • 自定义告警:客户根据自身使用场景添加企业特定的指标规则,更好地满足企业对告警的高级需求。

  • 日志告警(仅针对计算组件):基于指定时间范围内计算组件中发现特定日志内容(Error、Warning 等)的数量触发的告警。

  • 事件告警(仅针对计算组件):基于指定时间范围内发现的事件 Reason(组件当前状态的原因,如 BackOff、Pulling、Failed 等)数量触发的告警。

告警状态说明

设置告警策略后,系统将基于您选择的监控指标实时跟踪平台状态。对于每个告警策略,根据当前平台的具体情况,状态将处于以下之一:

  • 告警状态

    • 告警中:告警策略中至少有一条规则已触发告警。

    • 处理中:告警策略中至少有一条规则的查询数据已达到或超过告警阈值,且即将触发告警,是一种中间状态。

    • 正常:告警策略中的所有规则均未触发告警。

  • 静默状态(需为该告警策略设置静默)

    • 静默等待:设置静默后,静默开始前的状态。在此状态下,如果策略中的规则触发告警,通知将正常发送。

    • 静默中:从静默开始到结束的状态。在此状态下,如果策略中的规则触发告警,将不会发送通知。