深入理解告警

告警的基本原则

告警系统的运行基于以下核心步骤:

  1. 数据收集:
  • 告警系统首先需要从各种资源中收集数据。这些数据通常包括硬件性能指标(如 CPU 利用率、内存使用情况)、软件性能指标(如响应时间、错误率)和网络活动。
  • 数据源可能包括专用监控软件(如 Prometheus)、日志文件等。
  1. 数据分析与处理:
  • 收集到的数据需要被分析和处理,以检测任何超出正常范围的指标。
  1. 告警触发:
  • 当监控的数据指标超过预设的阈值或被识别为异常模式时,告警系统将触发告警。
  • 可以使用告警静音来决定是否触发告警,从而避免频繁的告警干扰。
  1. 通知发送:
  • 一旦触发告警,系统将通过预定的通信渠道(如电子邮件、短信、平台应用通知等)向相关人员或团队发送通知。
  • 通知通常包括有关告警的详细信息,例如告警类型、受影响的资源、当前指标值、时间戳以及可能的解决建议。

ASM 平台允许用户根据预设的监控指标、自定义监控指标和平台日志及事件数据为服务和计算组件设置告警策略(即一组告警规则)。当资源出现异常或达到预警状态时,系统会自动触发告警。

结合平台的通知功能,告警信息可以直接推送给运维人员或开发者,确保他们能够及时响应和处理问题,从而确保平台业务的顺利运行。

告警类型

根据监控目标,平台定义了以下类型的告警:

  • 指标告警:平台提炼出符合大多数客户需求的常见监控指标。用户可以通过选择监控指标和设置触发条件来配置告警。当监控数据满足告警规则的触发条件时,告警将被触发。

  • 自定义告警:客户根据自己的使用场景添加企业特定的指标规则,更好地满足企业对告警的高级需求。

  • 日志告警(仅适用于计算组件):在指定时间范围内,通过查找特定日志内容(错误、警告等)触发的告警。

  • 事件告警(仅适用于计算组件):在指定时间范围内,通过查找事件原因(组件当前状态的原因,如 BackOff、Pulling、Failed 等)触发的告警。

告警状态说明

在您设置告警策略后,系统将根据您选择的监控指标实时跟踪平台状态。对于每个告警策略,依据当前平台的具体情况,它将处于以下状态之一:

  • 告警状态

    • 告警:告警策略中的至少一个规则已触发告警。

    • 处理中:告警策略中的至少一个规则查询的数据已达到或超过告警阈值,并且即将触发告警,这是一个中间状态。

    • 正常:告警策略中的规则均未触发告警。

  • 静音状态(此告警策略必须设置静音)

    • 静音等待:设置静音后,静音开始前的状态。在此状态下,如果策略中的规则触发告警,通知将正常发送。

    • 静音中:从静音开始到静音结束的状态。在此状态下,如果策略中的规则触发告警,将不会发送通知。