告警系统的运行基于以下核心步骤:
ASM 平台允许用户根据预设的监控指标、自定义监控指标和平台日志及事件数据为服务和计算组件设置告警策略(即一组告警规则)。当资源出现异常或达到预警状态时,系统会自动触发告警。
结合平台的通知功能,告警信息可以直接推送给运维人员或开发者,确保他们能够及时响应和处理问题,从而确保平台业务的顺利运行。
根据监控目标,平台定义了以下类型的告警:
指标告警:平台提炼出符合大多数客户需求的常见监控指标。用户可以通过选择监控指标和设置触发条件来配置告警。当监控数据满足告警规则的触发条件时,告警将被触发。
自定义告警:客户根据自己的使用场景添加企业特定的指标规则,更好地满足企业对告警的高级需求。
日志告警(仅适用于计算组件):在指定时间范围内,通过查找特定日志内容(错误、警告等)触发的告警。
事件告警(仅适用于计算组件):在指定时间范围内,通过查找事件原因(组件当前状态的原因,如 BackOff、Pulling、Failed 等)触发的告警。
在您设置告警策略后,系统将根据您选择的监控指标实时跟踪平台状态。对于每个告警策略,依据当前平台的具体情况,它将处于以下状态之一:
告警状态
告警:告警策略中的至少一个规则已触发告警。
处理中:告警策略中的至少一个规则查询的数据已达到或超过告警阈值,并且即将触发告警,这是一个中间状态。
正常:告警策略中的规则均未触发告警。
静音状态(此告警策略必须设置静音)
静音等待:设置静音后,静音开始前的状态。在此状态下,如果策略中的规则触发告警,通知将正常发送。
静音中:从静音开始到静音结束的状态。在此状态下,如果策略中的规则触发告警,将不会发送通知。