告警系统的运行基于以下核心步骤:
ASM 平台允许用户基于预设监控指标、自定义监控指标以及平台日志和事件数据,为服务和计算组件设置告警策略(即一组告警规则)。当资源出现异常或达到预警状态时,系统会自动触发告警。
结合平台的通知功能,告警信息可以直接推送给运维人员或开发人员,确保他们能够及时响应和处理问题,从而保障平台业务的顺利运行。
根据监控对象,平台定义了以下几种告警类型:
指标告警:平台细化了满足大多数客户需求的常用监控指标。用户可以通过选择监控指标并设置触发条件来配置告警。当监控数据满足告警规则的触发条件时,触发告警。
自定义告警:客户根据自身使用场景添加企业特定的指标规则,更好地满足企业对告警的高级需求。
日志告警(仅针对计算组件):基于指定时间范围内计算组件中发现特定日志内容(Error、Warning 等)的数量触发的告警。
事件告警(仅针对计算组件):基于指定时间范围内发现的事件 Reason(组件当前状态的原因,如 BackOff、Pulling、Failed 等)数量触发的告警。
设置告警策略后,系统将基于您选择的监控指标实时跟踪平台状态。对于每个告警策略,根据当前平台的具体情况,状态将处于以下之一:
告警状态
告警中:告警策略中至少有一条规则已触发告警。
处理中:告警策略中至少有一条规则的查询数据已达到或超过告警阈值,且即将触发告警,是一种中间状态。
正常:告警策略中的所有规则均未触发告警。
静默状态(需为该告警策略设置静默)
静默等待:设置静默后,静默开始前的状态。在此状态下,如果策略中的规则触发告警,通知将正常发送。
静默中:从静默开始到结束的状态。在此状态下,如果策略中的规则触发告警,将不会发送通知。