简体中文

告警的深入理解

告警的基本原理

告警系统的运行基于以下核心步骤：

数据采集：

告警系统首先需要从各种资源中采集数据。这些数据通常包括硬件性能指标（如 CPU 利用率、内存使用率）、软件性能指标（如响应时间、错误率）以及网络活动。
数据来源可能包括专门的监控软件（如 Prometheus）、日志文件等。

数据分析与处理：

需要对采集到的数据进行分析和处理，以检测是否有指标超出正常范围。

告警触发：

当监控数据指标超过预设阈值或被识别为异常模式时，告警系统将触发告警。
可以使用告警静默来决定是否触发告警，从而避免频繁的告警噪声。

通知发送：

一旦触发告警，系统会通过预定的通信渠道（如电子邮件、短信、平台应用通知等）向相关人员或团队发送通知。
通知通常包含告警的详细信息，如告警类型、受影响资源、当前指标值、时间戳以及可能的解决建议。

ASM 平台允许用户基于预设监控指标、自定义监控指标以及平台日志和事件数据，为服务和计算组件设置告警策略（即一组告警规则）。当资源出现异常或达到预警状态时，系统会自动触发告警。

结合平台的通知功能，告警信息可以直接推送给运维人员或开发人员，确保他们能够及时响应和处理问题，从而保障平台业务的顺利运行。

告警类型

根据监控对象，平台定义了以下几种告警类型：

指标告警：平台细化了满足大多数客户需求的常用监控指标。用户可以通过选择监控指标并设置触发条件来配置告警。当监控数据满足告警规则的触发条件时，触发告警。
自定义告警：客户根据自身使用场景添加企业特定的指标规则，更好地满足企业对告警的高级需求。
日志告警（仅针对计算组件）：基于指定时间范围内计算组件中发现特定日志内容（Error、Warning 等）的数量触发的告警。
事件告警（仅针对计算组件）：基于指定时间范围内发现的事件 Reason（组件当前状态的原因，如 BackOff、Pulling、Failed 等）数量触发的告警。

告警状态说明

设置告警策略后，系统将基于您选择的监控指标实时跟踪平台状态。对于每个告警策略，根据当前平台的具体情况，状态将处于以下之一：

告警状态
- 告警中：告警策略中至少有一条规则已触发告警。
- 处理中：告警策略中至少有一条规则的查询数据已达到或超过告警阈值，且即将触发告警，是一种中间状态。
- 正常：告警策略中的所有规则均未触发告警。
静默状态（需为该告警策略设置静默）
- 静默等待：设置静默后，静默开始前的状态。在此状态下，如果策略中的规则触发告警，通知将正常发送。
- 静默中：从静默开始到结束的状态。在此状态下，如果策略中的规则触发告警，将不会发送通知。

操作指南

故障排除

操作指南

操作指南

操作指南

操作指南

操作指南

asm.alauda.io

networking.istio.io

operator.alauda.io

security.istio.io

告警的深入理解

目录

告警的基本原理

告警类型

告警状态说明

操作指南

故障排除

操作指南

操作指南

操作指南

操作指南

操作指南

asm.alauda.io

networking.istio.io

operator.alauda.io

security.istio.io

#告警的深入理解

#目录

#告警的基本原理

#告警类型

#告警状态说明

告警的深入理解

目录

告警的基本原理

告警类型

告警状态说明