介绍
模块概述
该平台整合了 Kubernetes 事件,记录了 Kubernetes 资源的重要状态变化和各种操作状态变化。当集群、节点或 Pods 等资源出现异常时,用户可以分析事件以确定具体原因,并提供了存储、查询和可视化的能力。
根据从事件中识别出的根本原因,用户可以为计算组件 创建告警策略 。当关键事件的数量达到告警阈值时,告警可以自动触发,以通知相关人员进行及时干预,从而降低平台的操作风险。
功能概述
事件模块主要提供以下功能:
事件采集与持久化
- 自动采集:该模块将自动采集Kubernetes集群中发生的所有事件,包括 Pod 的创建、删除和调度失败等。
- 持久化存储:采集到的事件将被持久化存储,以确保用户能够根据需求回溯历史事件。
事件查询
- 灵活查询:用户可以使用多种条件(如事件类型、命名空间、资源名称等)查询事件,以快速定位问题。
- 时间范围过滤:支持按时间范围查询事件,使用户能够查看特定时间段内的集群活动。
事件汇总与展示
- 事件汇总:该模块将汇总事件并生成统计信息,以帮助用户了解集群的整体状态。
使用场景
事件模块适用于以下场景:
- 集群监控:通过实时监控 Kubernetes 事件,用户能够及时发现集群中的异常情况。
- 故障排查:当集群出现问题时,用户可以迅速通过查询事件日志定位根本原因。
- 性能优化:通过分析事件数据,用户可以了解集群的资源使用情况,从而优化资源分配。
使用限制
此功能依赖于日志系统,请确保平台内已安装 ACP Log Collector 和 ACP Log Storage 插件。