架构
巡检

巡检模块由平台组件 Courier 和监控组件共同提供,涉及的业务流程如下:
- 创建巡检任务:平台向
global
集群提交一个巡检类型的 CR。
- 执行巡检任务:Courier 组件监测巡检类型 CR 的生成,并向各集群的监控组件查询与巡检相关的各种指标数据。
- 写入巡检结果:在完成对各巡检项的评估后,Courier 组件会将巡检结果写回到对应的巡检 CR 中。
- 查看巡检结果:用户可以通过平台查看巡检任务的状态和结果,数据将从对应的巡检 CR 中获取。
组件健康状态

组件健康状态由平台组件 Courier 和监控组件共同提供,涉及的业务流程如下:
- 预定义组件监测列表:平台在
global
集群中预定义了两种 CRD 用于定义需要监测的组件清单和监测方式:
- ModuleHealth:定义需要监测的组件及监测方式。
- ModuleHealthRecord:定义各集群中对应组件的监测结果。
- 定期监测组件状态:Courier 会监视 ModuleHealth,检查指定功能,然后将检查结果写入 ModuleHealth 和 ModuleHealthRecord 的 CR 资源中。
- 组件状态判断:Courier 会请求 Kubernetes 和监控组件的数据,以确定组件的实际状态及存在的问题。
- Kubernetes:检查组件是否已安装,以及组件副本数是否正常。
- Prometheus / VictoriaMetrics:根据各组件提供的指标,查询并判断组件是否能正常提供服务。
- 查看组件健康状态:用户可以通过平台查看各组件的健康状态,数据将从对应的 ModuleHealth 和 ModuleHealthRecord 的 CR 资源中获取。