平台的监控系统基于 Prometheus / VictoriaMetrics 收集的指标。本文将指导您如何管理这些指标。
平台内集群组件的监控方法是通过 ServiceMonitor
提取暴露的指标。平台中的指标通过 /metrics
端点公开。您可以使用以下示例命令查看平台中特定组件暴露的指标:
输出示例:
您可以查看集群中可用的指标列表,以便根据这些指标编写所需的 PromQL。
运行以下命令,通过 curl
命令获取指标列表:
输出示例:
为了简化用户使用,平台内置了大量常用指标。您可以在配置告警或监控面板时直接使用这些指标,而无需自行定义。以下将介绍如何查看这些指标。
运行以下命令,通过 curl
命令获取指标列表:
输出示例:
除了平台内置的指标,您还可以通过 ServiceMonitor
或 PodMonitor
接入您的应用或第三方应用所暴露的指标。本章节以同集群中以 pod 形式安装的 Elasticsearch Exporter 为例进行说明。
您已安装您的应用,并通过指定接口暴露了指标。本文假设您的应用安装在 cpaas-system
命名空间下,并暴露了 http://<elasticsearch-exporter-ip>:9200/_prometheus/metrics
端点。
ServiceMonitor
对象,用于描述您的应用所暴露的指标:访问监控组件的 UI,查看是否存在 cpaas-elasticsearch-exporter
的 job。
https://<您的平台访问地址>/clusters/<集群名称>/prometheus-0/targets
https://<您的平台访问地址>/clusters/<集群名称>/vmselect/vmui/?#/metrics