平台的监控系统基于 Prometheus / VictoriaMetrics 收集的指标。本文档将指导您如何管理这些指标。
平台内集群组件的监控方式是通过 ServiceMonitor
抽取暴露的指标。平台中的指标均通过 /metrics
端点公开。您可以使用以下示例命令查看平台中某个组件暴露的指标:
示例输出:
您可以查看集群中可用的指标列表,帮助您基于这些指标编写所需的 PromQL。
您已获取用户 Token
您已获取平台地址
运行以下命令,使用 curl
获取指标列表:
示例输出:
为了简化用户使用,平台内置了大量常用指标。您在配置告警或监控面板时可以直接使用这些指标,无需自行定义。以下将介绍如何查看这些指标。
您已获取用户 Token
您已获取平台地址
运行以下命令,使用 curl
获取指标列表:
示例输出:
除了平台内置指标外,您还可以通过 ServiceMonitor
或 PodMonitor
集成您的应用或第三方应用暴露的指标。本节以在同一集群中以 pod 形式安装的 Elasticsearch Exporter 为例进行说明。
您已安装应用并通过指定接口暴露指标。本文档假设您的应用安装在 cpaas-system
命名空间,并暴露了 http://<elasticsearch-exporter-ip>:9200/_prometheus/metrics
端点。
ServiceMonitor
对象描述您的应用暴露的指标:访问监控组件的 UI,查看是否存在 job cpaas-elasticsearch-exporter
。
https://<Your platform access address>/clusters/<Cluster name>/prometheus-0/targets
https://<Your platform access address>/clusters/<Cluster name>/vmselect/vmui/?#/metrics