平台的探针功能基于 Blackbox Exporter 实现,允许用户通过 ICMP、TCP 或 HTTP 对网络进行探测,以快速定位平台上发生的故障。
与依赖平台已有的各类监控指标的白盒监控系统不同,黑盒监控关注的是结果。当白盒监控无法覆盖影响服务可用性的所有因素时,黑盒监控能够快速发现故障并基于故障发出告警。例如,当某个 API 接口异常时,黑盒监控可以及时将此类问题暴露给用户。
探针功能不支持在内核版本 3.10 及以下的节点上使用 ICMP 探测 IPv6 地址。若需使用此场景,请将节点内核版本升级至 3.11 及以上。
创建黑盒监控项时,可选择 ICMP、TCP 或 HTTP 探测方式,定期探测指定的目标地址。
监控组件必须已安装在集群中,且监控组件运行正常。
在左侧导航栏点击 运维中心 > 监控 > 黑盒监控。
提示:黑盒监控为集群级功能,点击顶部导航栏可切换集群。
点击 创建黑盒监控项。
按照以下说明配置相关参数。
参数 | 说明 |
---|---|
探测方式 | ICMP:通过 ping 输入的 目标地址(域名或 IP)来探测服务器是否可达。 TCP:通过监听 目标地址 中指定的 <域名:端口> 或 <IP:端口> 来探测主机的业务端口。HTTP:探测输入的 目标地址 URL,检查网站连通性。 提示:HTTP 探测方式默认仅支持 GET 请求,若需 POST 请求,请参考 自定义 BlackboxExporter 监控模块。 |
探测间隔 | 探测的时间间隔。 |
目标地址 | 探测的目标地址,最长支持 128 个字符。 不同探测方式对应的输入格式如下: ICMP:域名或 IP 地址,例如 10.165.94.31 。TCP: <域名:端口> 或 <IP:端口> ,例如 172.19.155.133:8765 。HTTP:以 http 或 https 开头的 URL,例如 http://alauda.cn/ 。 |
点击 创建。
创建成功后,可在列表页实时查看最新探测结果,并基于黑盒监控项创建告警策略。当检测到故障时,系统会自动触发告警,通知相关人员进行处理。
黑盒监控项创建成功后,系统需要约 5 分钟时间同步配置。在此同步期间,不会进行探测,且无法查看探测结果。
监控组件必须已安装在集群中,且监控组件运行正常。
黑盒监控项必须已成功创建,且系统已完成配置同步,黑盒监控页面可见探测结果。
在左侧导航栏点击 运维中心 > 告警 > 告警策略。
提示:告警策略为集群级功能,点击顶部导航栏切换集群。请确保切换至刚配置黑盒监控项的集群。
点击 创建告警策略。
按照以下说明配置相关参数;更多参数信息请参考 创建告警策略。
告警类型:请选择 资源告警。
资源类型:请选择 集群。
点击 添加告警规则。
告警类型:请选择 黑盒告警。
黑盒监控项:请选择目标黑盒监控项。
指标名称:请选择希望监控并触发告警的指标。平台当前支持的指标为 Connectivity 和 HTTP Status Code。
Connectivity:适用于所有黑盒监控项,触发条件为 “!= 1” 表示黑盒监控项的目标地址不可达。
HTTP Status Code:仅当黑盒监控项探测方式为 HTTP 时可选。触发条件值为三位正整数,例如设置为 “> 299” 表示响应码为 3XX、4XX 或 5XX 时触发告警。
通知策略:请选择预先配置的通知策略。
点击 添加。
您还可以通过向 BlackboxExporter 配置文件添加自定义监控模块,增强黑盒监控功能。例如,添加 http_post_2xx 模块后,当黑盒监控的探测方式设置为 HTTP
时,即可探测 POST 请求方法的状态。
黑盒监控的配置文件位于集群中 Prometheus 组件安装的命名空间内,默认名称为 cpaas-monitor-prometheus-blackbox-exporter
,可根据实际名称进行修改。
该配置文件为与命名空间相关的 ConfigMap 资源,可通过平台管理功能 集群管理 > 资源管理 快速查看和更新。
通过向配置文件中 key modules
添加自定义监控模块,更新黑盒监控配置文件。
以添加 http_post_2xx 模块为例:
有关黑盒监控配置文件的完整 YAML 示例,请参考 参考信息。
通过以下任一方式激活配置。
删除 Pod,重启 Blackbox Exporter 组件 cpaas-monitor-prometheus-blackbox-exporter。
执行以下命令调用 reload API,刷新配置文件:
已配置通知策略(若需告警自动通知)。
目标集群已安装监控组件。
example-probe.yaml
。prometheus-liveness
的新告警策略:example-alerting-rule.yaml
。policy
的新告警策略:黑盒监控 YAML 配置文件的完整示例如下: