Probes
平台基于 Blackbox Exporter 提供 Probe 功能(黑盒监控),支持通过 ICMP、TCP、HTTP 等协议进行网络服务检测。与依赖内部系统指标的白盒监控不同,Probe 从用户视角对服务进行外部评估,能够快速发现影响用户体验的故障。
例如,当业务接口响应失败(如 HTTP 5xx 错误)或关键服务不可用时,Probe 能立即检测异常,触发告警,帮助运维团队高效排查问题。
Monitoring Dashboard
平台具备现代化的监控面板管理功能,提供比传统 Grafana 更友好的可视化配置体验。通过统一的监控视图,汇聚并展示多种监控指标数据,帮助用户快速构建所需的监控面板。
Alert Strategies
平台支持基于指标、日志和事件配置告警规则,具备完善的告警能力。借助丰富的内置监控指标和告警模板,用户可快速配置符合业务需求的告警策略,实现及时发现和处理问题。
Alert Templates
告警模板对告警规则和通知策略进行标准化封装,支持在多个监控对象间快速复用。基于模板的配置大幅降低告警策略管理成本,提高运维效率。
Alert History
系统完整记录告警生命周期,包括触发时间、恢复时间、告警状态、告警级别及告警内容。用户可通过告警历史追踪和分析问题,持续优化告警配置。
Notifications
平台支持多种告警通知渠道,包括邮件、钉钉、企业微信、飞书和 Webhook,确保告警信息及时送达相关人员。用户可根据实际需求灵活配置通知策略。
分布式追踪为微服务架构提供全链路追踪能力。通过采集服务间调用的元数据,帮助用户快速定位跨服务调用中的问题。
平台自动采集并集中管理集群、节点和容器的标准输出及文件日志,提供强大的日志存储、检索和分析能力,支持多维度日志查询和可视化展示,帮助用户快速定位问题。
平台实时采集 Kubernetes 集群中的关键事件信息,记录资源状态变更的完整过程。当集群、节点、Pod 等出现异常时,可通过事件追踪定位根因,显著提升问题解决效率。
Inspection
借鉴丰富的企业级运维经验,平台提供自动化巡检能力。通过多维度健康检查,帮助用户实时监控资源运行状态,提前发现潜在风险,降低人工巡检成本。
Platform Health Status
提供平台功能健康状态的直观概览,支持查看部署情况及组件运行状态。具备平台管理权限的用户可深入查看健康检查详情,快速定位并解决平台级问题。