功能总览

监控

  • 探针

    平台提供基于 Blackbox Exporter 的探针(黑盒监控)功能,支持通过 ICMP、TCP 和 HTTP 等多种协议对网络服务进行探测。与关注系统内部状态的白盒监控不同,黑盒监控从用户的角度探测服务,能够迅速识别影响用户体验的各种故障。

    例如,当业务接口响应异常或服务不可用时,黑盒监控可以立即发现问题并触发警报,帮助运维人员及时处理问题。

  • 监控面板

    平台具备现代化的监控面板管理功能,相比于传统的 Grafana 提供了更友好的可视化配置体验。通过提供统一的监控视图,该功能聚合并展示各类监控指标数据,帮助用户快速构建所需的监控仪表板。

告警通知

  • 告警策略

    平台提供全面的告警功能,支持基于指标、日志和事件配置告警规则。凭借丰富的内置监控指标和告警模板,用户可以快速配置符合业务需求的告警策略,实现对问题的及时检测与解决。

  • 告警模板

    告警模板对告警规则和通知策略进行了标准化封装,支持在多个监控对象之间快速复用。基于模板的配置方式显著降低了告警策略的管理成本,并提高了运维效率。

  • 告警历史

    系统完整记录告警的生命周期,包括触发时间、恢复时间、告警状态、告警级别和告警内容等信息。用户可以通过告警历史跟踪和分析问题,从而持续优化告警配置。

  • 通知

    平台支持邮件、钉钉、企业微信、飞书和 Webhook 等多种告警通知渠道,确保告警信息能够及时传达给相关人员。用户可以根据实际需求灵活配置通知策略。

分布式追踪

分布式追踪提供微服务架构的全链路追踪能力。通过收集服务间调用的元数据,帮助用户快速定位跨服务调用中出现的问题。

日志

平台自动收集并集中管理集群、节点和容器的标准输出和文件日志。提供强大的日志存储、检索和分析能力,支持多维度的日志查询和可视化展示,帮助用户快速定位问题。

事件

平台实时收集 Kubernetes 集群中的关键事件信息,完整记录资源状态变更的全过程。当集群、节点或 Pods 等出现异常时,可以通过事件追溯定位根本原因,大幅提升问题排查的效率。

巡检

  • 巡检

    平台基于丰富的企业级运维经验,提供自动化的巡检能力。通过多维度的健康检查,帮助用户实时掌握资源运行状态,提前发现潜在风险,降低人工巡检的成本。

  • 平台健康状态

    提供平台功能健康状态的直观总览,支持查看各项功能的部署情况和组件的运行状态。具备平台管理权限的用户可以深入查看详细的健康检查数据,快速定位并解决平台层面的问题。