探针
平台基于 Blackbox Exporter 提供 Probe 功能(黑盒监控),支持通过 ICMP、TCP、HTTP 等协议进行网络服务检测。与依赖内部系统指标的白盒监控不同,Probe 从用户视角对服务进行外部评估,能够快速发现影响用户体验的故障。
例如,当业务接口响应异常(如 HTTP 5xx 错误)或关键服务不可用时,Probe 能够立即检测到异常,触发告警,帮助运维团队高效排查问题。
监控面板
平台具备现代化的监控面板管理功能,相较传统 Grafana 提供更友好的可视化配置体验。通过统一的监控视图,聚合展示各类监控指标数据,帮助用户快速构建所需的监控面板。
告警策略
平台提供完善的告警能力,支持基于指标、日志和事件配置告警规则。借助丰富的内置监控指标和告警模板,用户能够快速配置符合业务需求的告警策略,实现及时发现和处理问题。
告警模板
告警模板对告警规则和通知策略进行标准化封装,支持在多个监控对象间快速复用。基于模板的配置显著降低了告警策略的管理成本,提高了运维效率。
告警历史
系统完整记录告警的生命周期,包括触发时间、恢复时间、告警状态、告警级别和告警内容。用户可通过告警历史追溯和分析问题,持续优化告警配置。
通知
平台支持多种告警通知渠道,包括邮件、钉钉、企业微信、飞书和 Webhook,确保告警信息及时送达相关人员。用户可根据实际需求灵活配置通知策略。
分布式追踪为微服务架构提供全链路追踪能力。通过采集服务间调用的元数据,帮助用户快速定位跨服务调用中的问题。
平台自动采集并集中管理集群、节点和容器的标准输出及文件日志,提供强大的日志存储、检索和分析能力,支持多维度日志查询和可视化展示,帮助用户快速定位问题。
平台实时采集 Kubernetes 集群中的关键事件信息,记录资源状态变化的完整过程。当集群、节点、Pod 等出现异常时,可通过事件追踪定位根因,显著提升问题解决效率。
巡检
借鉴丰富的企业级运维经验,平台提供自动化巡检能力。通过多维度健康检查,帮助用户实时监控资源运行状态,提前发现潜在风险,降低人工巡检成本。
平台健康状态
提供平台功能健康状态的直观概览,支持查看部署情况及组件运行状态。具备平台管理权限的用户可深入查看详细的健康检查数据,快速定位并解决平台级问题。