简体中文

介绍

模块概述

监控模块为平台管理员和运维人员提供了指标、仪表板、告警和通知等运维能力。

该平台结合了开源组件如 Prometheus / VictoriaMetrics 和监控仪表板，使管理的集群、节点、组件、自定义应用程序、Pods、容器等实现实时监控。

支持快速设置集群、节点和计算组件层面的监控指标告警、日志告警（仅适用于计算组件）和事件告警。此外，允许根据实际需求自定义监控指标算法，以增加必要的告警指标和规则。通知策略可以配置，以便及时将告警信息发送给运维人员，帮助避免系统故障或迅速解决问题，降低系统运维成本并确保系统稳定性。

模块优势

监控模块具有以下核心优势：

全面监控覆盖

支持对多个层面的广泛监控，如集群、节点、组件和容器，实现从基础设施到应用的端到端监控链路。
灵活的告警配置

提供丰富的预设告警规则，同时支持自定义告警规则和算法，以满足不同的监控场景。
多样化的可视化展示

集成专业的监控仪表板，支持多种数据可视化方法，直观呈现系统运行状态。
高效的告警通知

支持多渠道告警通知，包括电子邮件、短信、Webhook 等，确保及时传达告警信息。
可扩展的监控架构

基于行业领先的 Prometheus / VictoriaMetrics 技术栈，具备卓越的可扩展性和兼容性。

应用场景

监控模块适用于以下场景：

集群健康监控

实时监控集群中的资源使用情况、节点状态和组件运行状况，以便及时发现潜在问题。
应用性能分析

监控应用运行指标和容器资源使用情况，以优化应用性能。
故障预警与诊断

通过设置合理的告警规则，提前检测系统异常，快速识别和解决问题。
容量规划

基于历史监控数据进行趋势分析，为资源扩展和优化提供依据。

使用限制

使用监控模块时，请注意以下限制：

监控数据的存储时间取决于存储容量配置，默认保留期限为 7 天。
Prometheus 和 VictoriaMetrics 不能同时安装在同一集群中，请做好选择规划并选择其一进行安装。
自定义监控指标的采集间隔最低支持 60 秒。
告警通知渠道需预先配置相应服务（例如电子邮件服务器、短信网关、企业微信/钉钉机器人等）。

以 PDF 格式查看完整文档

实用指南

架构

核心概念

功能指南

如何操作

故障排除

概念

功能指南

实用指南

故障排除

安装

核心概念

操作指南

实用指南

数据容灾

核心概念

操作指南

实用指南

操作指南

合规

安装

API Refiner

用户

功能指南

用户组

功能指南

角色

功能指南

IDP

功能指南

故障排除

用户策略

功能指南

概览

镜像

操作指南

实用指南

虚拟机

操作指南

实用指南

问题处理

网络

操作指南

实用指南

存储

操作指南

备份和恢复

操作指南

核心概念

核心概念

功能指南

Namespaces

创建应用前准备工作

创建应用

创建应用后的配置

运维

应用可观测

计算组件

Pods

容器

使用指南

安装

使用指南

安装

功能指南

How To

概念

功能指南

Argo CD 核心概念

Alauda Container Platform GitOps 核心概念

创建 GitOps 应用

GitOps 可观测

架构

操作指南

实用指南

操作指南

实用指南

问题处理

架构

操作指南