简体中文

Monitoring & Alerts

对象存储系统内置了监控和告警功能，涵盖存储集群、服务健康状况和资源利用率。同时支持可配置的通知策略，确保运维团队及时获知。实时监控洞察有助于性能调优和运维决策，自动告警则保障存储系统的稳定性和可靠性。

Monitoring

平台默认采集存储集群和服务状态的关键指标。您可以在 Storage Management > Object Storage > Monitoring 中查看实时监控数据。

Storage Overview

本节提供存储系统健康状况、服务状态及原始容量利用率的高层视图。如存储状态异常，告警详情将指明根因，帮助您高效诊断和解决问题。

Cluster Monitoring

跟踪存储集群的原始容量使用情况和 I/O 性能趋势，有助于识别存储瓶颈、优化资源分配，确保数据操作顺畅。

Object Monitoring

监控访问模式，包括总请求数和失败请求数。这些洞察有助于分析存储负载，检测可能导致服务中断或安全风险的异常情况。

Alerts

平台内置告警策略，用于检测异常并在达到预设阈值时触发通知。内置规则覆盖组件健康、容量使用和用户数据完整性等关键领域。

Configuring Notifications

为确保及时响应，请在 Operations Center 配置通知策略。告警可通过邮件、短信或其他渠道发送，通知相关人员。根据组织的事件响应流程，细化设置以匹配需求。

Handling Alerts

Cluster in "Alert" state：已触发警告，系统稳定性可能受影响。请查看 Live Alerts 部分获取详情，定位根因并采取纠正措施。
Cluster in "Failure" state：存储集群已无法正常运行。需立即干预以恢复服务可用性。

平台将告警分为不同严重级别，帮助团队优先处理事件：

Severity	Description
Critical	影响业务运营或导致数据丢失的系统故障，需立即处理。
Major	可能导致功能中断的已知问题，可能影响业务流程。
Warning	潜在风险，若不处理可能影响性能或可用性。

Post-Incident Analysis

Alert History 记录所有历史事件，为事后分析和系统改进提供宝贵数据。回顾过去告警时，请考虑：

事件发生时的具体症状是什么？
是否有告警重复出现？是否能采取主动措施防止复发？
是否存在某个时间段告警激增？是由运维问题还是外部因素引起？是否需要调整响应策略？

通过持续分析告警模式和优化监控策略，团队可提升系统韧性，减少停机时间，确保存储业务的顺畅运行。

以 PDF 格式查看完整文档

实用指南

架构

核心概念

功能指南

如何操作

故障排除

概念

功能指南

实用指南

故障排除

安装

核心概念

操作指南

实用指南

数据容灾

核心概念

操作指南

实用指南

操作指南

合规

安装

API Refiner

用户

功能指南

用户组

功能指南

角色

功能指南

IDP

功能指南

故障排除

用户策略

功能指南

概览

镜像

操作指南

实用指南

虚拟机

操作指南

实用指南

问题处理

网络

操作指南

实用指南

存储

操作指南

备份和恢复

操作指南

核心概念

核心概念

功能指南

Namespaces

创建应用前准备工作

创建应用

创建应用后的配置

运维

应用可观测

计算组件

Pods

容器

使用指南

安装

使用指南

安装

功能指南

How To

概念

功能指南

Argo CD 核心概念

Alauda Container Platform GitOps 核心概念

创建 GitOps 应用

GitOps 可观测

架构

操作指南

实用指南

操作指南

实用指南

问题处理

架构

操作指南