监控与告警

本地存储提供开箱即用的监控指标收集和告警能力。一旦平台监控组件被启用,用户即可针对存储集群、存储性能和存储容量配置监控和告警功能,并支持配置通知策略。

平台提供直观的监控数据,能够为运维检查和性能优化提供决策支持。同时,完善的告警机制有助于确保存储系统的稳定运行。

监控功能

性能监控

平台默认收集本地存储的常见性能指标,包括读写带宽、IOPS和延迟等信息。用户可在存储管理下的本地存储页面中的监控标签页实时查看这些性能数据。平台以图表方式直观展示指标,便于管理员实时了解当前存储性能状况,并快速定位潜在问题。

容量监控

由于本地存储只能使用节点本地的可用存储资源,因此用户在声明本地存储前需要确保节点具有足够的可用容量,以避免因超量声明导致的问题。

为此,平台在本地存储的详情部分提供了按设备类型分类的容量监控,用户可直观地查看不同设备类型的剩余可用空间。当发现某一设备类型容量不足时,应及时清理空间或添加新的磁盘设备后再使用本地存储。

告警功能

平台内置了一套默认的告警策略。当资源出现异常或监控数据达到警告阈值时,系统会自动触发告警。这些预置的告警策略能覆盖常见的运维需求,如集群状态告警和设备容量告警。

配置通知

为确保及时接收到告警信息,建议用户在运维中心配置通知策略。通知可通过邮件、短信等方式发送给相关人员,以提醒及时处理问题或预防故障。用户可以直接在运维中心界面进行通知策略设置,具体配置步骤可参考[创建告警策略]文档。

告警处理

  • 若存储集群的健康状态变为“告警”,管理员需立即进行排查。在本地存储的详情部分提供了问题排查和解决指导。常见的告警原因包括节点服务异常或设备类型问题。

    检查项对应状态可能原因
    健康状态告警节点服务异常或设备类型出现问题
    服务状态未知节点处于notready状态,可能由网络故障或断电引起
    设备类型状态不可用使用的磁盘可能不是裸盘,或者磁盘缺失
  • 若在告警页面触发了实时告警,即使当前存储集群状态显示“健康”,也应迅速响应,防止问题恶化。告警等级及其含义如下:

    告警等级含义
    紧急告警关联的资源出现严重故障,导致服务中断或数据丢失,影响重大
    重要告警关联的资源存在已知问题,可能影响平台功能和业务正常运行
    警告告警关联的资源存在潜在风险,若不及时处理可能影响业务运行

事后分析

告警历史记录了过去曾触发但当前已无需处理的所有告警。在进行事后分析时,应重点考虑以下问题:

  • 当时发生的具体异常情况是什么?
  • 告警历史中是否存在重复出现的告警模式?如何预防类似情况再次发生?
  • 特定时间段内告警次数的激增是否与外部因素或操作事件有关?是否需要相应调整运维策略?