资源监控

功能概述

Alauda AI 的监控与运维模块中的资源监控提供对推理服务的 CPU、内存、GPU、令牌使用情况和请求指标的实时洞察。该功能帮助您识别性能瓶颈,优化资源分配,确保服务操作的稳定性。它对于以下场景特别有用:

  • 性能调优:诊断高资源使用情况并调整资源限制。
  • 异常检测:监控资源消耗和请求模式的突然激增。
  • 容量规划:分析历史趋势以有效扩展资源。
  • 成本优化:跟踪令牌使用情况和 GPU 利用率以进行预算管理。

主要特点

  • 资源监控
    • CPU 使用率:显示绝对 CPU 使用量(例如,使用的核心数)。
    • CPU 利用率:显示 CPU 使用情况占分配资源的百分比。
    • 内存使用情况:跟踪实际内存消耗(例如,单位为 GB)。
    • 内存利用率:显示内存使用情况占分配资源的百分比。
  • 计算监控
    • GPU 使用情况:跟踪 GPU 计算资源消耗。
    • GPU 利用率:显示 GPU 使用情况占分配资源的百分比。
    • GPU 内存使用情况:监控 GPU 内存消耗。
    • GPU 内存利用率:显示 GPU 内存使用情况占分配资源的百分比。
    • 注意:MPS 部署模式不支持 GPU 计算和内存监控。
  • 其他监控
    • 令牌指标:跟踪提示和生成令牌(适用于 'vllm' 运行时服务)。
    • 请求指标:监控响应时间(avg/tp50/p90/p95)、QPS(成功/失败)和流量(进/出)。
  • 时间范围选择:在可自定义的时间段内分析指标(从 30 分钟到 7 天)。

访问资源监控

步骤 1:导航到推理服务详情

  1. 在左侧导航面板中,转到 推理服务
  2. 单击目标推理服务名称以打开其详细信息页面。

步骤 2:打开监控仪表盘

  1. 选择 监控 标签。
  2. 确保 资源监视器 部分已展开(默认视图)。

步骤 3:选择时间范围

在右上角使用时间选择器选择预定义或自定义范围:

预设选项自定义范围
最近 30 分钟开始/结束日期时间
最近 1 小时
最近 6 小时
最近 24 小时
最近 2 天
最近 7 天

监控指标

CPU 使用率

  • 描述:显示服务实际消耗的 CPU 核心数。
  • 数据格式cores(浮点数)

CPU 利用率

  • 描述:使用的分配 CPU 资源的百分比。
  • 计算(已用核心 / 分配核心) × 100%
  • 解释
    • 持续 >90%:考虑扩展 CPU 分配
    • <20%:潜在的过度配置

内存使用情况

  • 描述:服务消耗的物理内存。
  • 数据格式GiBMiB
  • 重要说明:当使用超过分配内存时,会发生 Kubernetes OOM 杀死。

内存利用率

  • 描述:使用的分配内存资源的百分比。
  • 计算(已用内存 / 分配内存) × 100%

GPU 使用情况

  • 描述:服务消耗的 GPU 计算资源。
  • 数据格式:计算单位
  • 注意:MPS 部署模式下不可用。

GPU 利用率

  • 描述:使用的分配 GPU 计算资源的百分比。
  • 计算(已用 GPU / 分配 GPU) × 100%
  • 注意:MPS 部署模式下不可用。

GPU 内存使用情况

  • 描述:服务消耗的 GPU 内存。
  • 数据格式GiBMiB
  • 注意:MPS 部署模式下不可用。

GPU 内存利用率

  • 描述:使用的分配 GPU 内存的百分比。
  • 计算(已用 GPU 内存 / 分配 GPU 内存) × 100%
  • 注意:MPS 部署模式下不可用。

令牌指标

  • 令牌提示:跟踪处理的提示令牌数量。
  • 令牌生成:监控模型生成的令牌数量。
  • 可用性:仅适用于使用 'vllm' 运行时的推理服务。

请求指标

  • 响应时间:测量服务响应延迟(avg/tp50/p90/p95)。
  • QPS(每秒查询数):跟踪每秒成功和失败的请求。
  • 流量:监控进出数据传输。