资源监控
功能概述
Alauda AI 的监控与运维模块中的资源监控提供对推理服务的 CPU、内存、GPU、令牌使用情况和请求指标的实时洞察。该功能帮助您识别性能瓶颈,优化资源分配,确保服务操作的稳定性。它对于以下场景特别有用:
- 性能调优:诊断高资源使用情况并调整资源限制。
- 异常检测:监控资源消耗和请求模式的突然激增。
- 容量规划:分析历史趋势以有效扩展资源。
- 成本优化:跟踪令牌使用情况和 GPU 利用率以进行预算管理。
主要特点
- 资源监控:
- CPU 使用率:显示绝对 CPU 使用量(例如,使用的核心数)。
- CPU 利用率:显示 CPU 使用情况占分配资源的百分比。
- 内存使用情况:跟踪实际内存消耗(例如,单位为 GB)。
- 内存利用率:显示内存使用情况占分配资源的百分比。
- 计算监控:
- GPU 使用情况:跟踪 GPU 计算资源消耗。
- GPU 利用率:显示 GPU 使用情况占分配资源的百分比。
- GPU 内存使用情况:监控 GPU 内存消耗。
- GPU 内存利用率:显示 GPU 内存使用情况占分配资源的百分比。
- 注意:MPS 部署模式不支持 GPU 计算和内存监控。
- 其他监控:
- 令牌指标:跟踪提示和生成令牌(适用于 'vllm' 运行时服务)。
- 请求指标:监控响应时间(avg/tp50/p90/p95)、QPS(成功/失败)和流量(进/出)。
- 时间范围选择:在可自定义的时间段内分析指标(从 30 分钟到 7 天)。
访问资源监控
步骤 1:导航到推理服务详情
- 在左侧导航面板中,转到 推理服务。
- 单击目标推理服务名称以打开其详细信息页面。
步骤 2:打开监控仪表盘
- 选择 监控 标签。
- 确保 资源监视器 部分已展开(默认视图)。
步骤 3:选择时间范围
在右上角使用时间选择器选择预定义或自定义范围:
预设选项 | 自定义范围 |
---|
最近 30 分钟 | 开始/结束日期时间 |
最近 1 小时 | |
最近 6 小时 | |
最近 24 小时 | |
最近 2 天 | |
最近 7 天 | |
监控指标
CPU 使用率
- 描述:显示服务实际消耗的 CPU 核心数。
- 数据格式:
cores
(浮点数)
CPU 利用率
- 描述:使用的分配 CPU 资源的百分比。
- 计算:
(已用核心 / 分配核心) × 100%
- 解释:
- 持续 >90%:考虑扩展 CPU 分配
- <20%:潜在的过度配置
内存使用情况
- 描述:服务消耗的物理内存。
- 数据格式:
GiB
或 MiB
- 重要说明:当使用超过分配内存时,会发生 Kubernetes OOM 杀死。
内存利用率
- 描述:使用的分配内存资源的百分比。
- 计算:
(已用内存 / 分配内存) × 100%
GPU 使用情况
- 描述:服务消耗的 GPU 计算资源。
- 数据格式:计算单位
- 注意:MPS 部署模式下不可用。
GPU 利用率
- 描述:使用的分配 GPU 计算资源的百分比。
- 计算:
(已用 GPU / 分配 GPU) × 100%
- 注意:MPS 部署模式下不可用。
GPU 内存使用情况
- 描述:服务消耗的 GPU 内存。
- 数据格式:
GiB
或 MiB
- 注意:MPS 部署模式下不可用。
GPU 内存利用率
- 描述:使用的分配 GPU 内存的百分比。
- 计算:
(已用 GPU 内存 / 分配 GPU 内存) × 100%
- 注意:MPS 部署模式下不可用。
令牌指标
- 令牌提示:跟踪处理的提示令牌数量。
- 令牌生成:监控模型生成的令牌数量。
- 可用性:仅适用于使用 'vllm' 运行时的推理服务。
请求指标
- 响应时间:测量服务响应延迟(avg/tp50/p90/p95)。
- QPS(每秒查询数):跟踪每秒成功和失败的请求。
- 流量:监控进出数据传输。