简体中文

资源监控

目录

功能概述

Alauda AI 的监控与运维模块中的资源监控提供对推理服务的 CPU、内存、GPU、令牌使用情况和请求指标的实时洞察。该功能帮助您识别性能瓶颈，优化资源分配，确保服务操作的稳定性。它对于以下场景特别有用：

性能调优：诊断高资源使用情况并调整资源限制。
异常检测：监控资源消耗和请求模式的突然激增。
容量规划：分析历史趋势以有效扩展资源。
成本优化：跟踪令牌使用情况和 GPU 利用率以进行预算管理。

主要特点

资源监控：
- CPU 使用率：显示绝对 CPU 使用量（例如，使用的核心数）。
- CPU 利用率：显示 CPU 使用情况占分配资源的百分比。
- 内存使用情况：跟踪实际内存消耗（例如，单位为 GB）。
- 内存利用率：显示内存使用情况占分配资源的百分比。
计算监控：
- GPU 使用情况：跟踪 GPU 计算资源消耗。
- GPU 利用率：显示 GPU 使用情况占分配资源的百分比。
- GPU 内存使用情况：监控 GPU 内存消耗。
- GPU 内存利用率：显示 GPU 内存使用情况占分配资源的百分比。
- 注意：MPS 部署模式不支持 GPU 计算和内存监控。
其他监控：
- 令牌指标：跟踪提示和生成令牌（适用于 'vllm' 运行时服务）。
- 请求指标：监控响应时间（avg/tp50/p90/p95）、QPS（成功/失败）和流量（进/出）。
时间范围选择：在可自定义的时间段内分析指标（从 30 分钟到 7 天）。

访问资源监控

步骤 1：导航到推理服务详情

在左侧导航面板中，转到 推理服务。
单击目标推理服务名称以打开其详细信息页面。

步骤 2：打开监控仪表盘

选择监控标签。
确保 资源监视器 部分已展开（默认视图）。

步骤 3：选择时间范围

在右上角使用时间选择器选择预定义或自定义范围：

预设选项	自定义范围
最近 30 分钟	开始/结束日期时间
最近 1 小时
最近 6 小时
最近 24 小时
最近 2 天
最近 7 天

监控指标

CPU 使用率

描述：显示服务实际消耗的 CPU 核心数。
数据格式：cores（浮点数）

CPU 利用率

描述：使用的分配 CPU 资源的百分比。
计算：(已用核心 / 分配核心) × 100%
解释：
- 持续 >90%：考虑扩展 CPU 分配
- <20%：潜在的过度配置

内存使用情况

描述：服务消耗的物理内存。
数据格式：GiB 或 MiB
重要说明：当使用超过分配内存时，会发生 Kubernetes OOM 杀死。

内存利用率

描述：使用的分配内存资源的百分比。
计算：(已用内存 / 分配内存) × 100%

GPU 使用情况

描述：服务消耗的 GPU 计算资源。
数据格式：计算单位
注意：MPS 部署模式下不可用。

GPU 利用率

描述：使用的分配 GPU 计算资源的百分比。
计算：(已用 GPU / 分配 GPU) × 100%
注意：MPS 部署模式下不可用。

GPU 内存使用情况

描述：服务消耗的 GPU 内存。
数据格式：GiB 或 MiB
注意：MPS 部署模式下不可用。

GPU 内存利用率

描述：使用的分配 GPU 内存的百分比。
计算：(已用 GPU 内存 / 分配 GPU 内存) × 100%
注意：MPS 部署模式下不可用。

令牌指标

令牌提示：跟踪处理的提示令牌数量。
令牌生成：监控模型生成的令牌数量。
可用性：仅适用于使用 'vllm' 运行时的推理服务。

请求指标

响应时间：测量服务响应延迟（avg/tp50/p90/p95）。
QPS（每秒查询数）：跟踪每秒成功和失败的请求。
流量：监控进出数据传输。