简体中文

介绍

资源监控介绍

资源监控是 Kubernetes 硬件加速器套件的关键组成部分，旨在为您容器化工作负载中的 GPU 资源利用率提供全面的可见性。该模块提供实时指标和历史数据分析，涵盖两个基本层面上的 计算利用率 和 GPU 内存消耗：

资源监控是 Kubernetes 硬件加速器套件的关键组成部分，旨在为您容器化工作负载中的 GPU 资源利用率提供全面的可见性。该模块在两个基本层面提供 计算利用率 和 GPU 内存消耗：

节点级监控：跟踪整个 Kubernetes 节点的 GPU 资源总使用情况
容器组级监控：分析每个工作负载的 GPU 消耗，具有容器组粒度

此监控解决方案与平台的核心加速器模块（pGPU/vGPU（GPU-Manager）/MPS）集成，使用户能够优化 GPU 分配，实施资源配额，并排除 AI/ML 工作负载、实时推理服务等中的性能瓶颈。

优势

资源监控的核心优势如下：

多维可观察性

同时监控物理/虚拟 GPU 的计算单元（CUDA 内核）和内存利用率，提供有关加速器使用模式的全面见解。
层次化指标收集

在节点和容器组粒度下捕获数据，使集群范围的资源趋势与个别工作负载需求之间能够进行关联。
原生集成

与所有加速器模块（pGPU/vGPU/MPS）无缝协作，无需额外代理，利用 Kubernetes 原生指标管道。
历史分析

存储 GPU 指标并设定可配置的保留期（默认 7 天），通过集成可视化工具进行容量规划和使用模式分析。

应用场景

资源监控的主要应用场景如下：

性能优化

在训练集群中识别未充分利用的 GPU，并为深度学习工作负载调整资源请求。例如，检测持续使用 <30% 分配 GPU 内存的容器组，以优化内存分配。
多租户治理

在共享环境中监控 vGPU 消耗，强制执行 GPU 配额合规性。跟踪 AI 平台部署中累积使用情况与分配配额之间的关系。
成本归属

为企业 Kubernetes 环境中的费用分摊/展示模型生成每个命名空间的 GPU 利用报告，将容器组级指标与组织单位相关联。
故障诊断

通过分析容器崩溃前的内存使用趋势来调查 GPU 加速工作负载中的 OOM（内存溢出）事件。与 Kubernetes 事件交叉参考以进行根本原因分析。
容量规划

分析历史 GPU 利用模式（例如，峰值计算需求期），为基础设施扩展决策和 AI 基础设施的预算分配提供参考。

使用限制

使用资源监控时，请注意以下限制：

模块依赖性
- 需要在集群中部署至少一个加速器模块（pGPU/vGPU/MPS）

以 PDF 格式查看完整文档

实用指南

架构

核心概念

功能指南

如何操作

故障排除

概念

功能指南

实用指南

故障排除

安装

核心概念

操作指南

实用指南

数据容灾

核心概念

操作指南

实用指南

操作指南

合规

安装

API Refiner

用户

功能指南

用户组

功能指南

角色

功能指南

IDP

功能指南

故障排除

用户策略

功能指南

概览

镜像

操作指南

实用指南

虚拟机

操作指南

实用指南

问题处理

网络

操作指南

实用指南

存储

操作指南

备份和恢复

操作指南

核心概念

核心概念

功能指南

Namespaces

创建应用前准备工作

创建应用

创建应用后的配置

运维

应用可观测

计算组件

Pods

容器

使用指南

安装

使用指南

安装

功能指南

How To

概念

功能指南

Argo CD 核心概念

Alauda Container Platform GitOps 核心概念

创建 GitOps 应用

GitOps 可观测

架构

操作指南

实用指南

操作指南

实用指南

问题处理

架构

操作指南