Kubernetes 硬件加速器套件是一种企业级解决方案,旨在优化云原生环境中 GPU 资源的分配、隔离和共享。该套件基于 Kubernetes 设备插件和 NVIDIA 原生技术,提供三个核心模块:
vGPU 模块
基于开源 GPU-Manager,此模块通过将物理 GPU 切分为可共享的虚拟单元(具备内存/计算配额)来实现细粒度的 GPU 虚拟化。非常适合需要动态资源分配的多租户环境。
pGPU 模块
利用 NVIDIA 官方设备插件,提供具有 NUMA 感知调度的完整物理 GPU 隔离。专为需要专用 GPU 访问的高性能计算(HPC)工作负载设计。
MPS 模块
实现 NVIDIA 的多进程服务,允许在资源限制下并发执行 GPU 上下文。通过 CUDA 内核融合优化对延迟敏感的应用程序。
设备文件权限
NVIDIA GPU 设备需要直接访问受保护的系统资源:
NVIDIA 驱动程序的基本交互
操作 | 特权要求 | 目的 |
---|---|---|
模块加载 | CAP_SYS_MODULE | 加载 NVIDIA 内核模块 |
内存管理 | CAP_IPC_LOCK | GPU 内存分配 |
中断处理 | CAP_SYS_RAWIO | 处理 GPU 中断 |
/var/lib/kubelet/device-plugins
nvidia-smi
和内核日志