Kubernetes 硬件加速器套件是一款面向企业级的解决方案,用于优化云原生环境中的 GPU 资源分配、隔离和共享。基于 Kubernetes 设备插件和 NVIDIA 原生技术构建,提供三个核心模块:
vGPU 模块
基于开源 GPU-Manager,实现细粒度的 GPU 虚拟化,将物理 GPU 切分为具有内存/计算配额的可共享虚拟单元。非常适合需要动态资源分配的多租户环境。
pGPU 模块
利用 NVIDIA 官方设备插件,提供完整的物理 GPU 隔离和 NUMA 感知调度。专为需要专用 GPU 访问的高性能计算(HPC)工作负载设计。
MPS 模块
实现 NVIDIA 的多进程服务,允许并发 GPU 上下文执行并施加资源限制。通过 CUDA 内核融合优化延迟敏感型应用。
设备文件权限
NVIDIA GPU 设备需要直接访问受保护的系统资源:
关键 NVIDIA 驱动交互
操作 | 权限要求 | 目的 |
---|---|---|
模块加载 | CAP_SYS_MODULE | 加载 NVIDIA 内核模块 |
内存管理 | CAP_IPC_LOCK | GPU 内存分配 |
中断处理 | CAP_SYS_RAWIO | 处理 GPU 中断 |
/var/lib/kubelet/device-plugins
nvidia-smi
和内核日志