功能概览

vGPU(基于开源 GPU-Manager)

  • 细粒度资源切割
    将物理 GPU 核心切分为 1-100 个配额。支持动态分配,适用于 AI 推理和虚拟桌面等多租户环境。

  • 拓扑感知调度
    自动优先考虑 NVLink/C2C 连接的 GPU,以最小化跨插槽数据传输延迟。确保用于分布式训练工作负载的最佳 GPU 配对。

pGPU(NVIDIA 设备插件)

  • NUMA 优化分配
    强制执行 1:1 GPU 与 Pod 的映射,并绑定 NUMA 节点,减少高速计算(HPC)任务(如 LLM 训练)中的 PCIe 总线争用。

  • 独占硬件访问
    通过 PCIe 直通提供完全的物理 GPU 隔离,非常适合需要确定性性能的关键任务应用程序(如医疗影像处理)。

MPS(NVIDIA 多进程服务插件)

  • 延迟优化执行
    实现跨进程的 CUDA 核心融合,减少实时应用(如视频分析)的推理延迟 30-50%。

  • 带上限的资源共享
    允许并发 GPU 上下文执行,同时通过环境变量强制每个进程的计算(0-100%)和内存限制。