细粒度资源切割
将物理 GPU 核心切分为 1-100 个配额。支持动态分配,适用于 AI 推理和虚拟桌面等多租户环境。
拓扑感知调度
自动优先考虑 NVLink/C2C 连接的 GPU,以最小化跨插槽数据传输延迟。确保用于分布式训练工作负载的最佳 GPU 配对。
NUMA 优化分配
强制执行 1:1 GPU 与 Pod 的映射,并绑定 NUMA 节点,减少高速计算(HPC)任务(如 LLM 训练)中的 PCIe 总线争用。
独占硬件访问
通过 PCIe 直通提供完全的物理 GPU 隔离,非常适合需要确定性性能的关键任务应用程序(如医疗影像处理)。
延迟优化执行
实现跨进程的 CUDA 核心融合,减少实时应用(如视频分析)的推理延迟 30-50%。
带上限的资源共享
允许并发 GPU 上下文执行,同时通过环境变量强制每个进程的计算(0-100%)和内存限制。