Тонкое разделение ресурсов
Делит физические ядра GPU на квоты от 1 до 100. Поддерживает динамическое распределение для мультиарендных сред, таких как AI inference и виртуальные рабочие столы.
Планирование с учётом топологии
Автоматически приоритизирует GPU, соединённые через NVLink/C2C, чтобы минимизировать задержки передачи данных между сокетами. Обеспечивает оптимальное сочетание GPU для распределённых тренировок.
Оптимизация под NUMA
Обеспечивает сопоставление 1:1
GPU с Pod с привязкой к NUMA-узлу, снижая конкуренцию на шине PCIe для задач высокопроизводительных вычислений (HPC), таких как обучение LLM.
Эксклюзивный доступ к оборудованию
Предоставляет полную изоляцию физического GPU через PCIe passthrough, что идеально подходит для критически важных приложений с требованием детерминированной производительности (например, обработка медицинских изображений).
Оптимизация задержек выполнения
Позволяет слияние CUDA-ядр между процессами, снижая задержки инференса на 30-50% для приложений реального времени, таких как видеоаналитика.
Совместное использование ресурсов с ограничениями
Позволяет одновременное выполнение контекстов GPU с контролем вычислительных (0-100%) и памятьных лимитов на процесс через переменные окружения.