Коэффициент overcommit

⚠️ Эта функция по-прежнему находится в экспериментальном статусе. Используйте ее с осторожностью.

Содержание

Понимание коэффициента overcommit в Hami vGPU Ключевые понятия Основные возможности Настройка коэффициента overcommit Примечания

Понимание коэффициента overcommit в Hami vGPU

Hami поддерживает настройку глобального коэффициента overcommit как для вычислительных ядер vGPU, так и для памяти. Назначение коэффициента overcommit для vGPU — повысить загрузку GPU, а не увеличить объем ресурсов, выделяемых отдельным задачам. Коэффициент overcommit для vGPU — это исключительно логическая конструкция, которая применяется только hami-scheduler.

Ключевые понятия

NVIDIA Device Core Scaling: Коэффициент overcommit, применяемый к вычислительным ядрам GPU.
NVIDIA Device Memory Scaling: Коэффициент overcommit, применяемый к памяти GPU.

Основные возможности

Позволяет повысить загрузку GPU, давая возможность нескольким рабочим нагрузкам совместно использовать одну GPU-карту.

Настройка коэффициента overcommit

Перейдите в Administrator → Marketplace → Cluster Plugin.
Переключитесь на целевой кластер.
Обновите параметры NVIDIA Device Core Scaling и NVIDIA Device Memory Scaling при развертывании или обновлении плагина кластера Alauda Build of Hami.

Примечания

Коэффициент overcommit ядер vGPU
- Когда коэффициент overcommit для ядер GPU больше 1, несколько рабочих нагрузок могут запрашивать более 100% вычислительной мощности GPU.
- Если все рабочие нагрузки работают на полной нагрузке, они поровну делят физические вычислительные ресурсы GPU (в пределах запрошенной доли). В результате каждая рабочая нагрузка может работать медленнее по сравнению с использованием выделенного GPU.
- Если некоторые рабочие нагрузки простаивают, активные рабочие нагрузки могут использовать освободившуюся мощность.
Пример:
- Коэффициент overcommit для ядер = 2 → одна GPU-карта предоставляет логические 200% доступных для выделения ядер.
- Четыре pod запрашивают: Pod A = 80%, Pod B = 60%, Pod C = 40%, Pod D = 20%.
- Сценарии:
  - Если все pod заняты, Pod D получает запрошенные 20%, а Pods A–C делят оставшиеся 80% (≈26,7% каждому).
  - Если активен только Pod A, он может использовать до 80% ядер.
Коэффициент overcommit памяти vGPU
- Когда включен коэффициент overcommit памяти, рабочие нагрузки могут суммарно запрашивать больше, чем физическая емкость памяти GPU.
- Если суммарные запросы превышают доступную память и все pod пытаются использовать выделенный им объем полностью, некоторые рабочие нагрузки могут столкнуться с ошибками CUDA out of memory.
- Используйте коэффициент overcommit памяти с осторожностью, поскольку это может напрямую привести к сбоям приложения.
Область применения
- Описанный здесь коэффициент overcommit применяется только к NVIDIA GPUs.

#Коэффициент overcommit

#Содержание

#Понимание коэффициента overcommit в Hami vGPU

#Ключевые понятия

#Основные возможности

#Настройка коэффициента overcommit

#Примечания