Коэффициент Overcommitment

⚠️ Эта функция всё ещё экспериментальная. Пожалуйста, используйте её с осторожностью.

Содержание

Понимание коэффициента Overcommitment в Hami vGPU Ключевые понятия Основные возможности Настройка коэффициента Overcommitment Примечания

Понимание коэффициента Overcommitment в Hami vGPU

Hami поддерживает настройку глобального коэффициента overcommitment как для vGPU вычислительных ядер, так и для памяти. Цель overcommitment vGPU — повысить использование GPU, а не увеличить выделение ресурсов для отдельных задач. Механизм overcommitment vGPU реализован только логически в hami-scheduler.

Ключевые понятия

NVIDIA Device Core Scaling: коэффициент overcommitment, применяемый к вычислительным ядрам GPU.
NVIDIA Device Memory Scaling: коэффициент overcommitment, применяемый к памяти GPU.

Основные возможности

Позволяет повысить использование GPU, давая возможность большему количеству рабочих нагрузок совместно использовать одну видеокарту.

Настройка коэффициента Overcommitment

Перейдите в Administrator → Marketplace → Cluster Plugin.
Выберите целевой кластер.
Обновите параметры NVIDIA Device Core Scaling и NVIDIA Device Memory Scaling при развертывании или обновлении плагина кластера Alauda Build of Hami.

Примечания

Overcommitment ядер vGPU
- Если коэффициент overcommitment для ядер GPU больше 1, несколько рабочих нагрузок могут запрашивать более 100% вычислительной мощности GPU.
- Если все нагрузки работают на полной загрузке, они делят физическую вычислительную мощность GPU поровну (в пределах запрошенной доли). В результате каждая нагрузка может работать медленнее, чем при использовании выделенного GPU.
- Если некоторые нагрузки простаивают, активные нагрузки могут использовать освободившуюся мощность.
Пример:
- Коэффициент overcommitment ядер = 2 → одна видеокарта логически предоставляет 200% доступных ядер.
- Четыре пода запрашивают: Pod A = 80%, Pod B = 60%, Pod C = 40%, Pod D = 20%.
- Сценарии:
  - Если все поды заняты, Pod D получает свои запрошенные 20%, а Pods A–C конкурируют за оставшиеся 80% (примерно по 26,7% каждый).
  - Если активен только Pod A, он может использовать до 80% ядер.
Overcommitment памяти vGPU
- При включённом overcommitment памяти нагрузки могут суммарно запрашивать больше памяти GPU, чем физически доступно.
- Если суммарные запросы превышают доступную память и все поды пытаются использовать выделенную память полностью, некоторые нагрузки могут столкнуться с ошибками CUDA out of memory.
- Используйте overcommitment памяти с осторожностью, так как это может привести к сбоям приложений.
Область применения
- Описанный коэффициент overcommitment применяется только к NVIDIA GPU.

#Коэффициент Overcommitment

#Содержание

#Понимание коэффициента Overcommitment в Hami vGPU

#Ключевые понятия

#Основные возможности

#Настройка коэффициента Overcommitment