• Русский
  • Коэффициент Overcommit

    ⚠️ Эта функция всё ещё экспериментальная. Пожалуйста, используйте её с осторожностью.

    Содержание

    Понимание коэффициента Overcommit в Hami vGPU

    Hami поддерживает настройку глобального коэффициента overcommit как для вычислительных ядер vGPU, так и для памяти. Цель коэффициента overcommit vGPU — повысить использование GPU, а не увеличить выделение ресурсов для отдельных задач. Механизм коэффициента overcommit vGPU реализован только логически в hami-scheduler.

    Ключевые понятия

    • NVIDIA Device Core Scaling: коэффициент overcommit, применяемый к вычислительным ядрам GPU.
    • NVIDIA Device Memory Scaling: коэффициент overcommit, применяемый к памяти GPU.

    Основные возможности

    • Позволяет повысить использование GPU, давая возможность большему количеству рабочих нагрузок совместно использовать одну видеокарту.

    Настройка коэффициента Overcommit

    1. Перейдите в AdministratorMarketplaceCluster Plugin.
    2. Выберите целевой кластер.
    3. Обновите параметры NVIDIA Device Core Scaling и NVIDIA Device Memory Scaling при развертывании или обновлении плагина кластера Alauda Build of Hami.

    Примечания

    1. Коэффициент Overcommit для ядер vGPU

      • Если коэффициент overcommit для ядер GPU больше 1, несколько рабочих нагрузок могут запрашивать более 100% вычислительной мощности GPU.
      • Если все нагрузки работают на полной загрузке, они делят физическую вычислительную мощность GPU поровну (в пределах запрошенной доли). В результате каждая нагрузка может работать медленнее, чем при использовании выделенного GPU.
      • Если некоторые нагрузки простаивают, активные нагрузки могут использовать освободившуюся мощность.

      Пример:

      • Коэффициент overcommit ядер = 2 → одна видеокарта логически предоставляет 200% доступных ядер.
      • Четыре пода запрашивают: Pod A = 80%, Pod B = 60%, Pod C = 40%, Pod D = 20%.
      • Сценарии:
        • Если все поды заняты, Pod D получает свои 20%, а Pods A–C конкурируют за оставшиеся 80% (примерно по 26.7% каждый).
        • Если активен только Pod A, он может использовать до 80% ядер.
    2. Коэффициент Overcommit памяти vGPU

      • При включённом коэффициенте overcommit памяти нагрузки могут суммарно запрашивать больше памяти, чем физически доступно на GPU.
      • Если суммарные запросы превышают доступную память и все поды пытаются использовать выделенную память полностью, некоторые нагрузки могут столкнуться с ошибками CUDA out of memory.
      • Используйте коэффициент overcommit памяти с осторожностью, так как это может напрямую привести к сбоям приложений.
    3. Область применения

      • Описанный коэффициент overcommit применяется только к NVIDIA GPU.