• Русский
  • Использование HAMi vGPU ResourceQuota в Alauda Container Platform

    Используйте Alauda Container Platform для настройки квот HAMi vGPU как на уровне проекта, так и на уровне namespace. Платформа управляет проектными квотами как ProjectQuota на уровне проекта: сумма значений ResourceQuota namespace внутри проекта должна оставаться в пределах настроенных ограничений проекта.

    Расширенные квоты HAMi отображаются в Alauda Container Platform после создания ConfigMaps расширенных ресурсов HAMi в GPU cluster. Если HAMi NVIDIA не отображается в списке типов квот, проверьте, что установлена Alauda Build of Hami и что ConfigMaps расширенных ресурсов из руководства по установке были применены.

    Предварительные требования

    • На целевом workload cluster установлена Alauda Build of Hami.
    • В GPU cluster созданы ConfigMaps расширенных ресурсов HAMi.
    • У вас есть разрешение на создание проекта или обновление проектных квот в Alauda Container Platform.
    • Целевой проект связан с GPU cluster, в котором доступны ресурсы HAMi.

    Поля квоты HAMi vGPU

    Используйте следующие поля всякий раз, когда платформа предлагает настроить тип квоты HAMi NVIDIA:

    ПолеКлюч ресурсаЕдиницаОписание
    gpu numbernvidia.com/gpualloccountКоличество физических GPU, зарезервированных квотой. Когда workload запрашивает GPU cores и memory, значения core и memory учитываются для каждой физической GPU.
    vgpu coresnvidia.com/gpucoresintegerКвота вычислительной мощности GPU. 100 означает полную вычислительную мощность одной физической GPU.
    vgpu memorynvidia.com/gpumemMiКвота памяти GPU на одну физическую GPU.

    Настройка квот HAMi vGPU на уровне проекта

    Проектная квота является верхней границей для всех квот namespace в этом проекте.

    При создании проекта

    1. В Alauda Container Platform перейдите в Administrator -> Project Management.
    2. Нажмите Create Project.
    3. Заполните информацию о проекте, затем выберите GPU cluster, который предоставляет ресурсы HAMi.
    4. Нажмите Next, чтобы открыть шаг настройки проектной квоты.
    5. В выбранном cluster добавьте расширенную квоту.
    6. Установите тип квоты HAMi NVIDIA.
    7. Заполните gpu number, vgpu cores и vgpu memory.
    8. Проверьте значения квоты, затем создайте проект.

    Для существующего проекта

    1. В Alauda Container Platform перейдите в Administrator -> Project Management.
    2. Откройте страницу сведений о целевом проекте.
    3. Обновите проектную квоту для GPU cluster, связанного с проектом.
    4. Добавьте или отредактируйте тип расширенной квоты HAMi NVIDIA.
    5. Установите gpu number, vgpu cores и vgpu memory, затем сохраните изменения.

    Настройка квот HAMi vGPU на уровне namespace

    Квоты HAMi vGPU на уровне namespace потребляются из проектной квоты, назначенной тому же cluster. Если оставшейся проектной квоты недостаточно, платформа отклоняет создание или обновление квоты namespace.

    При создании namespace

    1. Откройте целевой проект в Alauda Container Platform.
    2. Нажмите Create Namespace.
    3. Заполните информацию о namespace.
    4. В разделе Resource Quota найдите область квот аппаратного ускорителя или расширенных ресурсов.
    5. Добавьте квоту расширенного ресурса и установите тип квоты HAMi NVIDIA.
    6. Заполните gpu number, vgpu cores и vgpu memory.
    7. Сохраните namespace.

    Для существующего namespace

    1. Откройте целевой проект в Alauda Container Platform.
    2. Откройте страницу сведений о целевом namespace.
    3. Отредактируйте Resource Quota namespace.
    4. Добавьте или отредактируйте тип расширенной квоты HAMi NVIDIA.
    5. Установите gpu number, vgpu cores и vgpu memory, затем сохраните изменения.

    Просмотр использования квот в Alauda Container Platform

    После настройки квот HAMi vGPU вы можете проверять использование и распределение квот на нескольких страницах Alauda Container Platform:

    • На странице сведений о проекте таблица Quota показывает квоту на уровне проекта. Для ресурсов HAMi таблица может отображать Utilization и Quota Rate; Utilization показывает отношение использованной квоты к общей квоте, а Quota Rate — отношение назначенной квоты к общей квоте.
    • На странице сведений о namespace таблица Resource Quotas показывает сведения на уровне namespace, такие как Allocated, Quota и Quota Rate.
    • На странице Overview с областью действия namespace в business view карточка Resource Quotas может показывать текущую квоту namespace и коэффициент распределения.

    Используйте эти страницы, чтобы проверить, близки ли gpu number, vgpu cores и vgpu memory к своим пределам перед созданием или масштабированием приложений.

    Поведение принудительного применения квот HAMi vGPU

    Принудительное применение квот HAMi vGPU отличается от стандартного поведения admission для Kubernetes ResourceQuota.

    • Для стандартных квот ресурсов Kubernetes запрос, превышающий квоту, обычно отклоняется до создания Pod.
    • Для расширенных квот HAMi в Alauda Container Platform допустимость квоты оценивается hami-scheduler во время планирования.

    В текущем поведении продукта, если приложение запрашивает ресурсы HAMi, превышающие оставшуюся квоту namespace, объект Pod может быть создан первым и остаться в состоянии Pending с сообщением о недостаточной квоте или сбое планирования от scheduler HAMi. Такое поведение соответствует модели расчета квот на стороне scheduler HAMi.

    Устранение неполадок

    • Если HAMi NVIDIA недоступен в списке типов квот, повторно примените ConfigMaps расширенных ресурсов HAMi в GPU cluster.
    • Если создание или обновление квоты namespace завершается неудачей, проверьте, не превысит ли запрошенная квота namespace оставшуюся проектную квоту для того же ресурса HAMi.
    • Если Pod создан, но остается в состоянии Pending, проверьте события планирования от hami-scheduler и убедитесь, что в namespace по-прежнему достаточно квоты gpu number, vgpu cores и vgpu memory.
    • Если workload по-прежнему не удается запланировать после обновления проектной квоты, проверьте ResourceQuota namespace, запросы ресурсов workload и фактическую емкость GPU в целевом cluster.