Использование HAMi vGPU ResourceQuota в Alauda Container Platform

Используйте Alauda Container Platform для настройки квот HAMi vGPU как на уровне проекта, так и на уровне namespace. Платформа управляет проектными квотами как ProjectQuota на уровне проекта: сумма значений ResourceQuota namespace внутри проекта должна оставаться в пределах настроенных ограничений проекта.

Расширенные квоты HAMi отображаются в Alauda Container Platform после создания ConfigMaps расширенных ресурсов HAMi в GPU cluster. Если HAMi NVIDIA не отображается в списке типов квот, проверьте, что установлена Alauda Build of Hami и что ConfigMaps расширенных ресурсов из руководства по установке были применены.

Содержание

Предварительные требования Поля квоты HAMi vGPU Настройка квот HAMi vGPU на уровне проекта При создании проекта Для существующего проекта Настройка квот HAMi vGPU на уровне namespace При создании namespace Для существующего namespace Просмотр использования квот в Alauda Container Platform Поведение принудительного применения квот HAMi vGPU Устранение неполадок

Предварительные требования

На целевом workload cluster установлена Alauda Build of Hami.
В GPU cluster созданы ConfigMaps расширенных ресурсов HAMi.
У вас есть разрешение на создание проекта или обновление проектных квот в Alauda Container Platform.
Целевой проект связан с GPU cluster, в котором доступны ресурсы HAMi.

Поля квоты HAMi vGPU

Используйте следующие поля всякий раз, когда платформа предлагает настроить тип квоты HAMi NVIDIA:

Поле	Ключ ресурса	Единица	Описание
`gpu number`	`nvidia.com/gpualloc`	`count`	Количество физических GPU, зарезервированных квотой. Когда workload запрашивает GPU cores и memory, значения core и memory учитываются для каждой физической GPU.
`vgpu cores`	`nvidia.com/gpucores`	integer	Квота вычислительной мощности GPU. `100` означает полную вычислительную мощность одной физической GPU.
`vgpu memory`	`nvidia.com/gpumem`	`Mi`	Квота памяти GPU на одну физическую GPU.

Настройка квот HAMi vGPU на уровне проекта

Проектная квота является верхней границей для всех квот namespace в этом проекте.

При создании проекта

В Alauda Container Platform перейдите в Administrator -> Project Management.
Нажмите Create Project.
Заполните информацию о проекте, затем выберите GPU cluster, который предоставляет ресурсы HAMi.
Нажмите Next, чтобы открыть шаг настройки проектной квоты.
В выбранном cluster добавьте расширенную квоту.
Установите тип квоты HAMi NVIDIA.
Заполните gpu number, vgpu cores и vgpu memory.
Проверьте значения квоты, затем создайте проект.

Для существующего проекта

В Alauda Container Platform перейдите в Administrator -> Project Management.
Откройте страницу сведений о целевом проекте.
Обновите проектную квоту для GPU cluster, связанного с проектом.
Добавьте или отредактируйте тип расширенной квоты HAMi NVIDIA.
Установите gpu number, vgpu cores и vgpu memory, затем сохраните изменения.

Настройка квот HAMi vGPU на уровне namespace

Квоты HAMi vGPU на уровне namespace потребляются из проектной квоты, назначенной тому же cluster. Если оставшейся проектной квоты недостаточно, платформа отклоняет создание или обновление квоты namespace.

При создании namespace

Откройте целевой проект в Alauda Container Platform.
Нажмите Create Namespace.
Заполните информацию о namespace.
В разделе Resource Quota найдите область квот аппаратного ускорителя или расширенных ресурсов.
Добавьте квоту расширенного ресурса и установите тип квоты HAMi NVIDIA.
Заполните gpu number, vgpu cores и vgpu memory.
Сохраните namespace.

Для существующего namespace

Откройте целевой проект в Alauda Container Platform.
Откройте страницу сведений о целевом namespace.
Отредактируйте Resource Quota namespace.
Добавьте или отредактируйте тип расширенной квоты HAMi NVIDIA.
Установите gpu number, vgpu cores и vgpu memory, затем сохраните изменения.

Просмотр использования квот в Alauda Container Platform

После настройки квот HAMi vGPU вы можете проверять использование и распределение квот на нескольких страницах Alauda Container Platform:

На странице сведений о проекте таблица Quota показывает квоту на уровне проекта. Для ресурсов HAMi таблица может отображать Utilization и Quota Rate; Utilization показывает отношение использованной квоты к общей квоте, а Quota Rate — отношение назначенной квоты к общей квоте.
На странице сведений о namespace таблица Resource Quotas показывает сведения на уровне namespace, такие как Allocated, Quota и Quota Rate.
На странице Overview с областью действия namespace в business view карточка Resource Quotas может показывать текущую квоту namespace и коэффициент распределения.

Используйте эти страницы, чтобы проверить, близки ли gpu number, vgpu cores и vgpu memory к своим пределам перед созданием или масштабированием приложений.

Поведение принудительного применения квот HAMi vGPU

Принудительное применение квот HAMi vGPU отличается от стандартного поведения admission для Kubernetes ResourceQuota.

Для стандартных квот ресурсов Kubernetes запрос, превышающий квоту, обычно отклоняется до создания Pod.
Для расширенных квот HAMi в Alauda Container Platform допустимость квоты оценивается hami-scheduler во время планирования.

В текущем поведении продукта, если приложение запрашивает ресурсы HAMi, превышающие оставшуюся квоту namespace, объект Pod может быть создан первым и остаться в состоянии Pending с сообщением о недостаточной квоте или сбое планирования от scheduler HAMi. Такое поведение соответствует модели расчета квот на стороне scheduler HAMi.

Устранение неполадок

Если HAMi NVIDIA недоступен в списке типов квот, повторно примените ConfigMaps расширенных ресурсов HAMi в GPU cluster.
Если создание или обновление квоты namespace завершается неудачей, проверьте, не превысит ли запрошенная квота namespace оставшуюся проектную квоту для того же ресурса HAMi.
Если Pod создан, но остается в состоянии Pending, проверьте события планирования от hami-scheduler и убедитесь, что в namespace по-прежнему достаточно квоты gpu number, vgpu cores и vgpu memory.
Если workload по-прежнему не удается запланировать после обновления проектной квоты, проверьте ResourceQuota namespace, запросы ресурсов workload и фактическую емкость GPU в целевом cluster.

#Использование HAMi vGPU ResourceQuota в Alauda Container Platform

#Содержание

#Предварительные требования

#Поля квоты HAMi vGPU

#Настройка квот HAMi vGPU на уровне проекта

#При создании проекта

#Для существующего проекта

#Настройка квот HAMi vGPU на уровне namespace

#При создании namespace

#Для существующего namespace

#Просмотр использования квот в Alauda Container Platform

#Поведение принудительного применения квот HAMi vGPU

#Устранение неполадок