Использование HAMi vGPU ResourceQuota в Alauda Container Platform
Используйте Alauda Container Platform для настройки квот HAMi vGPU как на уровне проекта, так и на уровне namespace. Платформа управляет проектными квотами как ProjectQuota на уровне проекта: сумма значений ResourceQuota namespace внутри проекта должна оставаться в пределах настроенных ограничений проекта.
Расширенные квоты HAMi отображаются в Alauda Container Platform после создания ConfigMaps расширенных ресурсов HAMi в GPU cluster. Если HAMi NVIDIA не отображается в списке типов квот, проверьте, что установлена Alauda Build of Hami и что ConfigMaps расширенных ресурсов из руководства по установке были применены.
Содержание
Предварительные требованияПоля квоты HAMi vGPUНастройка квот HAMi vGPU на уровне проектаПри создании проектаДля существующего проектаНастройка квот HAMi vGPU на уровне namespaceПри создании namespaceДля существующего namespaceПросмотр использования квот в Alauda Container PlatformПоведение принудительного применения квот HAMi vGPUУстранение неполадокПредварительные требования
- На целевом workload cluster установлена Alauda Build of Hami.
- В GPU cluster созданы ConfigMaps расширенных ресурсов HAMi.
- У вас есть разрешение на создание проекта или обновление проектных квот в Alauda Container Platform.
- Целевой проект связан с GPU cluster, в котором доступны ресурсы HAMi.
Поля квоты HAMi vGPU
Используйте следующие поля всякий раз, когда платформа предлагает настроить тип квоты HAMi NVIDIA:
Настройка квот HAMi vGPU на уровне проекта
Проектная квота является верхней границей для всех квот namespace в этом проекте.
При создании проекта
- В Alauda Container Platform перейдите в
Administrator->Project Management. - Нажмите
Create Project. - Заполните информацию о проекте, затем выберите GPU cluster, который предоставляет ресурсы HAMi.
- Нажмите
Next, чтобы открыть шаг настройки проектной квоты. - В выбранном cluster добавьте расширенную квоту.
- Установите тип квоты
HAMi NVIDIA. - Заполните
gpu number,vgpu coresиvgpu memory. - Проверьте значения квоты, затем создайте проект.
Для существующего проекта
- В Alauda Container Platform перейдите в
Administrator->Project Management. - Откройте страницу сведений о целевом проекте.
- Обновите проектную квоту для GPU cluster, связанного с проектом.
- Добавьте или отредактируйте тип расширенной квоты
HAMi NVIDIA. - Установите
gpu number,vgpu coresиvgpu memory, затем сохраните изменения.
Настройка квот HAMi vGPU на уровне namespace
Квоты HAMi vGPU на уровне namespace потребляются из проектной квоты, назначенной тому же cluster. Если оставшейся проектной квоты недостаточно, платформа отклоняет создание или обновление квоты namespace.
При создании namespace
- Откройте целевой проект в Alauda Container Platform.
- Нажмите
Create Namespace. - Заполните информацию о namespace.
- В разделе
Resource Quotaнайдите область квот аппаратного ускорителя или расширенных ресурсов. - Добавьте квоту расширенного ресурса и установите тип квоты
HAMi NVIDIA. - Заполните
gpu number,vgpu coresиvgpu memory. - Сохраните namespace.
Для существующего namespace
- Откройте целевой проект в Alauda Container Platform.
- Откройте страницу сведений о целевом namespace.
- Отредактируйте
Resource Quotanamespace. - Добавьте или отредактируйте тип расширенной квоты
HAMi NVIDIA. - Установите
gpu number,vgpu coresиvgpu memory, затем сохраните изменения.
Просмотр использования квот в Alauda Container Platform
После настройки квот HAMi vGPU вы можете проверять использование и распределение квот на нескольких страницах Alauda Container Platform:
- На странице сведений о проекте таблица
Quotaпоказывает квоту на уровне проекта. Для ресурсов HAMi таблица может отображатьUtilizationиQuota Rate;Utilizationпоказывает отношение использованной квоты к общей квоте, аQuota Rate— отношение назначенной квоты к общей квоте. - На странице сведений о namespace таблица
Resource Quotasпоказывает сведения на уровне namespace, такие какAllocated,QuotaиQuota Rate. - На странице
Overviewс областью действия namespace в business view карточкаResource Quotasможет показывать текущую квоту namespace и коэффициент распределения.
Используйте эти страницы, чтобы проверить, близки ли gpu number, vgpu cores и vgpu memory к своим пределам перед созданием или масштабированием приложений.
Поведение принудительного применения квот HAMi vGPU
Принудительное применение квот HAMi vGPU отличается от стандартного поведения admission для Kubernetes ResourceQuota.
- Для стандартных квот ресурсов Kubernetes запрос, превышающий квоту, обычно отклоняется до создания Pod.
- Для расширенных квот HAMi в Alauda Container Platform допустимость квоты оценивается
hami-schedulerво время планирования.
В текущем поведении продукта, если приложение запрашивает ресурсы HAMi, превышающие оставшуюся квоту namespace, объект Pod может быть создан первым и остаться в состоянии Pending с сообщением о недостаточной квоте или сбое планирования от scheduler HAMi. Такое поведение соответствует модели расчета квот на стороне scheduler HAMi.
Устранение неполадок
- Если
HAMi NVIDIAнедоступен в списке типов квот, повторно примените ConfigMaps расширенных ресурсов HAMi в GPU cluster. - Если создание или обновление квоты namespace завершается неудачей, проверьте, не превысит ли запрошенная квота namespace оставшуюся проектную квоту для того же ресурса HAMi.
- Если Pod создан, но остается в состоянии
Pending, проверьте события планирования отhami-schedulerи убедитесь, что в namespace по-прежнему достаточно квотыgpu number,vgpu coresиvgpu memory. - Если workload по-прежнему не удается запланировать после обновления проектной квоты, проверьте
ResourceQuotanamespace, запросы ресурсов workload и фактическую емкость GPU в целевом cluster.