Установка
Содержание
Предварительные требования
- Доступ администратора к вашему ACP кластеру
- Драйвер Nvidia: версия v450 и выше
- Версия ACP: v3.18, v4.0, v4.1
Процедура
Установка драйвера Nvidia на вашем GPU узле
Рекомендуется использовать Руководство по установке с официального сайта Nvidia
Установка Nvidia Container Runtime
Рекомендуется использовать Руководство по установке Nvidia Container Toolkit
Добавление yum-репозитория Nvidia на GPU узле
Примечание: Убедитесь, что GPU узел имеет доступ к nvidia.github.io
Когда появится сообщение "Metadata cache created.", это означает, что добавление прошло успешно.
Установка Nvidia Container Runtime
Когда появится сообщение "Complete!", установка прошла успешно.
Загрузка плагина кластера
Плагин кластера Alauda Build of NVIDIA GPU Device Plugin можно получить через Customer Portal.
Для получения дополнительной информации обратитесь в Consumer Support.
Загрузка плагина кластера
Для получения дополнительной информации о загрузке плагина кластера, пожалуйста, обратитесь к
Установка Alauda Build of NVIDIA GPU Device Plugin
-
Добавьте метку "nvidia-device-enable=pgpu" на вашем GPU узле для планирования nvidia-device-plugin.
Примечание: На одном узле не могут одновременно присутствовать метки
gpu=onиnvidia-device-enable=pgpu -
Перейдите на страницу
Administrator->Marketplace->Cluster Plugin, выберите целевой кластер и разверните плагин кластераAlauda Build of NVIDIA GPU Device Plugin. Примечание: Параметры формы развертывания можно оставить по умолчанию или изменить после ознакомления с их использованием. -
Проверьте результат. В UI должен отображаться статус "Installed" или можно проверить статус pod:
-
В конце вы увидите
Extended Resourcesв виде ресурсов при создании приложения в ACP, где сможете выбратьGPU core.
Установка Alauda Build of DCGM-Exporter
- Перейдите на страницу
Administrator->Marketplace->Cluster Plugin, выберите целевой кластер и разверните плагин кластераAlauda Build of DCGM-Exporter: Установите метки узлов в появившейся форме:
- Ключ метки узла: nvidia-device-enable
- Значение метки узла: pgpu
Если необходимо включить dcgm-exporter для Hami, можно добавить дополнительные метки:
- Ключ метки узла: gpu
- Значение метки узла: on
- Проверьте результат. В UI должен отображаться статус "Installed" или можно проверить статус pod: