Установка

Содержание

Предварительные требования

Доступ администратора к вашему ACP кластеру
Драйвер Nvidia: версия v450 и выше
Версия ACP: v3.18, v4.0, v4.1

Процедура

Установка драйвера Nvidia на вашем GPU узле

Рекомендуется использовать Руководство по установке с официального сайта Nvidia

Установка Nvidia Container Runtime

Рекомендуется использовать Руководство по установке Nvidia Container Toolkit

Добавление yum-репозитория Nvidia на GPU узле

Примечание: Убедитесь, что GPU узел имеет доступ к nvidia.github.io

distribution=$(. /etc/os-release;echo $ID$VERSION_ID) && curl -s -L https://nvidia.github.io/libnvidia-container/$distribution/libnvidia-container.repo | sudo tee /etc/yum.repos.d/nvidia-container-toolkit.repo
yum makecache -y

Когда появится сообщение "Metadata cache created.", это означает, что добавление прошло успешно.

Установка Nvidia Container Runtime

yum install nvidia-container-toolkit -y

Когда появится сообщение "Complete!", установка прошла успешно.

Загрузка плагина кластера

INFO

Плагин кластера Alauda Build of NVIDIA GPU Device Plugin можно получить через Customer Portal.

Для получения дополнительной информации обратитесь в Consumer Support.

Загрузка плагина кластера

Для получения дополнительной информации о загрузке плагина кластера, пожалуйста, обратитесь к

Установка Alauda Build of NVIDIA GPU Device Plugin

Добавьте метку "nvidia-device-enable=pgpu" на вашем GPU узле для планирования nvidia-device-plugin.
```
kubectl label nodes {nodeid} nvidia-device-enable=pgpu
```
Примечание: На одном узле не могут одновременно присутствовать метки gpu=on и nvidia-device-enable=pgpu
Перейдите на страницу Administrator -> Marketplace -> Cluster Plugin, выберите целевой кластер и разверните плагин кластера Alauda Build of NVIDIA GPU Device Plugin. Примечание: Параметры формы развертывания можно оставить по умолчанию или изменить после ознакомления с их использованием.
Проверьте результат. В UI должен отображаться статус "Installed" или можно проверить статус pod:
```
kubectl get pods -n kube-system | grep  "nvidia-device-plugin"
```
В конце вы увидите Extended Resources в виде ресурсов при создании приложения в ACP, где сможете выбрать GPU core.

Установка Alauda Build of DCGM-Exporter

Перейдите на страницу Administrator -> Marketplace -> Cluster Plugin, выберите целевой кластер и разверните плагин кластера Alauda Build of DCGM-Exporter: Установите метки узлов в появившейся форме:

Ключ метки узла: nvidia-device-enable
Значение метки узла: pgpu

Если необходимо включить dcgm-exporter для Hami, можно добавить дополнительные метки:

Ключ метки узла: gpu
Значение метки узла: on

Проверьте результат. В UI должен отображаться статус "Installed" или можно проверить статус pod:
```
kubectl get pods -n kube-system | grep dcgm-exporter
```

#Установка

#Содержание

#Предварительные требования

#Процедура

#Установка драйвера Nvidia на вашем GPU узле

#Установка Nvidia Container Runtime

#Добавление yum-репозитория Nvidia на GPU узле

#Установка Nvidia Container Runtime

#Загрузка плагина кластера

#Загрузка плагина кластера

#Установка Alauda Build of NVIDIA GPU Device Plugin

#Установка Alauda Build of DCGM-Exporter

Установка

Содержание

Предварительные требования

Процедура

Установка драйвера Nvidia на вашем GPU узле

Установка Nvidia Container Runtime

Добавление yum-репозитория Nvidia на GPU узле

Установка Nvidia Container Runtime

Загрузка плагина кластера

Загрузка плагина кластера

Установка Alauda Build of NVIDIA GPU Device Plugin

Установка Alauda Build of DCGM-Exporter