Установка

Содержание

Предварительные требования Процедура Установка драйвера Nvidia на вашем GPU-узле Установка Nvidia Container Runtime Добавление библиотеки yum Nvidia на GPU-узле Установка Nvidia Container Runtime Настройка containerd для использования Nvidia Container Runtime Загрузка Cluster plugin Загрузка Cluster plugin Установка Alauda Build of NVIDIA GPU Device Plugin Установка Alauda Build of DCGM-Exporter

Предварительные требования

Доступ администратора к вашему кластеру ACP
NvidiaDriver: v450+
Версия ACP: v3.18,v4.0,v4.1

Процедура

Установка драйвера Nvidia на вашем GPU-узле

Рекомендуется воспользоваться руководством по установке на официальном сайте Nvidia

Установка Nvidia Container Runtime

Рекомендуется воспользоваться руководством по установке Nvidia Container Toolkit

Добавление библиотеки yum Nvidia на GPU-узле

Примечание: убедитесь, что GPU-узел может получить доступ к nvidia.github.io

distribution=$(. /etc/os-release;echo $ID$VERSION_ID) && curl -s -L https://nvidia.github.io/libnvidia-container/$distribution/libnvidia-container.repo | sudo tee /etc/yum.repos.d/nvidia-container-toolkit.repo
yum makecache -y

Когда появляется сообщение "Metadata cache created.", это означает, что добавление выполнено успешно.

Установка Nvidia Container Runtime

yum install nvidia-container-toolkit -y

Когда появляется сообщение "Complete!", это означает, что установка выполнена успешно.

Настройка containerd для использования Nvidia Container Runtime

nvidia-ctk runtime configure --runtime=containerd
systemctl restart containerd

Загрузка Cluster plugin

INFO

Кластерный плагин Alauda Build of NVIDIA GPU Device Plugin можно получить в Customer Portal.

Для получения дополнительной информации обратитесь в Consumer Support.

Загрузка Cluster plugin

Для получения дополнительной информации о загрузке кластерного плагина см. Загрузка Cluster Plugins

Установка Alauda Build of NVIDIA GPU Device Plugin

Добавьте метку "nvidia-device-enable=pgpu" на GPU-узле для планирования nvidia-device-plugin.
kubectl label nodes {nodeid} nvidia-device-enable=pgpu
Примечание: на одном и том же узле не могут одновременно присутствовать метки gpu=on и nvidia-device-enable=pgpu.
Перейдите на страницу Administrator -> Marketplace -> Cluster Plugin, переключитесь на целевой кластер, а затем разверните кластерный плагин Alauda Build of NVIDIA GPU Device Plugin. Примечание: параметры формы развертывания можно оставить по умолчанию или изменить после того, как вы разберетесь, как их использовать.
Проверьте результат. Вы можете увидеть статус "Installed" в UI или проверить состояние pod:
kubectl get pods -n kube-system | grep "nvidia-device-plugin"
Наконец, при создании приложения в ACP вы сможете увидеть Extended Resources в форме ресурсов и затем выбрать GPU core.

Установка Alauda Build of DCGM-Exporter

Перейдите на страницу Administrator -> Marketplace -> Cluster Plugin, переключитесь на целевой кластер, а затем разверните кластерный плагин Alauda Build of DCGM-Exporter: Задайте метки узла во всплывающей форме:
- Ключ метки узла: nvidia-device-enable
- Значение метки узла: pgpu
Если вам нужно включить dcgm-exporter для Hami, можно добавить еще одну метку:
- Ключ метки узла: gpu
- Значение метки узла: on
Проверьте результат. Вы можете увидеть статус "Installed" в UI или проверить состояние pod:
kubectl get pods -n kube-system | grep dcgm-exporter

#Установка

#Содержание

#Предварительные требования

#Процедура

#Установка драйвера Nvidia на вашем GPU-узле

#Установка Nvidia Container Runtime

#Добавление библиотеки yum Nvidia на GPU-узле

#Установка Nvidia Container Runtime

#Настройка containerd для использования Nvidia Container Runtime

#Загрузка Cluster plugin

#Загрузка Cluster plugin

#Установка Alauda Build of NVIDIA GPU Device Plugin

#Установка Alauda Build of DCGM-Exporter

Установка

Содержание

Предварительные требования

Процедура

Установка драйвера Nvidia на вашем GPU-узле

Установка Nvidia Container Runtime

Добавление библиотеки yum Nvidia на GPU-узле

Установка Nvidia Container Runtime

Настройка containerd для использования Nvidia Container Runtime

Загрузка Cluster plugin

Загрузка Cluster plugin

Установка Alauda Build of NVIDIA GPU Device Plugin

Установка Alauda Build of DCGM-Exporter