Установка
Содержание
Предварительные требованияПроцедураУстановка драйвера Nvidia на вашем GPU-узлеУстановка Nvidia Container RuntimeДобавление библиотеки yum Nvidia на GPU-узлеУстановка Nvidia Container RuntimeНастройка containerd для использования Nvidia Container RuntimeЗагрузка Cluster pluginЗагрузка Cluster pluginУстановка Alauda Build of NVIDIA GPU Device PluginУстановка Alauda Build of DCGM-ExporterПредварительные требования
- Доступ администратора к вашему кластеру ACP
- NvidiaDriver: v450+
- Версия ACP: v3.18,v4.0,v4.1
Процедура
Установка драйвера Nvidia на вашем GPU-узле
Рекомендуется воспользоваться руководством по установке на официальном сайте Nvidia
Установка Nvidia Container Runtime
Рекомендуется воспользоваться руководством по установке Nvidia Container Toolkit
Добавление библиотеки yum Nvidia на GPU-узле
Примечание: убедитесь, что GPU-узел может получить доступ к nvidia.github.io
Когда появляется сообщение "Metadata cache created.", это означает, что добавление выполнено успешно.
Установка Nvidia Container Runtime
Когда появляется сообщение "Complete!", это означает, что установка выполнена успешно.
Настройка containerd для использования Nvidia Container Runtime
Загрузка Cluster plugin
Кластерный плагин Alauda Build of NVIDIA GPU Device Plugin можно получить в Customer Portal.
Для получения дополнительной информации обратитесь в Consumer Support.
Загрузка Cluster plugin
Для получения дополнительной информации о загрузке кластерного плагина см. Загрузка Cluster Plugins
Установка Alauda Build of NVIDIA GPU Device Plugin
-
Добавьте метку "nvidia-device-enable=pgpu" на GPU-узле для планирования nvidia-device-plugin.
Примечание: на одном и том же узле не могут одновременно присутствовать метки
gpu=onиnvidia-device-enable=pgpu. -
Перейдите на страницу
Administrator->Marketplace->Cluster Plugin, переключитесь на целевой кластер, а затем разверните кластерный плагинAlauda Build of NVIDIA GPU Device Plugin. Примечание: параметры формы развертывания можно оставить по умолчанию или изменить после того, как вы разберетесь, как их использовать. -
Проверьте результат. Вы можете увидеть статус "Installed" в UI или проверить состояние pod:
-
Наконец, при создании приложения в ACP вы сможете увидеть
Extended Resourcesв форме ресурсов и затем выбратьGPU core.
Установка Alauda Build of DCGM-Exporter
-
Перейдите на страницу
Administrator->Marketplace->Cluster Plugin, переключитесь на целевой кластер, а затем разверните кластерный плагинAlauda Build of DCGM-Exporter: Задайте метки узла во всплывающей форме:- Ключ метки узла: nvidia-device-enable
- Значение метки узла: pgpu
Если вам нужно включить dcgm-exporter для Hami, можно добавить еще одну метку:
- Ключ метки узла: gpu
- Значение метки узла: on
-
Проверьте результат. Вы можете увидеть статус "Installed" в UI или проверить состояние pod: