Установка
Содержание
Предварительные требованияПроцедураУстановка драйвера Nvidia на вашем GPU узлеУстановка Nvidia Container RuntimeДобавление репозитория Nvidia yum на GPU узлеУстановка Nvidia Container RuntimeЗагрузка плагина кластераЗагрузка плагина кластераУстановка Alauda Build of HamiУстановка Alauda Build of DCGM-ExporterУстановка МонитораУстановка ACP MonitorDashboard (опционально)Установка Alauda build of Hami-WebUI (опционально)Предварительные требования
- Доступ администратора к вашему ACP кластеру
- Версия Kubernetes: v1.16+
- Версия CUDA: v10.2+
- NvidiaDriver: v440+ в Hami и v450+ в DCGM-exporter
- Версия ACP: v3.18.2,v4.0,v4.1
Процедура
Установка драйвера Nvidia на вашем GPU узле
Рекомендуется использовать Installation guide of Nvidia Official website
Установка Nvidia Container Runtime
Рекомендуется использовать Installation guide of Nvidia Container Toolkit
Добавление репозитория Nvidia yum на GPU узле
Примечание: Убедитесь, что GPU узел имеет доступ к nvidia.github.io
Когда появится сообщение "Metadata cache created.", это означает, что добавление прошло успешно.
Установка Nvidia Container Runtime
Когда появится сообщение "Complete!", это означает, что установка прошла успешно.
Загрузка плагина кластера
Alauda Build of Hami, Alauda Build of DCGM-Exporter и Alauda Build of Hami-WebUI (опционально) плагин кластера можно получить через Customer Portal.
Пожалуйста, свяжитесь с Consumer Support для получения дополнительной информации.
Примечание: Alauda Build of DCGM-Exporter версии v4.2.3-413, развернутый в глобальном кластере, может привести к постоянной переустановке компонента. Версия v4.2.3-413-1 решает эту проблему, поэтому обязательно используйте именно эту версию.
Загрузка плагина кластера
Для получения дополнительной информации о загрузке плагина кластера, пожалуйста, обратитесь к Uploading Cluster Plugins
Установка Alauda Build of Hami
-
Добавьте метку "gpu=on" на вашем GPU узле для планирования Hami.
-
Перейдите на страницу
Administrator->Marketplace->Cluster Plugin, переключитесь на целевой кластер и разверните плагин кластераAlauda Build of Hami. Примечание: Параметры формы развертывания можно оставить по умолчанию или изменить после ознакомления с их использованием. -
Проверьте результат. В UI вы увидите статус "Installed" или можете проверить статус подов:
-
Создайте ConfigMaps, определяющие расширенные ресурсы, которые можно использовать для настройки расширенных ресурсов в ACP. Выполните следующий скрипт в вашем GPU кластере:
Нажмите, чтобы развернуть код
После этого вы сможете видеть Hami в выпадающем списке типов расширенных ресурсов на странице конфигурации ресурсов при создании приложения в бизнес-виде ACP и использовать его.
Установка Alauda Build of DCGM-Exporter
-
Перейдите на страницу
Administrator->Marketplace->Cluster Plugin, переключитесь на целевой кластер и разверните плагин кластераAlauda Build of DCGM-Exporter: Установите метки узлов в появившейся форме:- Ключ метки узла: gpu
- Значение метки узла: on
Если необходимо включить dcgm-exporter для pgpu, можно добавить дополнительные метки:
- Ключ метки узла: nvidia-device-enable
- Значение метки узла: pgpu
-
Проверьте результат. В UI вы увидите статус "Installed" или можете проверить статус подов:
Установка Монитора
Вы можете использовать ACP MonitorDashboard или Alauda build of Hami-WebUI
Установка ACP MonitorDashboard (опционально)
Создайте ресурс ACP MonitorDashboard для мониторинга HAMi GPU в ACP dashboard.
Сохраните файл hami-vgpu-metrics-dashboard-v1.0.2.yaml в бизнес-кластер и выполните команду: kubectl apply -f hami-vgpu-metrics-dashboard-v1.0.2.yaml
Установка Alauda build of Hami-WebUI (опционально)
- Перейдите на страницу
Administrator->Marketplace->Cluster Plugin, переключитесь на целевой кластер и разверните плагин кластераAlauda Build of Hami-WebUI. Заполните адрес Prometheus и аутентификацию Prometheus. Рекомендуется включить доступ NodePort. Адрес Prometheus и данные аутентификации можно получить с помощью следующих скриптов: - Проверьте результат. В UI вы увидите статус "Installed" или можете проверить статус подов: