Установка для NVIDIA GPU
В этой главе описаны пошаговые действия по полной установке для кластеров с NVIDIA GPUs. Для Huawei Ascend NPUs см. Установка для Huawei Ascend NPU.
Содержание
Предварительные требованияПроцедураУстановка драйвера NVIDIA на узле GPUУстановка NVIDIA Container RuntimeДобавление библиотеки Nvidia yum на узле GPUУстановка Nvidia Container RuntimeЗагрузка Cluster pluginЗагрузка Cluster pluginУстановка Alauda Build of HamiУстановка Alauda Build of DCGM-ExporterУстановка MonitorУстановка ACP MonitorDashboard (необязательно)Установка Alauda build of Hami-WebUI (необязательно)ПроверкаПроверка HamiПроверка MonitorDashboardПроверка Hami-WebUIПредварительные требования
- Доступ администратора к вашему кластеру ACP
- Версия Kubernetes: v1.16+
- Версия CUDA: v10.2+
- NvidiaDriver: v440+ в Hami и v450+ в DCGM-exporter
- Версия ACP: v4.0+
Процедура
Установка драйвера NVIDIA на узле GPU
См. официальное руководство по установке NVIDIA.
Установка NVIDIA Container Runtime
См. руководство по установке NVIDIA Container Toolkit.
Добавление библиотеки Nvidia yum на узле GPU
Примечание: убедитесь, что узел GPU может обращаться к nvidia.github.io
Когда появится сообщение "Metadata cache created.", это означает, что добавление выполнено успешно.
Установка Nvidia Container Runtime
Когда появится приглашение "Complete!", это означает, что установка выполнена успешно.
Настройте containerd на использование NVIDIA runtime и перезапустите его:
Загрузка Cluster plugin
Alauda Build of Hami, Alauda Build of DCGM-Exporter и (опционально) Alauda Build of Hami-WebUI можно получить в Customer Portal.
Для получения дополнительной информации обратитесь в Consumer Support.
Примечание: Alauda Build of DCGM-Exporter версии v4.2.3-413, развернутый в глобальном кластере, может приводить к постоянной переустановке компонента. Версия v4.2.3-413-1 устраняет эту проблему, поэтому обязательно используйте именно эту версию.
Загрузка Cluster plugin
Дополнительные сведения о загрузке cluster plugin см. в Загрузка Cluster Plugin
Установка Alauda Build of Hami
-
Добавьте метку "gpu=on" на каждый узел NVIDIA GPU, чтобы
hami-device-plugin(NVIDIA) запускался только там.TIPЭта метка предназначена только для узлов NVIDIA — узлы Ascend используют метку
ascend=on. См. Установка для Huawei Ascend NPU. -
Перейдите на страницу
Administrator->Marketplace->Cluster Plugin, переключитесь на целевой кластер, а затем разверните Cluster pluginAlauda Build of Hami.В форме развертывания оставьте
Enable NVIDIAвключенным. Если кластер не содержит узлов Huawei Ascend NPU, оставьтеEnable Ascendвыключенным. Остальные параметры можно оставить по умолчанию или изменить после того, как вы разберетесь, как их использовать.TIPEnable NVIDIAиEnable Ascendнезависимы друг от друга. Вы можете отключить любой из них, но следует оставить включенным хотя бы один тип устройства. -
Проверьте результат. В UI вы можете увидеть статус "Installed", либо проверить состояние pod:
-
Создайте несколько ConfigMaps, определяющих расширенные ресурсы, которые можно использовать для задания расширенных ресурсов в ACP. Выполните следующий скрипт в вашем gpu cluster:
Нажмите, чтобы развернуть код
После этого Hami появится в выпадающем списке типов расширенных ресурсов на странице конфигурации ресурсов при создании приложения в бизнес-представлении ACP, и вы сможете начать его использовать.
Установка Alauda Build of DCGM-Exporter
-
Перейдите на страницу
Administrator->Marketplace->Cluster Plugin, переключитесь на целевой кластер, а затем разверните Cluster pluginAlauda Build of DCGM-Exporter: Установите метки узла в всплывающей форме:- Node Label Key: gpu
- Node Label Value: on
Если вам нужно включить dcgm-exporter для pgpu, добавьте следующую метку:
- Node Label Key: nvidia-device-enable
- Node Label Value: pgpu
-
Проверьте результат. В UI вы можете увидеть статус "Installed", либо проверить состояние pod:
Установка Monitor
Вы можете использовать ACP MonitorDashboard или сборку Hami-WebUI от Alauda
Установка ACP MonitorDashboard (необязательно)
Создайте ресурс ACP MonitorDashboard для монитора HAMi GPU в панели ACP dashboard.
Сохраните файл hami-vgpu-metrics-dashboard-v1.0.2.yaml в business cluster и выполните команду: kubectl apply -f hami-vgpu-metrics-dashboard-v1.0.2.yaml
Установка Alauda build of Hami-WebUI (необязательно)
Совместимость версий Alauda Build of Hami-WebUI:
v1.10.0совместима с Hamiv2.7иv2.8.v1.5.0несовместима с Hamiv2.8.- При развертывании Hami
v2.8используйтеAlauda Build of Hami-WebUI v1.10.0.
- Перейдите на страницу
Administrator->Marketplace->Cluster Plugin, переключитесь на целевой кластер, а затем разверните Cluster pluginAlauda Build of Hami-WebUI. Укажите адрес Prometheus и аутентификацию Prometheus. Рекомендуется включить доступ через NodePort. Адрес Prometheus и строку auth можно получить с помощью следующего скрипта: - Проверьте результат. В UI вы можете увидеть статус "Installed", либо проверить состояние pod:
Проверка
В этом разделе описано, как убедиться, что установленный Alauda Build of Hami и связанный мониторинг работают корректно.
Проверка Hami
- Проверьте, доступны ли на узле GPU в control node бизнес-кластера выделяемые ресурсы GPU. Выполните следующую команду:
- Разверните demo-экземпляр GPU. Проверьте, есть ли какое-либо потребление ресурсов, связанное с GPU. Выполните следующую команду на узле GPU бизнес-кластера:
Если и sm, и mem содержат данные, GPU готов к использованию. Вы можете начать разработку GPU-приложений на узле GPU. Примечание: при развертывании GPU-приложений обязательно настройте следующие обязательные параметры:
Проверка MonitorDashboard
После того как сервис HAMi vgpu некоторое время поработает, перейдите на страницу Administrator -> Operations Center -> Monitor -> Dashboards и переключитесь на панель HAMi GPU Monitoring в разделе Hami.
Вы увидите соответствующие данные графиков.
Проверка Hami-WebUI
После того как компоненты HAMi-WebUI некоторое время поработают, откройте в браузере http://{business cluster node IP}:NodePort.