• Русский
  • Установка

    Содержание

    Предварительные требования

    • Доступ администратора к вашему ACP кластеру
    • Драйвер Nvidia: версия v450 и выше
    • Версия ACP: v3.18, v4.0, v4.1

    Процедура

    Установка драйвера Nvidia на вашем GPU узле

    Рекомендуется использовать Руководство по установке с официального сайта Nvidia

    Установка Nvidia Container Runtime

    Рекомендуется использовать Руководство по установке Nvidia Container Toolkit

    Добавление yum-репозитория Nvidia на GPU узле

    Примечание: Убедитесь, что GPU узел имеет доступ к nvidia.github.io

    distribution=$(. /etc/os-release;echo $ID$VERSION_ID) && curl -s -L https://nvidia.github.io/libnvidia-container/$distribution/libnvidia-container.repo | sudo tee /etc/yum.repos.d/nvidia-container-toolkit.repo
    yum makecache -y

    Когда появится сообщение "Metadata cache created.", это означает, что добавление прошло успешно.

    Установка Nvidia Container Runtime

    yum install nvidia-container-toolkit -y

    Когда появится сообщение "Complete!", установка прошла успешно.

    Загрузка плагина кластера

    INFO

    Плагин кластера Alauda Build of NVIDIA GPU Device Plugin можно получить через Customer Portal.

    Для получения дополнительной информации обратитесь в Consumer Support.

    Загрузка плагина кластера

    Для получения дополнительной информации о загрузке плагина кластера, пожалуйста, обратитесь к

    Установка Alauda Build of NVIDIA GPU Device Plugin

    1. Добавьте метку "nvidia-device-enable=pgpu" на вашем GPU узле для планирования nvidia-device-plugin.

      kubectl label nodes {nodeid} nvidia-device-enable=pgpu

      Примечание: На одном узле не могут одновременно присутствовать метки gpu=on и nvidia-device-enable=pgpu

    2. Перейдите на страницу Administrator -> Marketplace -> Cluster Plugin, выберите целевой кластер и разверните плагин кластера Alauda Build of NVIDIA GPU Device Plugin. Примечание: Параметры формы развертывания можно оставить по умолчанию или изменить после ознакомления с их использованием.

    3. Проверьте результат. В UI должен отображаться статус "Installed" или можно проверить статус pod:

      kubectl get pods -n kube-system | grep  "nvidia-device-plugin"
    4. В конце вы увидите Extended Resources в виде ресурсов при создании приложения в ACP, где сможете выбрать GPU core.

    Установка Alauda Build of DCGM-Exporter

    1. Перейдите на страницу Administrator -> Marketplace -> Cluster Plugin, выберите целевой кластер и разверните плагин кластера Alauda Build of DCGM-Exporter: Установите метки узлов в появившейся форме:
    • Ключ метки узла: nvidia-device-enable
    • Значение метки узла: pgpu

    Если необходимо включить dcgm-exporter для Hami, можно добавить дополнительные метки:

    • Ключ метки узла: gpu
    • Значение метки узла: on
    1. Проверьте результат. В UI должен отображаться статус "Installed" или можно проверить статус pod:
      kubectl get pods -n kube-system | grep dcgm-exporter