• Русский
  • Установка

    Предварительные требования

    • Доступ администратора к вашему кластеру ACP
    • NvidiaDriver: v450+
    • Версия ACP: v3.18,v4.0,v4.1

    Процедура

    Установка драйвера Nvidia на вашем GPU-узле

    Рекомендуется воспользоваться руководством по установке на официальном сайте Nvidia

    Установка Nvidia Container Runtime

    Рекомендуется воспользоваться руководством по установке Nvidia Container Toolkit

    Добавление библиотеки yum Nvidia на GPU-узле

    Примечание: убедитесь, что GPU-узел может получить доступ к nvidia.github.io

    distribution=$(. /etc/os-release;echo $ID$VERSION_ID) && curl -s -L https://nvidia.github.io/libnvidia-container/$distribution/libnvidia-container.repo | sudo tee /etc/yum.repos.d/nvidia-container-toolkit.repo
    yum makecache -y

    Когда появляется сообщение "Metadata cache created.", это означает, что добавление выполнено успешно.

    Установка Nvidia Container Runtime

    yum install nvidia-container-toolkit -y

    Когда появляется сообщение "Complete!", это означает, что установка выполнена успешно.

    Настройка containerd для использования Nvidia Container Runtime

    nvidia-ctk runtime configure --runtime=containerd
    systemctl restart containerd

    Загрузка Cluster plugin

    INFO

    Кластерный плагин Alauda Build of NVIDIA GPU Device Plugin можно получить в Customer Portal.

    Для получения дополнительной информации обратитесь в Consumer Support.

    Загрузка Cluster plugin

    Для получения дополнительной информации о загрузке кластерного плагина см. Загрузка Cluster Plugins

    Установка Alauda Build of NVIDIA GPU Device Plugin

    1. Добавьте метку "nvidia-device-enable=pgpu" на GPU-узле для планирования nvidia-device-plugin.

      kubectl label nodes {nodeid} nvidia-device-enable=pgpu

      Примечание: на одном и том же узле не могут одновременно присутствовать метки gpu=on и nvidia-device-enable=pgpu.

    2. Перейдите на страницу Administrator -> Marketplace -> Cluster Plugin, переключитесь на целевой кластер, а затем разверните кластерный плагин Alauda Build of NVIDIA GPU Device Plugin. Примечание: параметры формы развертывания можно оставить по умолчанию или изменить после того, как вы разберетесь, как их использовать.

    3. Проверьте результат. Вы можете увидеть статус "Installed" в UI или проверить состояние pod:

      kubectl get pods -n kube-system | grep  "nvidia-device-plugin"
    4. Наконец, при создании приложения в ACP вы сможете увидеть Extended Resources в форме ресурсов и затем выбрать GPU core.

    Установка Alauda Build of DCGM-Exporter

    1. Перейдите на страницу Administrator -> Marketplace -> Cluster Plugin, переключитесь на целевой кластер, а затем разверните кластерный плагин Alauda Build of DCGM-Exporter: Задайте метки узла во всплывающей форме:

      • Ключ метки узла: nvidia-device-enable
      • Значение метки узла: pgpu

      Если вам нужно включить dcgm-exporter для Hami, можно добавить еще одну метку:

      • Ключ метки узла: gpu
      • Значение метки узла: on
    2. Проверьте результат. Вы можете увидеть статус "Installed" в UI или проверить состояние pod:

      kubectl get pods -n kube-system | grep dcgm-exporter