建议参考 Nvidia 官方网站安装指南
建议参考 Nvidia Container Toolkit 安装指南
注意:确保 GPU 节点可以访问 nvidia.github.io
当出现“Metadata cache created.”消息时,表示添加成功。
当提示“Complete!”时,表示安装成功。
在已安装 nvidia-container-toolkit 并需要使用当前插件的 GPU 节点上,需要配置默认容器运行时。
将以下配置添加到文件中:
/etc/containerd/config.toml
文件,检查是否存在 nvidia runtime,然后将 default_runtime_name 更新为 nvidia
。
/etc/docker/daemon.json
文件:
Containerd
Docker
Alauda Build of NVIDIA GPU Device Plugin
集群插件可从 customer portal 获取。
如需更多信息,请联系消费者支持。
有关上传集群插件的更多信息,请参见
在您的 GPU 节点添加标签 "nvidia-device-enable=pgpu",以便调度 nvidia-device-plugin。
注意:同一节点不能同时拥有 gpu=on
和 nvidia-device-enable=pgpu
两个标签
进入 Administrator
-> Marketplace
-> Cluster Plugin
页面,切换到目标集群,然后部署 Alauda Build of NVIDIA GPU Device Plugin
集群插件。
注意:部署表单参数可以保持默认,也可以在了解用法后进行修改。
验证结果。您可以在 UI 中看到状态为“Installed”,或者通过以下命令检查 pod 状态:
最后,您可以在 ACP 创建应用时看到以资源形式展示的 Extended Resources
,然后可以选择 GPU core
。
Administrator
-> Marketplace
-> Cluster Plugin
页面,切换到目标集群,然后部署 Alauda Build of DCGM-Exporter
集群插件:
在弹出表单中设置节点标签:如果需要为 Hami 启用 dcgm-exporter,可以添加另一个标签: