验证
本文介绍如何验证已安装的 Alauda Build 版本的 NVIDIA GPU Device Plugin 及相关监控是否有效。
目录
验证 Alauda Build 版本的 NVIDIA GPU Device Plugin
- 在业务集群的控制节点上,检查 GPU 节点是否存在可分配的 GPU 资源。
运行以下命令:
kubectl get node ${nodeName} -o=jsonpath='{.status.allocatable}'
# 输出中包含: "nvidia.com/gpu":"1"(具体数值取决于 GPU 卡的数量)
- 部署一个 GPU 示例实例。
检查是否有任何与 GPU 相关的资源消耗。在业务集群的 GPU 节点上运行以下命令:
nvidia-smi pmon -s u -d 1
如果 sm 和 mem 都包含数据,则 GPU 已准备就绪。您可以开始在 GPU 节点上开发 GPU 应用。
注意:部署 GPU 应用时,务必配置以下必填参数:
spec:
containers:
- image: your-image
imagePullPolicy: IfNotPresent
name: gpu
resources:
limits:
cpu: '2'
memory: 4Gi
nvidia.com/gpu: 1 # 请求 1 个物理 GPU(必填)
验证 GPU 图表
在 HAMi vgpu 服务运行一段时间后,进入 Administrator
-> Operations Center
-> Monitor
-> Dashboards
页面,切换到 GPU
下的 node
和 pod
图表。
您将看到相关的监控数据。