Alauda Build of NVIDIA GPU Device Plugin

简体中文

验证

本文介绍如何验证已安装的 Alauda Build 版本的 NVIDIA GPU Device Plugin 及相关监控是否有效。

目录

验证 Alauda Build 版本的 NVIDIA GPU Device Plugin

在业务集群的控制节点上，检查 GPU 节点是否存在可分配的 GPU 资源。运行以下命令：

kubectl get node  ${nodeName} -o=jsonpath='{.status.allocatable}'
# 输出中包含: "nvidia.com/gpu":"1"（具体数值取决于 GPU 卡的数量）

部署一个 GPU 示例实例。检查是否有任何与 GPU 相关的资源消耗。在业务集群的 GPU 节点上运行以下命令：
```
nvidia-smi pmon -s u -d 1
```

如果 sm 和 mem 都包含数据，则 GPU 已准备就绪。您可以开始在 GPU 节点上开发 GPU 应用。注意：部署 GPU 应用时，务必配置以下必填参数：

spec:
  containers:
    - image: your-image
      imagePullPolicy: IfNotPresent
      name: gpu
      resources:
        limits:
          cpu: '2'
          memory: 4Gi
          nvidia.com/gpu: 1 # 请求 1 个物理 GPU（必填）

验证 GPU 图表

在 HAMi vgpu 服务运行一段时间后，进入 Administrator -> Operations Center -> Monitor -> Dashboards 页面，切换到 GPU 下的 node 和 pod 图表。您将看到相关的监控数据。