• Русский
  • Проверка

    В этой статье описывается, как проверить корректность установленной сборки Alauda Build NVIDIA GPU Device Plugin и связанного мониторинга.

    Содержание

    Проверка сборки Alauda Build NVIDIA GPU Device Plugin

    1. Проверьте, есть ли доступные для выделения GPU-ресурсы на GPU-узле в управляющем узле бизнес-кластера. Выполните следующую команду:
      kubectl get node  ${nodeName} -o=jsonpath='{.status.allocatable}'
      # В выводе должно содержаться: "nvidia.com/gpu":"1" (конкретное значение зависит от количества GPU-карт)
    2. Разверните демонстрационный экземпляр с использованием GPU. Проверьте, есть ли потребление ресурсов, связанных с GPU. Выполните следующую команду на GPU-узле бизнес-кластера:
      nvidia-smi pmon -s u -d 1

    Если в полях sm и mem есть данные, GPU готов к работе. Вы можете начать разработку GPU-приложений на GPU-узле. Примечание: при развертывании GPU-приложений обязательно настройте следующие обязательные параметры:

    spec:
      containers:
        - image: your-image
          imagePullPolicy: IfNotPresent
          name: gpu
          resources:
            limits:
              cpu: '2'
              memory: 4Gi
              nvidia.com/gpu: 1 # Запрос 1 физического GPU (обязательно)

    Проверка GPU Dashboard

    После того как сервис HAMi vgpu проработает некоторое время, перейдите на страницу Administrator -> Operations Center -> Monitor -> Dashboards и переключитесь на панели node и pod в разделе GPU. Вы увидите соответствующие данные мониторинга.