• Русский
  • Верификация

    В этой статье описывается, как проверить корректность установленной сборки Hami от Alauda и связанного мониторинга.

    Проверка Hami

    1. Проверьте, есть ли на GPU-узле в управляющем узле бизнес-кластера доступные для выделения GPU-ресурсы.
      Выполните следующую команду:
      kubectl get node  ${nodeName} -o=jsonpath='{.status.allocatable}'
      # В выводе должно содержаться: "nvidia.com/gpualloc":"10" (конкретное значение зависит от количества GPU-карт и параметров установки)
    2. Разверните демонстрационный экземпляр с использованием GPU.
      Проверьте, есть ли потребление ресурсов, связанных с GPU. Выполните следующую команду на GPU-узле бизнес-кластера:
      nvidia-smi pmon -s u -d 1

    Если в полях sm и mem отображаются данные, GPU готов к работе. Вы можете начинать разработку GPU-приложений на GPU-узле.
    Примечание: при развертывании GPU-приложений обязательно настройте следующие обязательные параметры:

    spec:
      containers:
        - image: your-image
          imagePullPolicy: IfNotPresent
          name: gpu
          resources:
            limits:
              cpu: '2'
              memory: 4Gi
              nvidia.com/gpualloc: 1     # Запрос 1 физического GPU (обязательно)
              nvidia.com/gpucores: "50"  # Запрос 50% вычислительных ресурсов на GPU (необязательно)
              nvidia.com/gpumem: 8000    # Запрос 8000 МБ видеопамяти на GPU (необязательно)

    Проверка MonitorDashboard

    После того как сервис HAMi vgpu проработает некоторое время, перейдите на страницу Administrator -> Operations Center -> Monitor -> Dashboards и переключитесь на панель HAMi GPU Monitoring в разделе Hami.
    Вы увидите соответствующие данные на графиках.

    Проверка Hami-WebUI

    После того как компоненты HAMi-WebUI проработают некоторое время, откройте в браузере адрес http://{IP-адрес узла бизнес-кластера}:NodePort.