• Русский
  • Введение

    Содержание

    Введение в мониторинг ресурсов

    Мониторинг ресурсов — это ключевой компонент Kubernetes Hardware Accelerator Suite, предназначенный для обеспечения всесторонней видимости использования GPU-ресурсов в ваших контейнеризованных рабочих нагрузках. Этот модуль предоставляет как использование вычислительных ресурсов, так и потребление памяти GPU на двух основных уровнях:

    Мониторинг ресурсов — это ключевой компонент Kubernetes Hardware Accelerator Suite, предназначенный для обеспечения всесторонней видимости использования GPU-ресурсов в ваших контейнеризованных рабочих нагрузках. Этот модуль предоставляет как использование вычислительных ресурсов, так и потребление памяти GPU на двух основных уровнях:

    • Мониторинг на уровне узла: отслеживание совокупного использования GPU-ресурсов на всех узлах Kubernetes
    • Мониторинг на уровне пода: анализ потребления GPU по отдельным рабочим нагрузкам с детализацией по подам

    Интегрированный с основными модулями платформы для ускорителей (pGPU/vGPU(GPU-Manager)/MPS), этот инструмент мониторинга позволяет пользователям оптимизировать распределение GPU, обеспечивать соблюдение квот ресурсов и устранять узкие места в производительности AI/ML нагрузок, сервисов реального времени и т.д.

    Преимущества

    Основные преимущества мониторинга ресурсов заключаются в следующем:

    • Многомерная наблюдаемость

      Одновременный мониторинг как вычислительных блоков (CUDA-ядер), так и использования памяти на физических и виртуальных GPU, обеспечивающий комплексное понимание паттернов использования ускорителей.

    • Иерархический сбор метрик

      Сбор данных как на уровне узла, так и на уровне пода, что позволяет сопоставлять общекластерные тенденции использования ресурсов с требованиями отдельных рабочих нагрузок.

    • Нативная интеграция

      Бесшовная работа со всеми модулями ускорителей (pGPU/vGPU/MPS) без необходимости установки дополнительных агентов, используя нативные Kubernetes-пайплайны метрик.

    • Исторический анализ

      Хранение метрик GPU с настраиваемыми периодами хранения (по умолчанию 7 дней) для планирования емкости и анализа паттернов использования с помощью встроенных инструментов визуализации.

    Сценарии применения

    Основные сценарии применения мониторинга ресурсов включают:

    • Оптимизация производительности

      Выявление недоиспользуемых GPU в кластерах для обучения и корректировка запросов ресурсов для deep learning нагрузок. Например, обнаружение подов, которые постоянно используют менее <30% выделенной памяти GPU, для оптимизации распределения памяти.

    • Управление мультиарендностью

      Обеспечение соблюдения квот GPU в совместных средах путем мониторинга потребления vGPU по командам. Отслеживание суммарного использования в сравнении с выделенными квотами в развертываниях AI платформ.

    • Распределение затрат

      Формирование отчетов по использованию GPU на уровне namespace для моделей chargeback/showback в корпоративных Kubernetes-средах с сопоставлением метрик подов с организационными единицами.

    • Диагностика сбоев

      Исследование инцидентов OOM (Out-of-Memory) в нагрузках с ускорением на GPU путем анализа тенденций использования памяти перед аварийным завершением контейнеров. Кросс-ссылка с событиями Kubernetes для выявления первопричин.

    • Планирование емкости

      Анализ исторических паттернов использования GPU (например, периоды пикового спроса на вычисления) для принятия решений по масштабированию инфраструктуры и распределению бюджета на AI-инфраструктуру.

    Ограничения использования

    При использовании мониторинга ресурсов обратите внимание на следующие ограничения:

    • Зависимости модулей
      • Требуется развертывание как минимум одного модуля ускорителя (pGPU/vGPU/MPS) в кластере