Мониторинг ресурсов — это ключевой компонент Kubernetes Hardware Accelerator Suite, предназначенный для обеспечения всесторонней видимости использования GPU-ресурсов в ваших контейнеризованных рабочих нагрузках. Этот модуль предоставляет как использование вычислительных ресурсов, так и потребление памяти GPU на двух основных уровнях:
Мониторинг ресурсов — это ключевой компонент Kubernetes Hardware Accelerator Suite, предназначенный для обеспечения всесторонней видимости использования GPU-ресурсов в ваших контейнеризованных рабочих нагрузках. Этот модуль предоставляет как использование вычислительных ресурсов, так и потребление памяти GPU на двух основных уровнях:
Интегрированный с основными модулями платформы для ускорителей (pGPU/vGPU(GPU-Manager)/MPS), этот инструмент мониторинга позволяет пользователям оптимизировать распределение GPU, обеспечивать соблюдение квот ресурсов и устранять узкие места в производительности AI/ML нагрузок, сервисов реального времени и т.д.
Основные преимущества мониторинга ресурсов заключаются в следующем:
Многомерная наблюдаемость
Одновременный мониторинг как вычислительных блоков (CUDA-ядер), так и использования памяти на физических и виртуальных GPU, обеспечивающий комплексное понимание паттернов использования ускорителей.
Иерархический сбор метрик
Сбор данных как на уровне узла, так и на уровне пода, что позволяет сопоставлять общекластерные тенденции использования ресурсов с требованиями отдельных рабочих нагрузок.
Нативная интеграция
Бесшовная работа со всеми модулями ускорителей (pGPU/vGPU/MPS) без необходимости установки дополнительных агентов, используя нативные Kubernetes-пайплайны метрик.
Исторический анализ
Хранение метрик GPU с настраиваемыми периодами хранения (по умолчанию 7 дней) для планирования емкости и анализа паттернов использования с помощью встроенных инструментов визуализации.
Основные сценарии применения мониторинга ресурсов включают:
Оптимизация производительности
Выявление недоиспользуемых GPU в кластерах для обучения и корректировка запросов ресурсов для deep learning нагрузок. Например, обнаружение подов, которые постоянно используют менее <30% выделенной памяти GPU, для оптимизации распределения памяти.
Управление мультиарендностью
Обеспечение соблюдения квот GPU в совместных средах путем мониторинга потребления vGPU по командам. Отслеживание суммарного использования в сравнении с выделенными квотами в развертываниях AI платформ.
Распределение затрат
Формирование отчетов по использованию GPU на уровне namespace для моделей chargeback/showback в корпоративных Kubernetes-средах с сопоставлением метрик подов с организационными единицами.
Диагностика сбоев
Исследование инцидентов OOM (Out-of-Memory) в нагрузках с ускорением на GPU путем анализа тенденций использования памяти перед аварийным завершением контейнеров. Кросс-ссылка с событиями Kubernetes для выявления первопричин.
Планирование емкости
Анализ исторических паттернов использования GPU (например, периоды пикового спроса на вычисления) для принятия решений по масштабированию инфраструктуры и распределению бюджета на AI-инфраструктуру.
При использовании мониторинга ресурсов обратите внимание на следующие ограничения: