Русский

Введение

Содержание

Введение в мониторинг ресурсов

Мониторинг ресурсов — это ключевой компонент Kubernetes Hardware Accelerator Suite, предназначенный для обеспечения всесторонней видимости использования GPU-ресурсов в ваших контейнеризованных рабочих нагрузках. Этот модуль предоставляет как использование вычислительных ресурсов, так и потребление памяти GPU на двух основных уровнях:

Мониторинг на уровне узла: отслеживание совокупного использования GPU-ресурсов на всех узлах Kubernetes
Мониторинг на уровне пода: анализ потребления GPU по отдельным рабочим нагрузкам с детализацией по подам

Интегрированный с основными модулями платформы для ускорителей (pGPU/vGPU(GPU-Manager)/MPS), этот инструмент мониторинга позволяет пользователям оптимизировать распределение GPU, обеспечивать соблюдение квот ресурсов и устранять узкие места в производительности AI/ML нагрузок, сервисов реального времени и т.д.

Преимущества

Основные преимущества мониторинга ресурсов заключаются в следующем:

Многомерная наблюдаемость

Одновременный мониторинг как вычислительных блоков (CUDA-ядер), так и использования памяти на физических и виртуальных GPU, обеспечивающий комплексное понимание паттернов использования ускорителей.
Иерархический сбор метрик

Сбор данных как на уровне узла, так и на уровне пода, что позволяет сопоставлять общекластерные тенденции использования ресурсов с требованиями отдельных рабочих нагрузок.
Нативная интеграция

Бесшовная работа со всеми модулями ускорителей (pGPU/vGPU/MPS) без необходимости установки дополнительных агентов, используя нативные Kubernetes-пайплайны метрик.
Исторический анализ

Хранение метрик GPU с настраиваемыми периодами хранения (по умолчанию 7 дней) для планирования емкости и анализа паттернов использования с помощью встроенных инструментов визуализации.

Сценарии применения

Основные сценарии применения мониторинга ресурсов включают:

Оптимизация производительности

Выявление недоиспользуемых GPU в кластерах для обучения и корректировка запросов ресурсов для deep learning нагрузок. Например, обнаружение подов, которые постоянно используют менее <30% выделенной памяти GPU, для оптимизации распределения памяти.
Управление мультиарендностью

Обеспечение соблюдения квот GPU в совместных средах путем мониторинга потребления vGPU по командам. Отслеживание суммарного использования в сравнении с выделенными квотами в развертываниях AI платформ.
Распределение затрат

Формирование отчетов по использованию GPU на уровне namespace для моделей chargeback/showback в корпоративных Kubernetes-средах с сопоставлением метрик подов с организационными единицами.
Диагностика сбоев

Исследование инцидентов OOM (Out-of-Memory) в нагрузках с ускорением на GPU путем анализа тенденций использования памяти перед аварийным завершением контейнеров. Кросс-ссылка с событиями Kubernetes для выявления первопричин.
Планирование емкости

Анализ исторических паттернов использования GPU (например, периоды пикового спроса на вычисления) для принятия решений по масштабированию инфраструктуры и распределению бюджета на AI-инфраструктуру.

Ограничения использования

При использовании мониторинга ресурсов обратите внимание на следующие ограничения:

Зависимости модулей
- Требуется развертывание как минимум одного модуля ускорителя (pGPU/vGPU/MPS) в кластере

Просмотреть полную документацию в формате PDF

Как сделать

Архитектура

Основные понятия

Руководства

Как сделать

Устранение неполадок

Основные понятия

Руководства

Как сделать

Устранение неполадок

Установка

Основные понятия

Руководства

Как сделать

Восстановление после сбоев

Основные понятия

Руководства

Как сделать

Руководства

Соответствие требованиям

Установка

API Refiner

Пользователь

Руководства

Группа

Руководства

Роль

Руководства

IDP

Руководства

Устранение неполадок

Политика пользователя

Руководства

Обзор

Образы

Руководства

Как сделать

Виртуальная машина

Руководства

Как сделать

Устранение неполадок

Сеть

Руководства

Как сделать

Хранение данных

Руководства

Резервное копирование и восстановление

Руководства

Основные понятия

Основные понятия

Руководства

Пространства имён

Подготовка перед созданием приложения

Создание приложений

Конфигурация после создания приложения

Эксплуатация и сопровождение

Наблюдаемость приложений

Рабочие нагрузки

Pod

Контейнер

Как сделать

Установка

Руководство пользователя

Установка

Руководства

Как сделать

Основные понятия

Руководства

Концепция Argo CD

Концепции GitOps в Alauda Container Platform

Создание GitOps приложения

Наблюдаемость GitOps

Архитектура

Руководства

Как сделать

Руководства

Как сделать

Устранение неполадок

Архитектура

Руководства