• Русский
  • Введение

    Мониторинг ресурсов является центральным компонентом модуля Мониторинга и Операций Alauda AI, разработанным специально для отслеживания и анализа метрик использования ресурсов сервисов вывода. Как часть платформы MLOps полного стека, он предоставляет возможность в реальном времени видеть потребление инфраструктурных ресурсов, позволяя пользователям оптимизировать развертывание моделей, предотвращать узкие места в ресурсах и обеспечивать стабильную работу рабочих нагрузок AI. Интегрированный с единой экосистемой мониторинга Alauda AI, Мониторинг ресурсов устраняет необходимость в разрозненных инструментах, предоставляя действенные инсайты непосредственно в рамках вашего рабочего процесса MLOps.

    Содержание

    Преимущества

    Основные преимущества Мониторинга ресурсов следующие:

    • Визуализация метрик в реальном времени
      Предоставляет интуитивно понятные панели управления с детальными данными о использовании CPU/памяти, обновляемыми почти в реальном времени, поддерживая мониторинг как на уровне кластера, так и на уровне подов для точного анализа ресурсов.

    • Интеграция, ориентированная на MLOps
      Бесшовно сопоставляет метрики ресурсов с другими операционными данными (использование GPU, трафик запросов и т. д.) в рамках платформы Alauda AI, что позволяет эффективно устранять проблемы с производительностью.

    • Инсайты по оптимизации затрат
      Определяет недоиспользуемые ресурсы и перераспределенные контейнеры через анализ исторических тенденций.

    Сценарии применения

    Ключевые сценарии применения Мониторинга ресурсов включают:

    • Управление здоровьем сервисов вывода
      Непрерывно отслеживайте пики потребления CPU/памяти во время пиковых нагрузок на модели, чтобы обеспечить соблюдение SLA и эффективность авто-масштабирования.

    • Настройка распределения ресурсов
      Анализируйте исторические модели использования, чтобы правильно настроить запросы/лимиты ресурсов контейнеров, увеличивая эффективность использования кластера.

    • Расследование аномалий производительности
      Кросс-ссылайте метрики ресурсов с журналами приложений и данными трафика запросов во время диагностики инцидентов для определения причинно-следственных связей.

    • Планирование мощностей
      Прогнозируйте потребности в инфраструктуре, отслеживая долгосрочные тенденции использования и сезонные изменения нагрузки.

    Ограничения использования

    При использовании Мониторинга ресурсов обратите внимание на следующие ограничения:

    • Интервалы сбора данных

      • Минимальный интервал сбора метрик: 60 секунд
      • Хранение исторических данных: по умолчанию 7 дней
    • Требования к зависимостям

      • Требуется стек мониторинга Prometheus/VictoriaMetrics, развернутый в целевых кластерах
      • Экспортёр узлов должен работать на всех рабочих узлах
      • Экспортёр DCGM должен работать на узлах GPU