• Русский
  • Введение

    Resource Monitoring — это ключевой компонент модуля Monitoring & Ops в Alauda AI, разработанный специально для отслеживания и анализа метрик использования ресурсов сервисов инференса. В составе полнофункциональной платформы MLOps он обеспечивает видимость потребления инфраструктурных ресурсов в режиме реального времени, позволяя пользователям оптимизировать развертывание моделей, предотвращать узкие места в ресурсах и обеспечивать стабильную работу AI-нагрузок. Интегрированный с единой системой мониторинга Alauda AI, Resource Monitoring устраняет необходимость в разрозненных инструментах, предоставляя практические рекомендации непосредственно в вашем MLOps-рабочем процессе.

    Ограничения по использованию

    При использовании Resource Monitoring учитывайте следующие ограничения:

    • Интервалы сбора данных

      • Минимальный интервал опроса метрик: 60 секунд
      • Хранение исторических данных: по умолчанию 7 дней
    • Требования к зависимостям

      • Требуется стек мониторинга Prometheus/VictoriaMetrics, развернутый в целевых кластерах
      • Node exporter должен работать на всех рабочих узлах
      • DCGM exporter должен работать на GPU-узлах