Введение
Resource Monitoring — это ключевой компонент модуля Monitoring & Ops в Alauda AI, разработанный специально для отслеживания и анализа метрик использования ресурсов сервисов инференса. В составе полнофункциональной платформы MLOps он обеспечивает видимость потребления инфраструктурных ресурсов в режиме реального времени, позволяя пользователям оптимизировать развертывание моделей, предотвращать узкие места в ресурсах и обеспечивать стабильную работу AI-нагрузок. Интегрированный с единой системой мониторинга Alauda AI, Resource Monitoring устраняет необходимость в разрозненных инструментах, предоставляя практические рекомендации непосредственно в вашем MLOps-рабочем процессе.
Содержание
Ограничения по использованиюОграничения по использованию
При использовании Resource Monitoring учитывайте следующие ограничения:
-
Интервалы сбора данных
- Минимальный интервал опроса метрик: 60 секунд
- Хранение исторических данных: по умолчанию 7 дней
-
Требования к зависимостям
- Требуется стек мониторинга Prometheus/VictoriaMetrics, развернутый в целевых кластерах
- Node exporter должен работать на всех рабочих узлах
- DCGM exporter должен работать на GPU-узлах