Русский

Введение

Resource Monitoring — это ключевой компонент модуля Monitoring & Ops в Alauda AI, разработанный специально для отслеживания и анализа метрик использования ресурсов сервисов инференса. В составе полнофункциональной платформы MLOps он обеспечивает видимость потребления инфраструктурных ресурсов в режиме реального времени, позволяя пользователям оптимизировать развертывание моделей, предотвращать узкие места в ресурсах и обеспечивать стабильную работу AI-нагрузок. Интегрированный с единой системой мониторинга Alauda AI, Resource Monitoring устраняет необходимость в разрозненных инструментах, предоставляя практические рекомендации непосредственно в вашем MLOps-рабочем процессе.

Содержание

Ограничения по использованию

При использовании Resource Monitoring учитывайте следующие ограничения:

Интервалы сбора данных
- Минимальный интервал опроса метрик: 60 секунд
- Хранение исторических данных: по умолчанию 7 дней
Требования к зависимостям
- Требуется стек мониторинга Prometheus/VictoriaMetrics, развернутый в целевых кластерах
- Node exporter должен работать на всех рабочих узлах
- DCGM exporter должен работать на GPU-узлах

Руководства

Руководства

Как сделать

Устранение неполадок

Руководства

Руководства

Руководства

Inference Service APIs

Workbench APIs

Manage APIs

Operator APIs

Введение

Содержание

Ограничения по использованию

Введение

Содержание

Ограничения по использованию

Руководства

Руководства

Как сделать

Устранение неполадок

Руководства

Руководства

Руководства

Inference Service APIs

Workbench APIs

Manage APIs

Operator APIs

#Введение

#Содержание

#Ограничения по использованию

#Введение

#Содержание

#Ограничения по использованию

Введение

Содержание

Ограничения по использованию

Введение

Содержание

Ограничения по использованию