logo
Alauda AI
English
Русский
English
Русский
logo
Alauda AI
Навигация

Обзор

Введение
Быстрый старт
Примечания к выпуску

Установка

Предварительная настройка
Установка Alauda AI Essentials
Установка Alauda AI

Обновление

Обновление с AI 1.3

Удаление

Удаление

Управление инфраструктурой

Управление устройствами

О Alauda Build of Hami
О плагине устройства NVIDIA GPU от Alauda Build

Мультиарендность

Руководства

Управление пространствами имён

Рабочее пространство

Обзор

Введение
Установка
Обновление

Как сделать

Создание WorkspaceKind
Создание Workbench

Развертывание модели и вывод

Обзор

Введение
Features

Сервис вывода

Введение

Руководства

Inference Service

Как сделать

Extend Inference Runtimes
Configure External Access for Inference Services
Configure Scaling for Inference Services

Устранение неполадок

Проблемы с таймаутами сервиса инференса при использовании MLServer Runtime
Служба инференса не переходит в состояние Running

Управление моделями

Введение

Руководства

Model Repository

Мониторинг и операции

Обзор

Введение
Features Overview

Ведение журналов и трассировка

Введение

Руководства

Логирование

Мониторинг ресурсов

Введение

Руководства

Мониторинг ресурсов

Справочник API

Введение

Kubernetes APIs

Inference Service APIs

ClusterServingRuntime [serving.kserve.io/v1alpha1]
InferenceService [serving.kserve.io/v1beta1]

Workbench APIs

Workspace Kind [kubeflow.org/v1beta1]
Workspace [kubeflow.org/v1beta1]

Manage APIs

AmlNamespace [manage.aml.dev/v1alpha1]

Operator APIs

AmlCluster [amlclusters.aml.dev/v1alpha1]
Глоссарий
Предыдущая страницаМониторинг ресурсов
Следующая страницаРуководства

#Введение

Resource Monitoring — это ключевой компонент модуля Monitoring & Ops в Alauda AI, разработанный специально для отслеживания и анализа метрик использования ресурсов сервисов инференса. В составе полнофункциональной платформы MLOps он обеспечивает видимость потребления инфраструктурных ресурсов в режиме реального времени, позволяя пользователям оптимизировать развертывание моделей, предотвращать узкие места в ресурсах и обеспечивать стабильную работу AI-нагрузок. Интегрированный с единой системой мониторинга Alauda AI, Resource Monitoring устраняет необходимость в разрозненных инструментах, предоставляя практические рекомендации непосредственно в вашем MLOps-рабочем процессе.

#Содержание

#Ограничения по использованию

При использовании Resource Monitoring учитывайте следующие ограничения:

  • Интервалы сбора данных

    • Минимальный интервал опроса метрик: 60 секунд
    • Хранение исторических данных: по умолчанию 7 дней
  • Требования к зависимостям

    • Требуется стек мониторинга Prometheus/VictoriaMetrics, развернутый в целевых кластерах
    • Node exporter должен работать на всех рабочих узлах
    • DCGM exporter должен работать на GPU-узлах