logo
Alauda AI
English
Русский
English
Русский
logo
Alauda AI
Навигация

Обзор

Введение
Быстрый старт
Примечания к выпуску

Установка

Предварительная настройка
Установка Alauda AI Essentials
Установка Alauda AI

Обновление

Обновление с AI 1.3

Удаление

Удаление

Управление инфраструктурой

Управление устройствами

О Alauda Build of Hami
О плагине устройства NVIDIA GPU от Alauda Build

Мультиарендность

Руководства

Управление пространствами имён

Рабочее пространство

Обзор

Введение
Установка
Обновление

Как сделать

Создание WorkspaceKind
Создание Workbench

Развертывание модели и вывод

Обзор

Введение
Features

Сервис вывода

Введение

Руководства

Inference Service

Как сделать

Extend Inference Runtimes
Configure External Access for Inference Services
Configure Scaling for Inference Services

Устранение неполадок

Проблемы с таймаутами сервиса инференса при использовании MLServer Runtime
Служба инференса не переходит в состояние Running

Управление моделями

Введение

Руководства

Model Repository

Мониторинг и операции

Обзор

Введение
Features Overview

Ведение журналов и трассировка

Введение

Руководства

Логирование

Мониторинг ресурсов

Введение

Руководства

Мониторинг ресурсов

Справочник API

Введение

Kubernetes APIs

Inference Service APIs

ClusterServingRuntime [serving.kserve.io/v1alpha1]
InferenceService [serving.kserve.io/v1beta1]

Workbench APIs

Workspace Kind [kubeflow.org/v1beta1]
Workspace [kubeflow.org/v1beta1]

Manage APIs

AmlNamespace [manage.aml.dev/v1alpha1]

Operator APIs

AmlCluster [amlclusters.aml.dev/v1alpha1]
Глоссарий
Предыдущая страницаОбзор
Следующая страницаFeatures Overview

#Введение

#Содержание

#Введение в Monitoring & Ops

Monitoring & Ops — это основной модуль платформы Alauda AI, специально разработанный для эксплуатации сервисов AI inference. Он обеспечивает всестороннюю наблюдаемость и операционные возможности на протяжении всего жизненного цикла сервисов inference, позволяя осуществлять единое управление логами и многомерными метриками через интегрированные панели мониторинга. Будучи ключевым компонентом решений Alauda AI в области MLOps/LLMOps/GenOps, он помогает командам обеспечивать надежность сервисов, оптимизировать использование ресурсов и ускорять реагирование на инциденты.

Этот модуль сосредоточен на двух основных аспектах эксплуатации:

  • Logging: потоковая передача логов реплик pod сервисов inference в реальном времени
  • Monitor: многомерные панели производительности, охватывающие инфраструктуру, GPU-ресурсы и API-трафик