logo
Alauda AI
English
Русский
English
Русский
logo
Alauda AI
Навигация

Обзор

Введение
Быстрый старт
Примечания к выпуску

Установка

Предварительная настройка
Установка Alauda AI Essentials
Установка Alauda AI

Обновление

Обновление с AI 1.3

Удаление

Удаление

Управление инфраструктурой

Управление устройствами

О Alauda Build of Hami
О плагине устройства NVIDIA GPU от Alauda Build

Мультиарендность

Руководства

Управление пространствами имён

Рабочее пространство

Обзор

Введение
Установка
Обновление

Как сделать

Создание WorkspaceKind
Создание Workbench

Развертывание модели и вывод

Обзор

Введение
Features

Сервис вывода

Введение

Руководства

Inference Service

Как сделать

Extend Inference Runtimes
Configure External Access for Inference Services
Configure Scaling for Inference Services

Устранение неполадок

Проблемы с таймаутами сервиса инференса при использовании MLServer Runtime
Служба инференса не переходит в состояние Running

Управление моделями

Введение

Руководства

Model Repository

Мониторинг и операции

Обзор

Введение
Features Overview

Ведение журналов и трассировка

Введение

Руководства

Логирование

Мониторинг ресурсов

Введение

Руководства

Мониторинг ресурсов

Справочник API

Введение

Kubernetes APIs

Inference Service APIs

ClusterServingRuntime [serving.kserve.io/v1alpha1]
InferenceService [serving.kserve.io/v1beta1]

Workbench APIs

Workspace Kind [kubeflow.org/v1beta1]
Workspace [kubeflow.org/v1beta1]

Manage APIs

AmlNamespace [manage.aml.dev/v1alpha1]

Operator APIs

AmlCluster [amlclusters.aml.dev/v1alpha1]
Глоссарий
Предыдущая страницаВведение
Следующая страницаВедение журналов и трассировка
TIP

Изучите ключевые возможности модуля Monitoring & Ops, разработанного для Inference Services. Этот обзор представляет основные функции, которые помогут пользователям эффективно контролировать, анализировать и оптимизировать работу AI-сервисов.

#Features Overview

#Содержание

#Logging

  • Realtime Pod Logs
    Потоковая передача логов с Replica pod, связанных с inference services, в режиме реального времени. Мгновенная отладка проблем и отслеживание поведения сервиса в различных развертываниях.

#Monitoring

#Resource Monitor

  • CPU/Memory Utilization
    Отслеживание метрик использования CPU и памяти для inference services с целью оптимизации распределения ресурсов и предотвращения узких мест.

#Computing Monitor

  • GPU Metrics & VRAM
    Мониторинг использования GPU и видеопамяти (VRAM) для обеспечения эффективного использования оборудования при ускоренных вычислениях.

#Other Monitor

  • Token Throughput
    Измерение скорости обработки токенов для оценки производительности и масштабируемости модели.
  • Request Traffic Analytics
    Анализ объема запросов, задержек и отслеживание успешных/неудачных запросов в секунду (QPS) для поддержания надежности сервиса и соблюдения SLA.