logo
Alauda AI
English
Русский
English
Русский
logo
Alauda AI
Навигация

Обзор

Введение
Быстрый старт
Примечания к выпуску

Установка

Предварительная настройка
Установка Alauda AI Essentials
Установка Alauda AI

Обновление

Обновление с AI 1.3

Удаление

Удаление

Управление инфраструктурой

Управление устройствами

О Alauda Build of Hami
О плагине устройства NVIDIA GPU от Alauda Build

Мультиарендность

Руководства

Управление пространствами имён

Рабочее пространство

Обзор

Введение
Установка
Обновление

Как сделать

Создание WorkspaceKind
Создание Workbench

Развертывание модели и вывод

Обзор

Введение
Features

Сервис вывода

Введение

Руководства

Inference Service

Как сделать

Extend Inference Runtimes
Configure External Access for Inference Services
Configure Scaling for Inference Services

Устранение неполадок

Проблемы с таймаутами сервиса инференса при использовании MLServer Runtime
Служба инференса не переходит в состояние Running

Управление моделями

Введение

Руководства

Model Repository

Мониторинг и операции

Обзор

Введение
Features Overview

Ведение журналов и трассировка

Введение

Руководства

Логирование

Мониторинг ресурсов

Введение

Руководства

Мониторинг ресурсов

Справочник API

Введение

Kubernetes APIs

Inference Service APIs

ClusterServingRuntime [serving.kserve.io/v1alpha1]
InferenceService [serving.kserve.io/v1beta1]

Workbench APIs

Workspace Kind [kubeflow.org/v1beta1]
Workspace [kubeflow.org/v1beta1]

Manage APIs

AmlNamespace [manage.aml.dev/v1alpha1]

Operator APIs

AmlCluster [amlclusters.aml.dev/v1alpha1]
Глоссарий
Предыдущая страницаРуководства
Следующая страницаСправочник API

#Мониторинг ресурсов

#Содержание

#Обзор функции

Мониторинг ресурсов в модуле Monitoring & Ops Alauda AI предоставляет данные в реальном времени о загрузке CPU, памяти, GPU, использовании токенов и метриках запросов ваших сервисов инференса. Эта функция помогает выявлять узкие места в производительности, оптимизировать распределение ресурсов и обеспечивать стабильную работу сервисов. Она особенно полезна в следующих сценариях:

  • Настройка производительности: Диагностика высокой загрузки ресурсов и корректировка лимитов ресурсов.
  • Обнаружение аномалий: Мониторинг резких всплесков потребления ресурсов и паттернов запросов.
  • Планирование емкости: Анализ исторических трендов для эффективного масштабирования ресурсов.
  • Оптимизация затрат: Отслеживание использования токенов и загрузки GPU для управления бюджетом.

#Основные возможности

  • Мониторинг ресурсов:
    • Использование CPU: отображает абсолютное использование CPU (например, количество используемых ядер).
    • Загруженность CPU: показывает использование CPU в процентах от выделенных ресурсов.
    • Использование памяти: отслеживает фактическое потребление памяти (например, в ГБ).
    • Загруженность памяти: отображает использование памяти в процентах от выделенных ресурсов.
  • Мониторинг вычислений:
    • Использование GPU: отслеживает потребление вычислительных ресурсов GPU.
    • Загруженность GPU: показывает использование GPU в процентах от выделенных ресурсов.
    • Использование памяти GPU: мониторит потребление памяти GPU.
    • Загруженность памяти GPU: отображает использование памяти GPU в процентах от выделенных ресурсов.
    • Примечание: режим развертывания MPS не поддерживает мониторинг вычислительных ресурсов и памяти GPU.
  • Другие метрики мониторинга:
    • Метрики токенов: отслеживает количество токенов prompt и generation (доступно для сервисов с runtime 'vllm').
    • Метрики запросов: мониторит время отклика (avg/tp50/p90/p95), QPS (успешные/ошибочные), а также входящий и исходящий трафик.
  • Выбор временного диапазона: анализ метрик за настраиваемые периоды (от 30 минут до 7 дней).

#Доступ к мониторингу ресурсов

#Шаг 1: Перейдите к деталям сервиса инференса

  1. В левой навигационной панели выберите Inference Services.
  2. Кликните по названию нужного сервиса инференса, чтобы открыть страницу с деталями.

#Шаг 2: Откройте панель мониторинга

  1. Выберите вкладку Monitor.
  2. Убедитесь, что раздел Resource Monitor раскрыт (отображается по умолчанию).

#Шаг 3: Выберите временной диапазон

Используйте селектор времени в правом верхнем углу для выбора предустановленного или пользовательского диапазона:

Предустановленные вариантыПользовательский диапазон
Последние 30 минутДата и время начала/конца
Последний 1 час
Последние 6 часов
Последние 24 часа
Последние 2 дня
Последние 7 дней

#Метрики мониторинга

#Использование CPU

  • Описание: Показывает фактическое количество ядер CPU, используемых сервисом.
  • Формат данных: cores (число с плавающей точкой)

#Загруженность CPU

  • Описание: Процент использования выделенных ресурсов CPU.
  • Расчет: (Используемые ядра / Выделенные ядра) × 100%
  • Интерпретация:
    • Постоянно >90%: рекомендуется увеличить выделение CPU
    • <20%: возможно избыточное выделение ресурсов

#Использование памяти

  • Описание: Физическое потребление памяти сервисом.
  • Формат данных: GiB или MiB
  • Важное замечание: в Kubernetes происходит OOM kill при превышении выделенной памяти.

#Загруженность памяти

  • Описание: Процент использования выделенной памяти.
  • Расчет: (Используемая память / Выделенная память) × 100%

#Использование GPU

  • Описание: Потребление вычислительных ресурсов GPU сервисом.
  • Формат данных: вычислительные единицы
  • Примечание: недоступно в режиме развертывания MPS.

#Загруженность GPU

  • Описание: Процент использования выделенных вычислительных ресурсов GPU.
  • Расчет: (Используемый GPU / Выделенный GPU) × 100%
  • Примечание: недоступно в режиме развертывания MPS.

#Использование памяти GPU

  • Описание: Потребление памяти GPU сервисом.
  • Формат данных: GiB или MiB
  • Примечание: недоступно в режиме развертывания MPS.

#Загруженность памяти GPU

  • Описание: Процент использования выделенной памяти GPU.
  • Расчет: (Используемая память GPU / Выделенная память GPU) × 100%
  • Примечание: недоступно в режиме развертывания MPS.

#Метрики токенов

  • Token Prompt: отслеживает количество обработанных токенов prompt.
  • Token Generation: мониторит количество токенов, сгенерированных моделью.
  • Доступность: доступно только для сервисов инференса с runtime 'vllm'.

#Метрики запросов

  • Время отклика: измеряет задержку ответа сервиса (avg/tp50/p90/p95).
  • QPS (запросов в секунду): отслеживает количество успешных и неуспешных запросов в секунду.
  • Трафик: мониторит входящий и исходящий трафик данных.