Русский

Мониторинг ресурсов

Содержание

Обзор функции

Мониторинг ресурсов в модуле Monitoring & Ops Alauda AI предоставляет данные в реальном времени о загрузке CPU, памяти, GPU, использовании токенов и метриках запросов ваших сервисов инференса. Эта функция помогает выявлять узкие места в производительности, оптимизировать распределение ресурсов и обеспечивать стабильную работу сервисов. Она особенно полезна в следующих сценариях:

Настройка производительности: Диагностика высокой загрузки ресурсов и корректировка лимитов ресурсов.
Обнаружение аномалий: Мониторинг резких всплесков потребления ресурсов и паттернов запросов.
Планирование емкости: Анализ исторических трендов для эффективного масштабирования ресурсов.
Оптимизация затрат: Отслеживание использования токенов и загрузки GPU для управления бюджетом.

Основные возможности

Мониторинг ресурсов:
- Использование CPU: отображает абсолютное использование CPU (например, количество используемых ядер).
- Загруженность CPU: показывает использование CPU в процентах от выделенных ресурсов.
- Использование памяти: отслеживает фактическое потребление памяти (например, в ГБ).
- Загруженность памяти: отображает использование памяти в процентах от выделенных ресурсов.
Мониторинг вычислений:
- Использование GPU: отслеживает потребление вычислительных ресурсов GPU.
- Загруженность GPU: показывает использование GPU в процентах от выделенных ресурсов.
- Использование памяти GPU: мониторит потребление памяти GPU.
- Загруженность памяти GPU: отображает использование памяти GPU в процентах от выделенных ресурсов.
- Примечание: режим развертывания MPS не поддерживает мониторинг вычислительных ресурсов и памяти GPU.
Другие метрики мониторинга:
- Метрики токенов: отслеживает количество токенов prompt и generation (доступно для сервисов с runtime 'vllm').
- Метрики запросов: мониторит время отклика (avg/tp50/p90/p95), QPS (успешные/ошибочные), а также входящий и исходящий трафик.
Выбор временного диапазона: анализ метрик за настраиваемые периоды (от 30 минут до 7 дней).

Доступ к мониторингу ресурсов

Шаг 1: Перейдите к деталям сервиса инференса

В левой навигационной панели выберите Inference Services.
Кликните по названию нужного сервиса инференса, чтобы открыть страницу с деталями.

Шаг 2: Откройте панель мониторинга

Выберите вкладку Monitor.
Убедитесь, что раздел Resource Monitor раскрыт (отображается по умолчанию).

Шаг 3: Выберите временной диапазон

Используйте селектор времени в правом верхнем углу для выбора предустановленного или пользовательского диапазона:

Предустановленные варианты	Пользовательский диапазон
Последние 30 минут	Дата и время начала/конца
Последний 1 час
Последние 6 часов
Последние 24 часа
Последние 2 дня
Последние 7 дней

Метрики мониторинга

Использование CPU

Описание: Показывает фактическое количество ядер CPU, используемых сервисом.
Формат данных: cores (число с плавающей точкой)

Загруженность CPU

Описание: Процент использования выделенных ресурсов CPU.
Расчет: (Используемые ядра / Выделенные ядра) × 100%
Интерпретация:
- Постоянно >90%: рекомендуется увеличить выделение CPU
- <20%: возможно избыточное выделение ресурсов

Использование памяти

Описание: Физическое потребление памяти сервисом.
Формат данных: GiB или MiB
Важное замечание: в Kubernetes происходит OOM kill при превышении выделенной памяти.

Загруженность памяти

Описание: Процент использования выделенной памяти.
Расчет: (Используемая память / Выделенная память) × 100%

Использование GPU

Описание: Потребление вычислительных ресурсов GPU сервисом.
Формат данных: вычислительные единицы
Примечание: недоступно в режиме развертывания MPS.

Загруженность GPU

Описание: Процент использования выделенных вычислительных ресурсов GPU.
Расчет: (Используемый GPU / Выделенный GPU) × 100%
Примечание: недоступно в режиме развертывания MPS.

Использование памяти GPU

Описание: Потребление памяти GPU сервисом.
Формат данных: GiB или MiB
Примечание: недоступно в режиме развертывания MPS.

Загруженность памяти GPU

Описание: Процент использования выделенной памяти GPU.
Расчет: (Используемая память GPU / Выделенная память GPU) × 100%
Примечание: недоступно в режиме развертывания MPS.

Метрики токенов

Token Prompt: отслеживает количество обработанных токенов prompt.
Token Generation: мониторит количество токенов, сгенерированных моделью.
Доступность: доступно только для сервисов инференса с runtime 'vllm'.

Метрики запросов

Время отклика: измеряет задержку ответа сервиса (avg/tp50/p90/p95).
QPS (запросов в секунду): отслеживает количество успешных и неуспешных запросов в секунду.
Трафик: мониторит входящий и исходящий трафик данных.

Мониторинг ресурсов

Содержание

Обзор функции

Настройка производительности: Диагностика высокой загрузки ресурсов и корректировка лимитов ресурсов.
Обнаружение аномалий: Мониторинг резких всплесков потребления ресурсов и паттернов запросов.
Планирование емкости: Анализ исторических трендов для эффективного масштабирования ресурсов.
Оптимизация затрат: Отслеживание использования токенов и загрузки GPU для управления бюджетом.

Основные возможности

Мониторинг ресурсов:
- Использование CPU: отображает абсолютное использование CPU (например, количество используемых ядер).
- Загруженность CPU: показывает использование CPU в процентах от выделенных ресурсов.
- Использование памяти: отслеживает фактическое потребление памяти (например, в ГБ).
- Загруженность памяти: отображает использование памяти в процентах от выделенных ресурсов.
Мониторинг вычислений:
- Использование GPU: отслеживает потребление вычислительных ресурсов GPU.
- Загруженность GPU: показывает использование GPU в процентах от выделенных ресурсов.
- Использование памяти GPU: мониторит потребление памяти GPU.
- Загруженность памяти GPU: отображает использование памяти GPU в процентах от выделенных ресурсов.
- Примечание: режим развертывания MPS не поддерживает мониторинг вычислительных ресурсов и памяти GPU.
Другие метрики мониторинга:
- Метрики токенов: отслеживает количество токенов prompt и generation (доступно для сервисов с runtime 'vllm').
- Метрики запросов: мониторит время отклика (avg/tp50/p90/p95), QPS (успешные/ошибочные), а также входящий и исходящий трафик.
Выбор временного диапазона: анализ метрик за настраиваемые периоды (от 30 минут до 7 дней).

Доступ к мониторингу ресурсов

Шаг 1: Перейдите к деталям сервиса инференса

В левой навигационной панели выберите Inference Services.
Кликните по названию нужного сервиса инференса, чтобы открыть страницу с деталями.

Шаг 2: Откройте панель мониторинга

Выберите вкладку Monitor.
Убедитесь, что раздел Resource Monitor раскрыт (отображается по умолчанию).

Шаг 3: Выберите временной диапазон

Предустановленные варианты	Пользовательский диапазон
Последние 30 минут	Дата и время начала/конца
Последний 1 час
Последние 6 часов
Последние 24 часа
Последние 2 дня
Последние 7 дней

Метрики мониторинга

Использование CPU

Описание: Показывает фактическое количество ядер CPU, используемых сервисом.
Формат данных: cores (число с плавающей точкой)

Загруженность CPU

Описание: Процент использования выделенных ресурсов CPU.
Расчет: (Используемые ядра / Выделенные ядра) × 100%
Интерпретация:
- Постоянно >90%: рекомендуется увеличить выделение CPU
- <20%: возможно избыточное выделение ресурсов

Использование памяти

Описание: Физическое потребление памяти сервисом.
Формат данных: GiB или MiB
Важное замечание: в Kubernetes происходит OOM kill при превышении выделенной памяти.

Загруженность памяти

Описание: Процент использования выделенной памяти.
Расчет: (Используемая память / Выделенная память) × 100%

Использование GPU

Описание: Потребление вычислительных ресурсов GPU сервисом.
Формат данных: вычислительные единицы
Примечание: недоступно в режиме развертывания MPS.

Загруженность GPU

Описание: Процент использования выделенных вычислительных ресурсов GPU.
Расчет: (Используемый GPU / Выделенный GPU) × 100%
Примечание: недоступно в режиме развертывания MPS.

Использование памяти GPU

Описание: Потребление памяти GPU сервисом.
Формат данных: GiB или MiB
Примечание: недоступно в режиме развертывания MPS.

Загруженность памяти GPU

Описание: Процент использования выделенной памяти GPU.
Расчет: (Используемая память GPU / Выделенная память GPU) × 100%
Примечание: недоступно в режиме развертывания MPS.

Метрики токенов

Token Prompt: отслеживает количество обработанных токенов prompt.
Token Generation: мониторит количество токенов, сгенерированных моделью.
Доступность: доступно только для сервисов инференса с runtime 'vllm'.

Метрики запросов

Время отклика: измеряет задержку ответа сервиса (avg/tp50/p90/p95).
QPS (запросов в секунду): отслеживает количество успешных и неуспешных запросов в секунду.
Трафик: мониторит входящий и исходящий трафик данных.

Руководства

Руководства

Как сделать

Устранение неполадок

Руководства

Руководства

Руководства

Inference Service APIs

Workbench APIs

Manage APIs

Operator APIs

#Мониторинг ресурсов

#Содержание

#Обзор функции

#Основные возможности

#Доступ к мониторингу ресурсов

#Шаг 1: Перейдите к деталям сервиса инференса

#Шаг 2: Откройте панель мониторинга

#Шаг 3: Выберите временной диапазон

#Метрики мониторинга

#Использование CPU

#Загруженность CPU

#Использование памяти

#Загруженность памяти

#Использование GPU

#Загруженность GPU

#Использование памяти GPU

#Загруженность памяти GPU

#Метрики токенов

#Метрики запросов

#Мониторинг ресурсов

#Содержание

#Обзор функции

#Основные возможности

#Доступ к мониторингу ресурсов

#Шаг 1: Перейдите к деталям сервиса инференса

#Шаг 2: Откройте панель мониторинга

#Шаг 3: Выберите временной диапазон

#Метрики мониторинга

#Использование CPU

#Загруженность CPU

#Использование памяти

#Загруженность памяти

#Использование GPU

#Загруженность GPU

#Использование памяти GPU

#Загруженность памяти GPU

#Метрики токенов

#Метрики запросов

Мониторинг ресурсов

Содержание

Обзор функции

Основные возможности

Доступ к мониторингу ресурсов

Шаг 1: Перейдите к деталям сервиса инференса

Шаг 2: Откройте панель мониторинга

Шаг 3: Выберите временной диапазон

Метрики мониторинга

Использование CPU

Загруженность CPU

Использование памяти

Загруженность памяти

Использование GPU

Загруженность GPU

Использование памяти GPU

Загруженность памяти GPU

Метрики токенов

Метрики запросов

Мониторинг ресурсов

Содержание

Обзор функции

Основные возможности

Доступ к мониторингу ресурсов

Шаг 1: Перейдите к деталям сервиса инференса

Шаг 2: Откройте панель мониторинга

Шаг 3: Выберите временной диапазон

Метрики мониторинга

Использование CPU

Загруженность CPU

Использование памяти

Загруженность памяти

Использование GPU

Загруженность GPU

Использование памяти GPU

Загруженность памяти GPU

Метрики токенов

Метрики запросов