Мониторинг ресурсов

Содержание

Обзор функции Основные функции Доступ к мониторингу ресурсов Метрики мониторинга Использование ЦП Загрузка ЦП Использование памяти Загрузка памяти Использование GPU Загрузка GPU Использование памяти GPU Загрузка памяти GPU Метрики токенов Метрики запросов

Обзор функции

Мониторинг ресурсов в модуле мониторинга и операций Alauda AI предоставляет информацию в реальном времени о использовании ЦП, памяти, GPU, токенов и метриках запросов ваших сервисов вывода. Эта функция помогает вам выявлять узкие места в производительности, оптимизировать распределение ресурсов и обеспечивать стабильную работу сервиса. Особенно полезно для таких сценариев, как:

Настройка производительности: Диагностика высокого использования ресурсов и корректировка лимитов ресурсов.
Обнаружение аномалий: Мониторинг резких всплесков в потреблении ресурсов и паттернах запросов.
Планирование мощностей: Анализ исторических тенденций для эффективного масштабирования ресурсов.
Оптимизация затрат: Отслеживание использования токенов и загрузки GPU для управления бюджетом.

Основные функции

Мониторинг ресурсов:
- Использование ЦП: Показывает абсолютное использование ЦП (например, используемые ядра).
- Загрузка ЦП: Показывает использование ЦП в процентах от выделенных ресурсов.
- Использование памяти: Отслеживает фактическое потребление памяти (например, в ГБ).
- Загрузка памяти: Показывает использование памяти в процентах от выделенных ресурсов.
Мониторинг вычислений:
- Использование GPU: Отслеживает потребление вычислительных ресурсов GPU.
- Загрузка GPU: Показывает использование GPU в процентах от выделенных ресурсов.
- Использование памяти GPU: Мониторинг потребления памяти GPU.
- Загрузка памяти GPU: Показывает использование памяти GPU в процентах от выделенных ресурсов.
- Примечание: Режим развертывания MPS не поддерживает мониторинг вычислений и памяти GPU.
Другие мониторинги:
- Метрики токенов: Отслеживает токены запросов и генерации (доступно для сервисов времени выполнения 'vllm').
- Метрики запросов: Мониторинг времени отклика (avg/tp50/p90/p95), QPS (успешные/неуспешные) и трафика (входящего/исходящего).
Выбор временного диапазона: Анализ метрик за настраиваемые периоды (от 30 минут до 7 дней).

Доступ к мониторингу ресурсов

Шаг 1: Перейдите к деталям сервисов вывода

Перейдите в Сервисы вывода в левом навигационном меню.
Щелкните по имени целевого сервиса вывода, чтобы открыть его страницу деталей.

Шаг 2: Откройте панель мониторинга

Выберите вкладку Монитор.
Убедитесь, что раздел Монитор ресурсов развернут (по умолчанию).

Шаг 3: Выбор временного диапазона

Используйте выбор времени в правом верхнем углу, чтобы выбрать предопределённый или настраиваемый диапазон:

Предустановленные опции	Настраиваемый диапазон
Последние 30 минут	Дата и время начала/конца
Последний 1 час
Последние 6 часов
Последние 24 часа
Последние 2 дня
Последние 7 дней

Метрики мониторинга

Использование ЦП

Описание: Показывает фактически используемые ядра ЦП сервисом.
Формат данных: ядра (число с плавающей запятой)

Загрузка ЦП

Описание: Процент выделенных ресурсов ЦП, который используется.
Расчет: (Используемые ядра / Выделенные ядра) × 100%
Толкование:
- Устойчивое >90%: Рассмотрите возможность масштабирования выделения ЦП
- <20%: Возможная избыточнаяProvisioning (избыточное выделение ресурсов)

Использование памяти

Описание: Физическая память, потребляемая сервисом.
Формат данных: GiB или MiB
Критическая заметка: Убийства OOM в Kubernetes происходят, когда использование превышает выделенную память.

Загрузка памяти

Описание: Процент выделенных ресурсов памяти, который используется.
Расчет: (Использованная память / Выделенная память) × 100%

Использование GPU

Описание: Вычислительные ресурсы GPU, потребленные сервисом.
Формат данных: единицы вычисления
Заметка: Не доступно для режима развертывания MPS.

Загрузка GPU

Описание: Процент выделенных вычислительных ресурсов GPU, который используется.
Расчет: (Использованный GPU / Выделенный GPU) × 100%
Заметка: Не доступно для режима развертывания MPS.

Использование памяти GPU

Описание: Память GPU, потребленная сервисом.
Формат данных: GiB или MiB
Заметка: Не доступно для режима развертывания MPS.

Загрузка памяти GPU

Описание: Процент выделенной памяти GPU, который используется.
Расчет: (Использованная память GPU / Выделенная память GPU) × 100%
Заметка: Не доступно для режима развертывания MPS.

Метрики токенов

Токен запроса: Отслеживает количество обработанных токенов запросов.
Токен генерации: Мониторинг количества токенов, сгенерированных моделью.
Доступность: Доступно только для сервисов вывода, использующих время выполнения 'vllm'.

Метрики запросов

Время отклика: Измеряет задержку отклика сервиса (avg/tp50/p90/p95).
QPS (Запросы в секунду): Отслеживает успешные и неуспешные запросы в секунду.
Трафик: Мониторинг входящего и исходящего передачи данных.

#Мониторинг ресурсов

#Содержание

#Обзор функции

#Основные функции

#Доступ к мониторингу ресурсов

#Шаг 1: Перейдите к деталям сервисов вывода

#Шаг 2: Откройте панель мониторинга

#Шаг 3: Выбор временного диапазона

#Метрики мониторинга

#Использование ЦП

#Загрузка ЦП

#Использование памяти

#Загрузка памяти

#Использование GPU

#Загрузка GPU

#Использование памяти GPU

#Загрузка памяти GPU

#Метрики токенов

#Метрики запросов