Мониторинг ресурсов
Содержание
Обзор функции
Мониторинг ресурсов в модуле Monitoring & Ops Alauda AI предоставляет данные в реальном времени о загрузке CPU, памяти, GPU, использовании токенов и метриках запросов ваших сервисов инференса. Эта функция помогает выявлять узкие места в производительности, оптимизировать распределение ресурсов и обеспечивать стабильную работу сервисов. Она особенно полезна в следующих сценариях:
- Настройка производительности: Диагностика высокой загрузки ресурсов и корректировка лимитов ресурсов.
- Обнаружение аномалий: Мониторинг резких всплесков потребления ресурсов и паттернов запросов.
- Планирование емкости: Анализ исторических трендов для эффективного масштабирования ресурсов.
- Оптимизация затрат: Отслеживание использования токенов и загрузки GPU для управления бюджетом.
Основные возможности
- Мониторинг ресурсов:
- Использование CPU: отображает абсолютное использование CPU (например, количество используемых ядер).
- Загруженность CPU: показывает использование CPU в процентах от выделенных ресурсов.
- Использование памяти: отслеживает фактическое потребление памяти (например, в ГБ).
- Загруженность памяти: отображает использование памяти в процентах от выделенных ресурсов.
 
- Мониторинг вычислений:
- Использование GPU: отслеживает потребление вычислительных ресурсов GPU.
- Загруженность GPU: показывает использование GPU в процентах от выделенных ресурсов.
- Использование памяти GPU: мониторит потребление памяти GPU.
- Загруженность памяти GPU: отображает использование памяти GPU в процентах от выделенных ресурсов.
- Примечание: режим развертывания MPS не поддерживает мониторинг вычислительных ресурсов и памяти GPU.
 
- Другие метрики мониторинга:
- Метрики токенов: отслеживает количество токенов prompt и generation (доступно для сервисов с runtime 'vllm').
- Метрики запросов: мониторит время отклика (avg/tp50/p90/p95), QPS (успешные/ошибочные), а также входящий и исходящий трафик.
 
- Выбор временного диапазона: анализ метрик за настраиваемые периоды (от 30 минут до 7 дней).
Доступ к мониторингу ресурсов
Шаг 1: Перейдите к деталям сервиса инференса
- В левой навигационной панели выберите Inference Services.
- Кликните по названию нужного сервиса инференса, чтобы открыть страницу с деталями.
Шаг 2: Откройте панель мониторинга
- Выберите вкладку Monitor.
- Убедитесь, что раздел Resource Monitor раскрыт (отображается по умолчанию).
Шаг 3: Выберите временной диапазон
Используйте селектор времени в правом верхнем углу для выбора предустановленного или пользовательского диапазона:
| Предустановленные варианты | Пользовательский диапазон | 
|---|
| Последние 30 минут | Дата и время начала/конца | 
| Последний 1 час |  | 
| Последние 6 часов |  | 
| Последние 24 часа |  | 
| Последние 2 дня |  | 
| Последние 7 дней |  | 
Метрики мониторинга
Использование CPU
- Описание: Показывает фактическое количество ядер CPU, используемых сервисом.
- Формат данных: cores(число с плавающей точкой)
Загруженность CPU
- Описание: Процент использования выделенных ресурсов CPU.
- Расчет: (Используемые ядра / Выделенные ядра) × 100%
- Интерпретация:
- Постоянно >90%: рекомендуется увеличить выделение CPU
- <20%: возможно избыточное выделение ресурсов
 
Использование памяти
- Описание: Физическое потребление памяти сервисом.
- Формат данных: GiBилиMiB
- Важное замечание: в Kubernetes происходит OOM kill при превышении выделенной памяти.
Загруженность памяти
- Описание: Процент использования выделенной памяти.
- Расчет: (Используемая память / Выделенная память) × 100%
Использование GPU
- Описание: Потребление вычислительных ресурсов GPU сервисом.
- Формат данных: вычислительные единицы
- Примечание: недоступно в режиме развертывания MPS.
Загруженность GPU
- Описание: Процент использования выделенных вычислительных ресурсов GPU.
- Расчет: (Используемый GPU / Выделенный GPU) × 100%
- Примечание: недоступно в режиме развертывания MPS.
Использование памяти GPU
- Описание: Потребление памяти GPU сервисом.
- Формат данных: GiBилиMiB
- Примечание: недоступно в режиме развертывания MPS.
Загруженность памяти GPU
- Описание: Процент использования выделенной памяти GPU.
- Расчет: (Используемая память GPU / Выделенная память GPU) × 100%
- Примечание: недоступно в режиме развертывания MPS.
Метрики токенов
- Token Prompt: отслеживает количество обработанных токенов prompt.
- Token Generation: мониторит количество токенов, сгенерированных моделью.
- Доступность: доступно только для сервисов инференса с runtime 'vllm'.
Метрики запросов
- Время отклика: измеряет задержку ответа сервиса (avg/tp50/p90/p95).
- QPS (запросов в секунду): отслеживает количество успешных и неуспешных запросов в секунду.
- Трафик: мониторит входящий и исходящий трафик данных.