Мониторинг ресурсов
Содержание
Обзор функцииОсновные возможностиДоступ к мониторингу ресурсовМетрики мониторингаИспользование CPUЗагруженность CPUИспользование памятиЗагруженность памятиИспользование GPUЗагруженность GPUИспользование памяти GPUЗагруженность памяти GPUМетрики токеновМетрики запросовОбзор функции
Мониторинг ресурсов в модуле Monitoring & Ops Alauda AI предоставляет данные в реальном времени о загрузке CPU, памяти, GPU, использовании токенов и метриках запросов ваших сервисов инференса. Эта функция помогает выявлять узкие места в производительности, оптимизировать распределение ресурсов и обеспечивать стабильную работу сервисов. Она особенно полезна в следующих сценариях:
- Настройка производительности: Диагностика высокой загрузки ресурсов и корректировка лимитов ресурсов.
- Обнаружение аномалий: Мониторинг резких всплесков потребления ресурсов и паттернов запросов.
- Планирование емкости: Анализ исторических трендов для эффективного масштабирования ресурсов.
- Оптимизация затрат: Отслеживание использования токенов и загрузки GPU для управления бюджетом.
Основные возможности
- Мониторинг ресурсов:
- Использование CPU: отображает абсолютное использование CPU (например, количество используемых ядер).
- Загруженность CPU: показывает использование CPU в процентах от выделенных ресурсов.
- Использование памяти: отслеживает фактическое потребление памяти (например, в ГБ).
- Загруженность памяти: отображает использование памяти в процентах от выделенных ресурсов.
- Мониторинг вычислений:
- Использование GPU: отслеживает потребление вычислительных ресурсов GPU.
- Загруженность GPU: показывает использование GPU в процентах от выделенных ресурсов.
- Использование памяти GPU: мониторит потребление памяти GPU.
- Загруженность памяти GPU: отображает использование памяти GPU в процентах от выделенных ресурсов.
- Примечание: режим развертывания MPS не поддерживает мониторинг вычислительных ресурсов и памяти GPU.
- Другие метрики мониторинга:
- Метрики токенов: отслеживает количество токенов prompt и generation (доступно для сервисов с runtime 'vllm').
- Метрики запросов: мониторит время отклика (avg/tp50/p90/p95), QPS (успешные/ошибочные), а также входящий и исходящий трафик.
- Выбор временного диапазона: анализ метрик за настраиваемые периоды (от 30 минут до 7 дней).
Доступ к мониторингу ресурсов
Шаг 1: Перейдите к деталям сервиса инференса
- В левой навигационной панели выберите Inference Services.
- Кликните по названию нужного сервиса инференса, чтобы открыть страницу с деталями.
Шаг 2: Откройте панель мониторинга
- Выберите вкладку Monitor.
- Убедитесь, что раздел Resource Monitor раскрыт (отображается по умолчанию).
Шаг 3: Выберите временной диапазон
Используйте селектор времени в правом верхнем углу для выбора предустановленного или пользовательского диапазона:
Метрики мониторинга
Использование CPU
- Описание: Показывает фактическое количество ядер CPU, используемых сервисом.
- Формат данных:
cores(число с плавающей точкой)
Загруженность CPU
- Описание: Процент использования выделенных ресурсов CPU.
- Расчет:
(Используемые ядра / Выделенные ядра) × 100% - Интерпретация:
- Постоянно >90%: рекомендуется увеличить выделение CPU
- <20%: возможно избыточное выделение ресурсов
Использование памяти
- Описание: Физическое потребление памяти сервисом.
- Формат данных:
GiBилиMiB - Важное замечание: в Kubernetes происходит OOM kill при превышении выделенной памяти.
Загруженность памяти
- Описание: Процент использования выделенной памяти.
- Расчет:
(Используемая память / Выделенная память) × 100%
Использование GPU
- Описание: Потребление вычислительных ресурсов GPU сервисом.
- Формат данных: вычислительные единицы
- Примечание: недоступно в режиме развертывания MPS.
Загруженность GPU
- Описание: Процент использования выделенных вычислительных ресурсов GPU.
- Расчет:
(Используемый GPU / Выделенный GPU) × 100% - Примечание: недоступно в режиме развертывания MPS.
Использование памяти GPU
- Описание: Потребление памяти GPU сервисом.
- Формат данных:
GiBилиMiB - Примечание: недоступно в режиме развертывания MPS.
Загруженность памяти GPU
- Описание: Процент использования выделенной памяти GPU.
- Расчет:
(Используемая память GPU / Выделенная память GPU) × 100% - Примечание: недоступно в режиме развертывания MPS.
Метрики токенов
- Token Prompt: отслеживает количество обработанных токенов prompt.
- Token Generation: мониторит количество токенов, сгенерированных моделью.
- Доступность: доступно только для сервисов инференса с runtime 'vllm'.
Метрики запросов
- Время отклика: измеряет задержку ответа сервиса (avg/tp50/p90/p95).
- QPS (запросов в секунду): отслеживает количество успешных и неуспешных запросов в секунду.
- Трафик: мониторит входящий и исходящий трафик данных.