Мониторинг ресурсов
Содержание
Обзор функции
Мониторинг ресурсов в модуле мониторинга и операций Alauda AI предоставляет информацию в реальном времени о использовании ЦП, памяти, GPU, токенов и метриках запросов ваших сервисов вывода. Эта функция помогает вам выявлять узкие места в производительности, оптимизировать распределение ресурсов и обеспечивать стабильную работу сервиса. Особенно полезно для таких сценариев, как:
- Настройка производительности: Диагностика высокого использования ресурсов и корректировка лимитов ресурсов.
- Обнаружение аномалий: Мониторинг резких всплесков в потреблении ресурсов и паттернах запросов.
- Планирование мощностей: Анализ исторических тенденций для эффективного масштабирования ресурсов.
- Оптимизация затрат: Отслеживание использования токенов и загрузки GPU для управления бюджетом.
Основные функции
- Мониторинг ресурсов:
- Использование ЦП: Показывает абсолютное использование ЦП (например, используемые ядра).
- Загрузка ЦП: Показывает использование ЦП в процентах от выделенных ресурсов.
- Использование памяти: Отслеживает фактическое потребление памяти (например, в ГБ).
- Загрузка памяти: Показывает использование памяти в процентах от выделенных ресурсов.
- Мониторинг вычислений:
- Использование GPU: Отслеживает потребление вычислительных ресурсов GPU.
- Загрузка GPU: Показывает использование GPU в процентах от выделенных ресурсов.
- Использование памяти GPU: Мониторинг потребления памяти GPU.
- Загрузка памяти GPU: Показывает использование памяти GPU в процентах от выделенных ресурсов.
- Примечание: Режим развертывания MPS не поддерживает мониторинг вычислений и памяти GPU.
- Другие мониторинги:
- Метрики токенов: Отслеживает токены запросов и генерации (доступно для сервисов времени выполнения 'vllm').
- Метрики запросов: Мониторинг времени отклика (avg/tp50/p90/p95), QPS (успешные/неуспешные) и трафика (входящего/исходящего).
- Выбор временного диапазона: Анализ метрик за настраиваемые периоды (от 30 минут до 7 дней).
Доступ к мониторингу ресурсов
Шаг 1: Перейдите к деталям сервисов вывода
- Перейдите в Сервисы вывода в левом навигационном меню.
- Щелкните по имени целевого сервиса вывода, чтобы открыть его страницу деталей.
Шаг 2: Откройте панель мониторинга
- Выберите вкладку Монитор.
- Убедитесь, что раздел Монитор ресурсов развернут (по умолчанию).
Шаг 3: Выбор временного диапазона
Используйте выбор времени в правом верхнем углу, чтобы выбрать предопределённый или настраиваемый диапазон:
Метрики мониторинга
Использование ЦП
- Описание: Показывает фактически используемые ядра ЦП сервисом.
- Формат данных:
ядра(число с плавающей запятой)
Загрузка ЦП
- Описание: Процент выделенных ресурсов ЦП, который используется.
- Расчет:
(Используемые ядра / Выделенные ядра) × 100% - Толкование:
- Устойчивое >90%: Рассмотрите возможность масштабирования выделения ЦП
- <20%: Возможная избыточнаяProvisioning (избыточное выделение ресурсов)
Использование памяти
- Описание: Физическая память, потребляемая сервисом.
- Формат данных:
GiBилиMiB - Критическая заметка: Убийства OOM в Kubernetes происходят, когда использование превышает выделенную память.
Загрузка памяти
- Описание: Процент выделенных ресурсов памяти, который используется.
- Расчет:
(Использованная память / Выделенная память) × 100%
Использование GPU
- Описание: Вычислительные ресурсы GPU, потребленные сервисом.
- Формат данных: единицы вычисления
- Заметка: Не доступно для режима развертывания MPS.
Загрузка GPU
- Описание: Процент выделенных вычислительных ресурсов GPU, который используется.
- Расчет:
(Использованный GPU / Выделенный GPU) × 100% - Заметка: Не доступно для режима развертывания MPS.
Использование памяти GPU
- Описание: Память GPU, потребленная сервисом.
- Формат данных:
GiBилиMiB - Заметка: Не доступно для режима развертывания MPS.
Загрузка памяти GPU
- Описание: Процент выделенной памяти GPU, который используется.
- Расчет:
(Использованная память GPU / Выделенная память GPU) × 100% - Заметка: Не доступно для режима развертывания MPS.
Метрики токенов
- Токен запроса: Отслеживает количество обработанных токенов запросов.
- Токен генерации: Мониторинг количества токенов, сгенерированных моделью.
- Доступность: Доступно только для сервисов вывода, использующих время выполнения 'vllm'.
Метрики запросов
- Время отклика: Измеряет задержку отклика сервиса (avg/tp50/p90/p95).
- QPS (Запросы в секунду): Отслеживает успешные и неуспешные запросы в секунду.
- Трафик: Мониторинг входящего и исходящего передачи данных.