• Русский
  • Мониторинг ресурсов

    Обзор функции

    Мониторинг ресурсов в модуле Monitoring & Ops Alauda AI предоставляет данные в реальном времени о загрузке CPU, памяти, GPU, использовании токенов и метриках запросов ваших сервисов инференса. Эта функция помогает выявлять узкие места в производительности, оптимизировать распределение ресурсов и обеспечивать стабильную работу сервисов. Она особенно полезна в следующих сценариях:

    • Настройка производительности: Диагностика высокой загрузки ресурсов и корректировка лимитов ресурсов.
    • Обнаружение аномалий: Мониторинг резких всплесков потребления ресурсов и паттернов запросов.
    • Планирование емкости: Анализ исторических трендов для эффективного масштабирования ресурсов.
    • Оптимизация затрат: Отслеживание использования токенов и загрузки GPU для управления бюджетом.

    Основные возможности

    • Мониторинг ресурсов:
      • Использование CPU: отображает абсолютное использование CPU (например, количество используемых ядер).
      • Загруженность CPU: показывает использование CPU в процентах от выделенных ресурсов.
      • Использование памяти: отслеживает фактическое потребление памяти (например, в ГБ).
      • Загруженность памяти: отображает использование памяти в процентах от выделенных ресурсов.
    • Мониторинг вычислений:
      • Использование GPU: отслеживает потребление вычислительных ресурсов GPU.
      • Загруженность GPU: показывает использование GPU в процентах от выделенных ресурсов.
      • Использование памяти GPU: мониторит потребление памяти GPU.
      • Загруженность памяти GPU: отображает использование памяти GPU в процентах от выделенных ресурсов.
      • Примечание: режим развертывания MPS не поддерживает мониторинг вычислительных ресурсов и памяти GPU.
    • Другие метрики мониторинга:
      • Метрики токенов: отслеживает количество токенов prompt и generation (доступно для сервисов с runtime 'vllm').
      • Метрики запросов: мониторит время отклика (avg/tp50/p90/p95), QPS (успешные/ошибочные), а также входящий и исходящий трафик.
    • Выбор временного диапазона: анализ метрик за настраиваемые периоды (от 30 минут до 7 дней).

    Доступ к мониторингу ресурсов

    Шаг 1: Перейдите к деталям сервиса инференса

    1. В левой навигационной панели выберите Inference Services.
    2. Кликните по названию нужного сервиса инференса, чтобы открыть страницу с деталями.

    Шаг 2: Откройте панель мониторинга

    1. Выберите вкладку Monitor.
    2. Убедитесь, что раздел Resource Monitor раскрыт (отображается по умолчанию).

    Шаг 3: Выберите временной диапазон

    Используйте селектор времени в правом верхнем углу для выбора предустановленного или пользовательского диапазона:

    Предустановленные вариантыПользовательский диапазон
    Последние 30 минутДата и время начала/конца
    Последний 1 час
    Последние 6 часов
    Последние 24 часа
    Последние 2 дня
    Последние 7 дней

    Метрики мониторинга

    Использование CPU

    • Описание: Показывает фактическое количество ядер CPU, используемых сервисом.
    • Формат данных: cores (число с плавающей точкой)

    Загруженность CPU

    • Описание: Процент использования выделенных ресурсов CPU.
    • Расчет: (Используемые ядра / Выделенные ядра) × 100%
    • Интерпретация:
      • Постоянно >90%: рекомендуется увеличить выделение CPU
      • <20%: возможно избыточное выделение ресурсов

    Использование памяти

    • Описание: Физическое потребление памяти сервисом.
    • Формат данных: GiB или MiB
    • Важное замечание: в Kubernetes происходит OOM kill при превышении выделенной памяти.

    Загруженность памяти

    • Описание: Процент использования выделенной памяти.
    • Расчет: (Используемая память / Выделенная память) × 100%

    Использование GPU

    • Описание: Потребление вычислительных ресурсов GPU сервисом.
    • Формат данных: вычислительные единицы
    • Примечание: недоступно в режиме развертывания MPS.

    Загруженность GPU

    • Описание: Процент использования выделенных вычислительных ресурсов GPU.
    • Расчет: (Используемый GPU / Выделенный GPU) × 100%
    • Примечание: недоступно в режиме развертывания MPS.

    Использование памяти GPU

    • Описание: Потребление памяти GPU сервисом.
    • Формат данных: GiB или MiB
    • Примечание: недоступно в режиме развертывания MPS.

    Загруженность памяти GPU

    • Описание: Процент использования выделенной памяти GPU.
    • Расчет: (Используемая память GPU / Выделенная память GPU) × 100%
    • Примечание: недоступно в режиме развертывания MPS.

    Метрики токенов

    • Token Prompt: отслеживает количество обработанных токенов prompt.
    • Token Generation: мониторит количество токенов, сгенерированных моделью.
    • Доступность: доступно только для сервисов инференса с runtime 'vllm'.

    Метрики запросов

    • Время отклика: измеряет задержку ответа сервиса (avg/tp50/p90/p95).
    • QPS (запросов в секунду): отслеживает количество успешных и неуспешных запросов в секунду.
    • Трафик: мониторит входящий и исходящий трафик данных.