• Русский
  • Мониторинг ресурсов

    Содержание

    Обзор функции

    Мониторинг ресурсов в модуле мониторинга и операций Alauda AI предоставляет информацию в реальном времени о использовании ЦП, памяти, GPU, токенов и метриках запросов ваших сервисов вывода. Эта функция помогает вам выявлять узкие места в производительности, оптимизировать распределение ресурсов и обеспечивать стабильную работу сервиса. Особенно полезно для таких сценариев, как:

    • Настройка производительности: Диагностика высокого использования ресурсов и корректировка лимитов ресурсов.
    • Обнаружение аномалий: Мониторинг резких всплесков в потреблении ресурсов и паттернах запросов.
    • Планирование мощностей: Анализ исторических тенденций для эффективного масштабирования ресурсов.
    • Оптимизация затрат: Отслеживание использования токенов и загрузки GPU для управления бюджетом.

    Основные функции

    • Мониторинг ресурсов:
      • Использование ЦП: Показывает абсолютное использование ЦП (например, используемые ядра).
      • Загрузка ЦП: Показывает использование ЦП в процентах от выделенных ресурсов.
      • Использование памяти: Отслеживает фактическое потребление памяти (например, в ГБ).
      • Загрузка памяти: Показывает использование памяти в процентах от выделенных ресурсов.
    • Мониторинг вычислений:
      • Использование GPU: Отслеживает потребление вычислительных ресурсов GPU.
      • Загрузка GPU: Показывает использование GPU в процентах от выделенных ресурсов.
      • Использование памяти GPU: Мониторинг потребления памяти GPU.
      • Загрузка памяти GPU: Показывает использование памяти GPU в процентах от выделенных ресурсов.
      • Примечание: Режим развертывания MPS не поддерживает мониторинг вычислений и памяти GPU.
    • Другие мониторинги:
      • Метрики токенов: Отслеживает токены запросов и генерации (доступно для сервисов времени выполнения 'vllm').
      • Метрики запросов: Мониторинг времени отклика (avg/tp50/p90/p95), QPS (успешные/неуспешные) и трафика (входящего/исходящего).
    • Выбор временного диапазона: Анализ метрик за настраиваемые периоды (от 30 минут до 7 дней).

    Доступ к мониторингу ресурсов

    Шаг 1: Перейдите к деталям сервисов вывода

    1. Перейдите в Сервисы вывода в левом навигационном меню.
    2. Щелкните по имени целевого сервиса вывода, чтобы открыть его страницу деталей.

    Шаг 2: Откройте панель мониторинга

    1. Выберите вкладку Монитор.
    2. Убедитесь, что раздел Монитор ресурсов развернут (по умолчанию).

    Шаг 3: Выбор временного диапазона

    Используйте выбор времени в правом верхнем углу, чтобы выбрать предопределённый или настраиваемый диапазон:

    Предустановленные опцииНастраиваемый диапазон
    Последние 30 минутДата и время начала/конца
    Последний 1 час
    Последние 6 часов
    Последние 24 часа
    Последние 2 дня
    Последние 7 дней

    Метрики мониторинга

    Использование ЦП

    • Описание: Показывает фактически используемые ядра ЦП сервисом.
    • Формат данных: ядра (число с плавающей запятой)

    Загрузка ЦП

    • Описание: Процент выделенных ресурсов ЦП, который используется.
    • Расчет: (Используемые ядра / Выделенные ядра) × 100%
    • Толкование:
      • Устойчивое >90%: Рассмотрите возможность масштабирования выделения ЦП
      • <20%: Возможная избыточнаяProvisioning (избыточное выделение ресурсов)

    Использование памяти

    • Описание: Физическая память, потребляемая сервисом.
    • Формат данных: GiB или MiB
    • Критическая заметка: Убийства OOM в Kubernetes происходят, когда использование превышает выделенную память.

    Загрузка памяти

    • Описание: Процент выделенных ресурсов памяти, который используется.
    • Расчет: (Использованная память / Выделенная память) × 100%

    Использование GPU

    • Описание: Вычислительные ресурсы GPU, потребленные сервисом.
    • Формат данных: единицы вычисления
    • Заметка: Не доступно для режима развертывания MPS.

    Загрузка GPU

    • Описание: Процент выделенных вычислительных ресурсов GPU, который используется.
    • Расчет: (Использованный GPU / Выделенный GPU) × 100%
    • Заметка: Не доступно для режима развертывания MPS.

    Использование памяти GPU

    • Описание: Память GPU, потребленная сервисом.
    • Формат данных: GiB или MiB
    • Заметка: Не доступно для режима развертывания MPS.

    Загрузка памяти GPU

    • Описание: Процент выделенной памяти GPU, который используется.
    • Расчет: (Использованная память GPU / Выделенная память GPU) × 100%
    • Заметка: Не доступно для режима развертывания MPS.

    Метрики токенов

    • Токен запроса: Отслеживает количество обработанных токенов запросов.
    • Токен генерации: Мониторинг количества токенов, сгенерированных моделью.
    • Доступность: Доступно только для сервисов вывода, использующих время выполнения 'vllm'.

    Метрики запросов

    • Время отклика: Измеряет задержку отклика сервиса (avg/tp50/p90/p95).
    • QPS (Запросы в секунду): Отслеживает успешные и неуспешные запросы в секунду.
    • Трафик: Мониторинг входящего и исходящего передачи данных.