• Русский
  • TIP

    Изучите ключевые возможности модуля Monitoring & Ops, разработанного для Inference Services. Этот обзор представляет основные функции, которые помогут пользователям эффективно контролировать, анализировать и оптимизировать работу AI-сервисов.

    Features Overview

    Logging

    • Realtime Pod Logs
      Потоковая передача логов с Replica pod, связанных с inference services, в режиме реального времени. Мгновенная отладка проблем и отслеживание поведения сервиса в различных развертываниях.

    Monitoring

    Resource Monitor

    • CPU/Memory Utilization
      Отслеживание метрик использования CPU и памяти для inference services с целью оптимизации распределения ресурсов и предотвращения узких мест.

    Computing Monitor

    • GPU Metrics & VRAM
      Мониторинг использования GPU и видеопамяти (VRAM) для обеспечения эффективного использования оборудования при ускоренных вычислениях.

    Other Monitor

    • Token Throughput
      Измерение скорости обработки токенов для оценки производительности и масштабируемости модели.
    • Request Traffic Analytics
      Анализ объема запросов, задержек и отслеживание успешных/неудачных запросов в секунду (QPS) для поддержания надежности сервиса и соблюдения SLA.