Изучите ключевые возможности модуля Monitoring & Ops, разработанного для Inference Services. Этот обзор представляет основные функции, которые помогут пользователям эффективно контролировать, анализировать и оптимизировать работу AI-сервисов.
Realtime Pod Logs
Потоковая передача логов с Replica pod, связанных с inference services, в режиме реального времени. Мгновенная отладка проблем и отслеживание поведения сервиса в различных развертываниях.
CPU/Memory Utilization
Отслеживание метрик использования CPU и памяти для inference services с целью оптимизации распределения ресурсов и предотвращения узких мест.
GPU Metrics & VRAM
Мониторинг использования GPU и видеопамяти (VRAM) для обеспечения эффективного использования оборудования при ускоренных вычислениях.
Token Throughput
Измерение скорости обработки токенов для оценки производительности и масштабируемости модели.
Request Traffic Analytics
Анализ объема запросов, задержек и отслеживание успешных/неудачных запросов в секунду (QPS) для поддержания надежности сервиса и соблюдения SLA.