TIP
Изучите ключевые возможности модуля Monitoring & Ops, разработанного для Inference Services. Этот обзор представляет основные функции, которые помогут пользователям эффективно контролировать, анализировать и оптимизировать работу AI-сервисов.
Features Overview
Logging
- Realtime Pod Logs
Потоковая передача логов с Replica pod, связанных с inference services, в режиме реального времени. Мгновенная отладка проблем и отслеживание поведения сервиса в различных развертываниях.
Monitoring
Resource Monitor
- CPU/Memory Utilization
Отслеживание метрик использования CPU и памяти для inference services с целью оптимизации распределения ресурсов и предотвращения узких мест.
Computing Monitor
- GPU Metrics & VRAM
Мониторинг использования GPU и видеопамяти (VRAM) для обеспечения эффективного использования оборудования при ускоренных вычислениях.
Other Monitor
- Token Throughput
Измерение скорости обработки токенов для оценки производительности и масштабируемости модели. - Request Traffic Analytics
Анализ объема запросов, задержек и отслеживание успешных/неудачных запросов в секунду (QPS) для поддержания надежности сервиса и соблюдения SLA.