Русский

TIP

Изучите ключевые возможности модуля Monitoring & Ops, разработанного для Inference Services. Этот обзор представляет основные функции, которые помогут пользователям эффективно контролировать, анализировать и оптимизировать работу AI-сервисов.

Features Overview

Содержание

Logging Monitoring Resource Monitor Computing Monitor Other Monitor

Logging

Realtime Pod Logs
Потоковая передача логов с Replica pod, связанных с inference services, в режиме реального времени. Мгновенная отладка проблем и отслеживание поведения сервиса в различных развертываниях.

Monitoring

Resource Monitor

CPU/Memory Utilization
Отслеживание метрик использования CPU и памяти для inference services с целью оптимизации распределения ресурсов и предотвращения узких мест.

Computing Monitor

GPU Metrics & VRAM
Мониторинг использования GPU и видеопамяти (VRAM) для обеспечения эффективного использования оборудования при ускоренных вычислениях.

Other Monitor

Token Throughput
Измерение скорости обработки токенов для оценки производительности и масштабируемости модели.
Request Traffic Analytics
Анализ объема запросов, задержек и отслеживание успешных/неудачных запросов в секунду (QPS) для поддержания надежности сервиса и соблюдения SLA.