TIP

探索为推理服务设计的监控与操作模块的关键特性。该概述介绍了核心功能,帮助用户高效监控、分析和优化 AI 服务操作。

特性概述

日志记录

  • 实时 Pods 日志
    实时流式传输与推理服务相关的副本 Pods 日志。即时调试问题,并跟踪服务在不同部署中的行为。

监控

资源监控

  • CPU/内存使用率
    跟踪推理服务的 CPU 和内存使用指标,以优化资源分配并防止瓶颈。

计算监控

  • GPU 指标与显存
    监控 GPU 计算利用率和显存 (VRAM) 消耗,以确保加速工作负载的高效硬件使用。

其他监控

  • 令牌吞吐量
    测量令牌处理速率,以评估模型性能和可扩展性。
  • 请求流量分析
    分析请求数量、延迟,跟踪每秒成功/失败请求数 (QPS),以维持服务可靠性并满足服务水平协议 (SLA)。