Alauda AI
搜索文档
K
English
简体中文
English
简体中文
Menu
本页概览
日志记录
监控
资源监控
计算监控
其他监控
TIP
探索为推理服务设计的监控与操作模块的关键特性。该概述介绍了核心功能,帮助用户高效监控、分析和优化 AI 服务操作。
#
特性概述
#
日志记录
实时 Pods 日志
实时流式传输与推理服务相关的副本 Pods 日志。即时调试问题,并跟踪服务在不同部署中的行为。
#
监控
#
资源监控
CPU/内存使用率
跟踪推理服务的 CPU 和内存使用指标,以优化资源分配并防止瓶颈。
#
计算监控
GPU 指标与显存
监控 GPU 计算利用率和显存 (VRAM) 消耗,以确保加速工作负载的高效硬件使用。
#
其他监控
令牌吞吐量
测量令牌处理速率,以评估模型性能和可扩展性。
请求流量分析
分析请求数量、延迟,跟踪每秒成功/失败请求数 (QPS),以维持服务可靠性并满足服务水平协议 (SLA)。
本页概览
日志记录
监控
资源监控
计算监控
其他监控