简体中文

介绍

监控与运维介绍

监控与运维是灵雀云平台的核心模块，专门为 AI 推理服务的运营而设计。它在推理服务的整个生命周期中提供全面的可观察性和操作能力，能够通过集成的监控仪表盘实现日志和多维度指标的统一管理。作为灵雀云在 MLOps/LLMOps/GenOps 解决方案中的关键组成部分，它赋能团队确保服务的可靠性、优化资源利用率并加速事故响应。

该模块关注两个关键的运营方面：

日志记录：推理服务副本 Pod 日志的实时流式传输
监控：覆盖基础设施、GPU 资源和 API 流量的多维度性能仪表盘

优势

监控与运维的核心优势包括：

实时日志流式传输
- 提供对推理服务副本的 Pod 级别日志的即时访问
- 使服务请求的快速调试和可追溯成为可能
多维度监控
- 资源监控：跟踪 CPU/内存使用情况，评估基础设施健康
- 计算监控：监控 GPU 利用率和 VRAM 分配，以加速计算
- 其他监控：测量包括 Token 消耗和请求吞吐量在内的 API 级别指标
统一的操作视图
- 聚合物理资源、GPU 集群和服务端点的关键运营数据
- 通过专门构建的仪表盘为 AI 工作负载提供关联洞察
MLOps 生态系统集成
- 与灵雀云的模型管理和部署管道无缝连接

应用场景

监控与运维对以下场景至关重要：

生产模型运营
- 监控已部署 AI 模型的实时性能
- 在高并发推理期间跟踪 GPU 利用率的效率
资源优化
- 通过历史指标分析识别未充分利用的资源
- 根据 CPU/内存/GPU 使用模式调整部署规模
性能基准测试
- 在不同模型版本之间比较 Token 处理速率
- 分析不同负载下请求延迟的分布
事故调查
- 将错误日志与资源饱和事件关联
- 通过内存使用时间线诊断 OOM 问题

指南

故障排查

指导手册

功能指南

功能指南

功能指南

管理 API

Operator APIs

推理服务 APIs

介绍

目录

监控与运维介绍

优势

应用场景

指南

故障排查

指导手册

功能指南

功能指南

功能指南

管理 API

Operator APIs

推理服务 APIs

#介绍

#目录

#监控与运维介绍

#优势

#应用场景

介绍

目录

监控与运维介绍

优势

应用场景