TIP

将父模块下的所有功能模块进行罗列和简单介绍,方便用户快速了解该模块下的所有功能。

可以访问 功能总览示例 查看对应文档的示例。

功能总览

模型库

  • 模型库的创建与删除

    支持创建“私有”类型的模型库,用户可以删除这些库。只有管理员可以创建“共享”类型的模型库,并且只有管理员可以删除它们。

  • 模型版本管理

    支持模型的版本控制,包括创建标签和分支。还允许提交更新以修改现有分支中的文件。

推理服务

  • 自定义推理服务部署

    通过自定义参数,能够将模型库中的任何模型部署为推理服务。

  • 基于模板的推理服务部署

    用户可以定义推理服务模板,并利用这些模板创建推理服务。

  • 推理服务的动态扩缩容

    支持基于流量自动调整副本的数量。允许无服务器配置,在闲置期间将副本减少到0(释放GPU资源),并在流量恢复时自动增加副本。

  • 推理运行时

    预装常见的推理运行时:vllm-cpuvllm-gpumlserver-cpumlserver-gpu等。也支持自定义第三方运行时。

  • 推理体验

    部署后,用户可以通过UI体验推理服务。目前支持三类体验:文本生成、文本分类和图像生成。

  • 推理服务可观测性

    提供监控和日志查看,包括:

    • 资源监控
    • 计算能力监控
    • 业务指标监控(例如,令牌数)。
  • 推理服务的批量操作

    启用对多个推理服务的批量管理操作,包括“批量启动”、“批量停止”和“批量删除”。