推断服务功能的核心定义是将训练好的机器学习或深度学习模型部署为可在线调用的服务,使用 HTTP API 或 gRPC 等协议,使应用程序能够实时或批量使用模型的预测、分类、生成等特性。该功能主要解决模型训练完成后如何高效、稳定、便捷地将模型部署到生产环境中,并提供可扩展的在线服务。
直接模型部署推断服务
自定义镜像部署推断服务
推断服务的批量操作
推断服务体验
推断运行时支持
接入方式、日志、Swagger、监控等
性能优势:
可扩展性:
安全性:
稳定性:
选择自定义发布
自定义发布推断服务需要手动设置参数。您也可以通过组合输入参数来创建“模板”,以快速发布推断服务。
提供推断服务的模型发布详情
参数 | 描述 |
---|---|
名称 | 必填,推断 API 的名称。 |
描述 | 推断 API 的详细描述,解释其功能和目的。 |
模型 | 必填,用于推断的模型名称。 |
版本 | 必填,模型的版本。选项包括 Branch 和 Tag。 |
推断运行时 | 必填,用于推断的运行时引擎。 |
请求 CPU | 必填,推断服务所请求的 CPU 资源量。 |
请求内存 | 必填,推断服务所请求的内存资源量。 |
限制 CPU | 必填,推断服务可使用的最大 CPU 资源量。 |
限制内存 | 必填,推断服务可使用的最大内存资源量。 |
GPU 加速类型 | GPU 加速的类型。 |
GPU 加速值 | GPU 加速的值。 |
临时存储 | 推断服务使用的临时存储空间。 |
挂载现有 PVC | 将现有的 Kubernetes 持久卷声明 (PVC) 挂载为存储。 |
容量 | 必填,临时存储或 PVC 的容量大小。 |
自动伸缩 | 启用或禁用自动伸缩功能。 |
实例数量 | 必填,运行推断服务的实例数量。 |
环境变量 | 注入到容器运行时环境的键值对。 |
添加参数 | 传递给容器入口点可执行文件的参数。字符串数组(例如 ["--port=8080", "--batch_size=4"])。 |
启动命令 | 覆盖容器镜像中的默认 ENTRYPOINT 指令。可执行文件 + 参数(例如 ["python", "serve.py"])。 |
点击 发布 按钮以创建推断服务。
在 推断 API 服务列表中,点击任何 运行中 服务的名称以查看其详细信息。
点击 体验 以展开右侧面板。
提问
系统角色
定义 AI 的目的、语调和操作边界(例如,“你是一个专门提供医疗信息的有用助手”)。
参数
根据您的任务类型选择参数。有关详细信息,请参考下面的参数描述。
不同任务类型的参数描述
文本生成
预设参数
参数 | 数据类型 | 描述 |
---|---|---|
do_sample | bool | 是否使用采样;如果不使用,采用贪心解码。 |
max_new_tokens | int | 最大生成的标记数,忽略提示中的标记。 |
repetition_penalty | float | 控制生成文本中重复内容的重复惩罚;1.0 表示没有重复,0 表示重复。 |
temperature | float | 生成文本时模型对下一个标记的随机性;1.0 表示高随机性,0 表示低随机性。 |
top_k | int | 在计算下一个标记的概率分布时,仅考虑具有最高概率的前 k 个标记。 |
top_p | float | 控制模型选择下一个标记时考虑的累积概率分布。 |
use_cache | bool | 是否使用模型在生成过程中的中间结果。 |
其他参数
参数 | 数据类型 | 描述 |
---|---|---|
max_length | int | 最大生成的标记数量。对应输入提示中的标记数量 + max_new_tokens 。如果设置了 max_new_tokens ,则其效果会覆盖 max_length 。 |
min_length | int | 最小生成的标记数量。对应输入提示中的标记数量 + min_new_tokens 。如果设置了 min_new_tokens ,则其效果会覆盖 min_length 。 |
min_new_tokens | int | 最小生成的标记数量,忽略提示中的标记。 |
early_stop | bool | 控制基于束搜索的方法的停止条件。True:生成在出现 num_beams 个完整候选时停止。False:应用启发式方法,当不太可能找到更好的候选时停止生成。 |
num_beams | int | 用于束搜索的束数。1 表示不使用束搜索。 |
max_time | int | 计算的最大运行时间,以秒为单位。 |
num_beam_groups | int | 将 num_beams 分为多个组,以确保不同束组之间的多样性。 |
diversity_penalty | float | 当启用 num_beam_groups 时有效。该参数在组之间应用多样性惩罚,以确保每组生成的内容尽可能不同。 |
penalty_alpha | float | 当 penalty_alpha 大于 0 且 top_k 大于 1 时启用对比搜索。penalty_alpha 值越大,对比惩罚越强,生成的文本越有可能符合预期。如果值设置得过大,可能会导致生成的文本过于单一。 |
typical_p | float | 局部典型性度量预测下一个目标标记的条件概率与给定已生成部分文本的下一个随机标记的期望条件概率之间的相似度。如果设置为小于 1 的浮点数,则将保留与 typical_p 相加或超过的局部典型标记的最小集合用于生成。 |
epsilon_cutoff | float | 如果设置为严格在 0 和 1 之间的浮点数,则仅采样条件概率大于 epsilon_cutoff 的标记。建议值范围为 3e-4 至 9e-4,具体取决于模型的大小。 |
eta_cutoff | float | Eta 采样是局部典型采样和 epsilon 采样的混合。如果设置为严格在 0 和 1 之间的浮点数,则仅考虑条件概率大于 eta_cutoff 或 sqrt(eta_cutoff ) * exp(-entropy(softmax(next_token_logits))) 的标记。建议值范围为 3e-4 至 2e-3,具体取决于模型的大小。 |
repetition_penalty | float | 重复惩罚的参数。1.0 表示没有惩罚。 |
有关更多参数,请参阅 文本生成参数配置。
文本到图像
预设参数
参数 | 数据类型 | 描述 |
---|---|---|
num_inference_steps | int | 去噪步骤的数量。更多的去噪步骤通常会导致更高质量的图像,但推断速度较慢。 |
use_cache | bool | 是否使用模型在生成过程中的中间结果。 |
其他参数
参数 | 数据类型 | 描述 |
---|---|---|
height | int | 生成图像的高度,以像素为单位。 |
width | int | 生成图像的宽度,以像素为单位。 |
guidance_scale | float | 用于调整生成图像的质量与多样性之间的平衡。较大的值会增加多样性,但降低质量;建议范围为 7 到 8.5。 |
negative_prompt | str 或 List[str] | 用于指导在图像生成中不应包含的内容。 |
有关更多参数,请参阅 文本到图像参数配置。
文本分类
预设参数
参数 | 数据类型 | 描述 |
---|---|---|
top_k | int | 顶尖得分类型标签的数量。如果提供的数字为 None 或超过模型配置中可用标签的数量,则默认返回标签的数量。 |
use_cache | bool | 是否使用模型在生成过程中的中间结果。 |
有关更多参数,请参阅 文本分类参数配置