推理服务功能的核心定义是将训练好的机器学习或深度学习模型部署为可在线调用的服务,使用 HTTP API 或 gRPC 等协议,使应用能够实时或批量地使用模型的预测、分类、生成等功能。该功能主要解决模型训练完成后,如何高效、稳定、便捷地将模型部署到生产环境,并提供可扩展的在线服务。
推理服务的模型直投部署
推理服务的自定义镜像部署
推理服务的批量操作
推理服务体验
推理运行时支持
接入方式、日志、Swagger、监控等
性能优势:
可扩展性:
安全性:
稳定性:
选择自定义发布
自定义发布推理服务需要手动设置参数。您也可以通过组合输入参数创建“模板”,以便快速发布推理服务。
提供模型发布的推理服务详情
参数 | 说明 |
---|---|
Name | 必填,推理 API 的名称。 |
Description | 推理 API 的详细描述,说明其功能和用途。 |
Model | 必填,用于推理的模型名称。 |
Version | 必填,模型版本。选项包括 Branch 和 Tag。 |
Inference Runtimes | 必填,推理运行时所用引擎。 |
Requests CPU | 必填,推理服务请求的 CPU 资源量。 |
Requests Memory | 必填,推理服务请求的内存资源量。 |
Limits CPU | 必填,推理服务可使用的最大 CPU 资源量。 |
Limits Memory | 必填,推理服务可使用的最大内存资源量。 |
GPU Acceleration Type | GPU 加速类型。 |
GPU Acceleration Value | GPU 加速数值。 |
Temporary storage | 推理服务使用的临时存储空间。 |
Mount existing PVC | 挂载已有的 Kubernetes Persistent Volume Claim (PVC) 作为存储。 |
Capacity | 必填,临时存储或 PVC 的容量大小。 |
Auto scaling | 是否启用自动扩缩容功能。 |
Number of instances | 必填,推理服务运行的实例数量。 |
Environment variables | 注入容器运行环境的键值对。 |
Add parameters | 传递给容器入口可执行文件的参数。字符串数组(例如 ["--port=8080", "--batch_size=4"])。 |
Startup command | 覆盖容器镜像中的默认 ENTRYPOINT 指令。可执行文件及参数(例如 ["python", "serve.py"])。 |
点击 发布 按钮创建推理服务。
在 Inference API 服务列表中,点击任意 运行中 服务的名称查看其详情。
点击 体验,展开右侧面板。
提出问题
系统角色
定义 AI 的目的、语气和操作边界(例如,“你是一名专注于医疗信息的助理”)。
参数
根据任务类型选择参数,详情请参见下方参数说明。
不同任务类型的参数说明
文本生成
预设参数
参数 | 数据类型 | 说明 |
---|---|---|
do_sample | bool | 是否使用采样;否则使用贪心解码。 |
max_new_tokens | int | 生成的最大新 tokens 数量,忽略提示中的 tokens。 |
repetition_penalty | float | 重复惩罚,用于控制生成文本中的重复内容;1.0 表示无惩罚,0 表示重复。 |
temperature | float | 生成下一个 token 时模型的随机性;1.0 为高随机性,0 为低随机性。 |
top_k | int | 计算下一个 token 概率分布时,仅考虑概率最高的前 k 个 tokens。 |
top_p | float | 控制模型选择下一个 token 时考虑的累积概率分布。 |
use_cache | bool | 是否使用模型在生成过程中计算的中间结果。 |
其他参数
参数 | 数据类型 | 说明 |
---|---|---|
max_length | int | 生成的最大 tokens 数量。对应输入提示中的 tokens 数量 + max_new_tokens 。若设置了 max_new_tokens ,则以其为准。 |
min_length | int | 生成的最小 tokens 数量。对应输入提示中的 tokens 数量 + min_new_tokens 。若设置了 min_new_tokens ,则以其为准。 |
min_new_tokens | int | 生成的最小新 tokens 数量,忽略提示中的 tokens。 |
early_stop | bool | 控制基于 beam 的停止条件。True:当出现 num_beams 个完整候选时停止生成。False:应用启发式方法,在不太可能找到更好候选时停止生成。 |
num_beams | int | beam search 使用的 beam 数量。1 表示不使用 beam search。 |
max_time | int | 允许计算运行的最长时间,单位秒。 |
num_beam_groups | int | 将 num_beams 分成多个组,确保不同 beam 组间的多样性。 |
diversity_penalty | float | 在启用 num_beam_groups 时生效。该参数对组间应用多样性惩罚,确保每组生成内容尽可能不同。 |
penalty_alpha | float | 当 penalty_alpha 大于 0 且 top_k 大于 1 时启用对比搜索。penalty_alpha 越大,对比惩罚越强,生成文本越符合预期。若设置过大,可能导致生成文本过于单一。 |
typical_p | float | 局部典型性度量,衡量预测下一个目标 token 的条件概率与预测下一个随机 token 的期望条件概率的相似度。若设置为小于 1 的浮点数,将保留概率加和达到或超过 typical_p 的最小局部典型 token 集合用于生成。 |
epsilon_cutoff | float | 若设置为 0 到 1 之间的浮点数,仅采样条件概率大于 epsilon_cutoff 的 token。建议值根据模型大小在 3e-4 到 9e-4 之间。 |
eta_cutoff | float | Eta 采样是局部典型采样和 epsilon 采样的混合。若设置为 0 到 1 之间的浮点数,token 仅在大于 eta_cutoff 或 sqrt(eta_cutoff ) * exp(-entropy(softmax(next_token_logits))) 时被考虑。建议值根据模型大小在 3e-4 到 2e-3 之间。 |
repetition_penalty | float | 重复惩罚参数。1.0 表示无惩罚。 |
更多参数请参考 Text Generation Parameter Configuration。
图像生成
预设参数
参数 | 数据类型 | 说明 |
---|---|---|
num_inference_steps | int | 去噪步骤数。去噪步骤越多,通常图像质量越高,但推理速度越慢。 |
use_cache | bool | 是否使用模型在生成过程中计算的中间结果。 |
其他参数
参数 | 数据类型 | 说明 |
---|---|---|
height | int | 生成图像的高度,单位像素。 |
width | int | 生成图像的宽度,单位像素。 |
guidance_scale | float | 用于调整生成图像的质量与多样性之间的平衡。数值越大多样性越高但质量降低;建议范围为 7 到 8.5。 |
negative_prompt | str 或 List[str] | 用于指导图像生成时不应包含的内容。 |
更多参数请参考 Text-to-Image Parameter Configuration。
文本分类
预设参数
参数 | 数据类型 | 说明 |
---|---|---|
top_k | int | 返回得分最高的类型标签数量。若提供的数字为 None 或超过模型配置中的标签数量,则默认返回所有标签数量。 |
use_cache | bool | 是否使用模型在生成过程中计算的中间结果。 |
更多参数请参考 Text Classification Parameter Configuration。
Image Classification Parameter Configuration
Conversational Parameter Configuration
Summarization Parameter Configuration
Translation Parameter Configuration