简体中文

快速开始

Overview

本文档旨在帮助新用户快速了解如何在 Alauda AI 中部署推理服务。通过部署一个简单的“文本生成”推理服务并体验，您可以快速掌握平台的主要功能和使用方法。

Applicable Scenarios

您是 Alauda AI 的新用户，想快速了解如何将模型发布为可调用的推理服务。
您希望通过一个简单示例了解 Alauda AI 的基本功能，包括上传模型、发布推理服务和调用推理服务。
您刚刚部署了新的 Alauda AI 环境，想快速验证其可用性。

Estimated Reading Time

预计完成本文档的阅读和操作大约需要 20 分钟。

Notes

本文档仅演示基本流程，详细参数配置请参考完整文档。

Prerequisites

您已拥有平台管理员账号（用于创建和管理 namespace）。
您已准备好待部署的模型文件（可提前从 Hugging Face、ModelScope 等网站下载）。
若需使用 GPU 推理，请确保已安装 GPU 插件。若未安装，请在平台管理插件中心安装 GPU 插件。
您了解 Kubernetes 和机器学习模型的基本概念。

Step Overview

步骤	操作	说明	备注
1	创建 Namespace	在容器平台创建 namespace，并为用户配置 Alauda AI 相关角色权限	若已有 namespace 且已分配用户权限，则跳过此步骤
2	管理 Namespace	将 namespace 纳入 Alauda AI 管理	若 namespace 已被管理，则跳过此步骤
3	上传模型	上传模型文件至模型仓库	若已上传模型或使用平台共享模型，则跳过此步骤
4	发布推理服务	将模型发布为在线推理服务
5	调用推理服务	通过 API 或“体验”功能调用推理服务

Operation Steps

Step 1: 创建 Namespace 并为用户分配权限

注意：若已有 namespace 且已分配用户权限，则跳过此步骤

Namespace 是 Alauda AI 多租户隔离的基础，每个项目应使用独立的 namespace。

以管理员身份登录容器平台。
进入 项目管理，选择或创建项目。
在项目详情页点击 Namespace。
点击 创建 Namespace，输入名称（例如 "text-classification-demo"）。
点击创建完成 namespace 创建。
为用户分配 namespace 权限：
- 进入 管理员 > 用户 > 用户。
- 创建用户或选择需要使用该 namespace 的已有用户。
- 点击 配置角色 > 添加角色。
- 添加 Alauda AI 角色，并关联到创建的 namespace 及该 namespace 所属项目。
  - aml-namespace-editor：供 namespace 开发者使用，拥有创建、删除、修改、查询模型和推理服务的权限。
  - aml-namespace-owner：供 namespace 管理者使用。
  - aml-namespace-viewer：仅能查看模型、推理服务及其他资源。

Step 2: 管理 Namespace

注意：若 namespace 已被管理，则跳过此步骤

将创建的 namespace 纳入 Alauda AI 管理：

进入 Alauda AI，顶部导航选择 Admin，右侧 Clusters 中选择新建 namespace 所在集群。
左侧导航点击 Namespace Manage，点击 管理 Namespace 按钮。
在弹出对话框中选择新建的 "text-classification-demo" namespace。
点击管理完成管理操作。

Step 3: 上传模型

注意：若已上传模型或使用平台共享模型，则跳过此步骤

将文本分类模型上传至模型仓库：

进入 Alauda AI，顶部导航选择 业务视图，选择上一步管理的 namespace。
左侧导航点击 模型仓库，点击 创建模型仓库，输入准备好的模型名称，如 "gpt2"。
创建完成后，进入模型详情页的 文件管理 标签。
点击 导入模型文件，拖拽或选择模型文件/子文件夹上传。若上传大语言模型，因文件较大 UI 可能卡顿，建议使用 git push 命令推送大模型文件至模型仓库。
点击导入按钮，等待上传完成。
在 文件管理 标签点击 更新元数据，根据大模型属性选择正确的“任务类型”和“框架”。
- 任务类型：模型自身属性，可通过查看模型下载详情页标签获得，分为“文本生成”、“图像生成”等。
- 框架：模型自身属性，可通过查看模型下载详情页标签获得，分为“Transformers”、“MLflow”等。大多数流行开源大语言模型属于“Transformers”类型。

Step 4: 发布推理服务

将模型发布为在线推理服务：

在模型详情页点击 发布推理 API > 自定义发布。
配置服务参数：
- 名称：gpt2-service
- 模型：gpt2
- 版本：Branch-main
- 推理运行时：根据 GPU 节点安装的 cuda 版本选择，例如安装 cuda11 驱动则选择 "vllm-cuda11.8-x86"，安装 cuda12 则选择 "vllm-cuda12.1-x86"。
- 资源请求：1CPU/4Gi 内存
- 资源限制：2CPU/6Gi 内存
- GPU 加速：GPU 管理器
  - GPU vcore：30
  - GPU vmemory：32
- 存储：挂载已有 PVC/新建 PVC 或临时存储/容量 10Gi
- 自动扩缩容：关闭
- 实例数：1
点击发布，等待服务启动。
在 推理服务 页面查看服务状态。

Step 5: 调用推理服务

测试已发布的推理服务：

左侧导航点击 推理服务，点击“已发布推理服务”的名称，在推理服务详情页点击体验。
输入测试文本，如“推荐几本好书”。
查看模型返回的生成文本及生成参数。

指南

故障排查

指导手册

how_to

功能指南

功能指南

功能指南

管理 API

Operator APIs

推理服务 APIs

快速开始

目录

Overview

Applicable Scenarios

Estimated Reading Time

Notes

Prerequisites

Step Overview

Operation Steps

Step 1: 创建 Namespace 并为用户分配权限

Step 2: 管理 Namespace

Step 3: 上传模型

Step 4: 发布推理服务

Step 5: 调用推理服务

指南

故障排查

指导手册

how_to

功能指南

功能指南

功能指南

管理 API

Operator APIs

推理服务 APIs

#快速开始

#目录

#Overview

#Applicable Scenarios

#Estimated Reading Time

#Notes

#Prerequisites

#Step Overview

#Operation Steps

#Step 1: 创建 Namespace 并为用户分配权限

#Step 2: 管理 Namespace

#Step 3: 上传模型

#Step 4: 发布推理服务

#Step 5: 调用推理服务

快速开始

目录

Overview

Applicable Scenarios

Estimated Reading Time

Notes

Prerequisites

Step Overview

Operation Steps

Step 1: 创建 Namespace 并为用户分配权限

Step 2: 管理 Namespace

Step 3: 上传模型

Step 4: 发布推理服务

Step 5: 调用推理服务