快速开始
目录
Overview
本文档旨在帮助新用户快速了解如何在 Alauda AI 中部署推理服务。通过部署一个简单的“文本生成”推理服务并体验,您可以快速掌握平台的主要功能和使用方法。
Applicable Scenarios
- 您是 Alauda AI 的新用户,想快速了解如何将模型发布为可调用的推理服务。
- 您希望通过一个简单示例了解 Alauda AI 的基本功能,包括上传模型、发布推理服务和调用推理服务。
- 您刚刚部署了新的 Alauda AI 环境,想快速验证其可用性。
Estimated Reading Time
预计完成本文档的阅读和操作大约需要 20 分钟。
Notes
本文档仅演示基本流程,详细参数配置请参考完整文档。
Prerequisites
- 您已拥有平台管理员账号(用于创建和管理 namespace)。
- 您已准备好待部署的模型文件(可提前从 Hugging Face、ModelScope 等网站下载)。
- 若需使用 GPU 推理,请确保已安装 GPU 插件。若未安装,请在平台管理插件中心安装 GPU 插件。
- 您了解 Kubernetes 和机器学习模型的基本概念。
Step Overview
步骤 | 操作 | 说明 | 备注 |
---|
1 | 创建 Namespace | 在容器平台创建 namespace,并为用户配置 Alauda AI 相关角色权限 | 若已有 namespace 且已分配用户权限,则跳过此步骤 |
2 | 管理 Namespace | 将 namespace 纳入 Alauda AI 管理 | 若 namespace 已被管理,则跳过此步骤 |
3 | 上传模型 | 上传模型文件至模型仓库 | 若已上传模型或使用平台共享模型,则跳过此步骤 |
4 | 发布推理服务 | 将模型发布为在线推理服务 | |
5 | 调用推理服务 | 通过 API 或“体验”功能调用推理服务 | |
Operation Steps
Step 1: 创建 Namespace 并为用户分配权限
注意:若已有 namespace 且已分配用户权限,则跳过此步骤
Namespace 是 Alauda AI 多租户隔离的基础,每个项目应使用独立的 namespace。
- 以管理员身份登录容器平台。
- 进入 项目管理,选择或创建项目。
- 在项目详情页点击 Namespace。
- 点击 创建 Namespace,输入名称(例如 "text-classification-demo")。
- 点击 创建 完成 namespace 创建。
- 为用户分配 namespace 权限:
- 进入 管理员 > 用户 > 用户。
- 创建用户或选择需要使用该 namespace 的已有用户。
- 点击 配置角色 > 添加角色。
- 添加 Alauda AI 角色,并关联到创建的 namespace 及该 namespace 所属项目。
- aml-namespace-editor:供 namespace 开发者使用,拥有创建、删除、修改、查询模型和推理服务的权限。
- aml-namespace-owner:供 namespace 管理者使用。
- aml-namespace-viewer:仅能查看模型、推理服务及其他资源。
Step 2: 管理 Namespace
注意:若 namespace 已被管理,则跳过此步骤
将创建的 namespace 纳入 Alauda AI 管理:
- 进入 Alauda AI,顶部导航选择 Admin,右侧 Clusters 中选择新建 namespace 所在集群。
- 左侧导航点击 Namespace Manage,点击 管理 Namespace 按钮。
- 在弹出对话框中选择新建的 "text-classification-demo" namespace。
- 点击 管理 完成管理操作。
Step 3: 上传模型
注意:若已上传模型或使用平台共享模型,则跳过此步骤
将文本分类模型上传至模型仓库:
- 进入 Alauda AI,顶部导航选择 业务视图,选择上一步管理的 namespace。
- 左侧导航点击 模型仓库,点击 创建模型仓库,输入准备好的模型名称,如 "gpt2"。
- 创建完成后,进入模型详情页的 文件管理 标签。
- 点击 导入模型文件,拖拽或选择模型文件/子文件夹上传。若上传大语言模型,因文件较大 UI 可能卡顿,建议使用 git push 命令推送大模型文件至模型仓库。
- 点击 导入 按钮,等待上传完成。
- 在 文件管理 标签点击 更新元数据,根据大模型属性选择正确的“任务类型”和“框架”。
- 任务类型:模型自身属性,可通过查看模型下载详情页标签获得,分为“文本生成”、“图像生成”等。
- 框架:模型自身属性,可通过查看模型下载详情页标签获得,分为“Transformers”、“MLflow”等。大多数流行开源大语言模型属于“Transformers”类型。
Step 4: 发布推理服务
将模型发布为在线推理服务:
- 在模型详情页点击 发布推理 API > 自定义发布。
- 配置服务参数:
- 名称:gpt2-service
- 模型:gpt2
- 版本:Branch-main
- 推理运行时:根据 GPU 节点安装的 cuda 版本选择,例如安装 cuda11 驱动则选择 "vllm-cuda11.8-x86",安装 cuda12 则选择 "vllm-cuda12.1-x86"。
- 资源请求:1CPU/4Gi 内存
- 资源限制:2CPU/6Gi 内存
- GPU 加速:GPU 管理器
- GPU vcore:30
- GPU vmemory:32
- 存储:挂载已有 PVC/新建 PVC 或临时存储/容量 10Gi
- 自动扩缩容:关闭
- 实例数:1
- 点击 发布,等待服务启动。
- 在 推理服务 页面查看服务状态。
Step 5: 调用推理服务
测试已发布的推理服务:
- 左侧导航点击 推理服务,点击“已发布推理服务”的名称,在推理服务详情页点击 体验。
- 输入测试文本,如“推荐几本好书”。
- 查看模型返回的生成文本及生成参数。