快速开始

目录

Overview

本文档旨在帮助新用户快速了解如何在 Alauda AI 中部署推理服务。通过部署一个简单的“文本生成”推理服务并体验,您可以快速掌握平台的主要功能和使用方法。

Applicable Scenarios

  • 您是 Alauda AI 的新用户,想快速了解如何将模型发布为可调用的推理服务。
  • 您希望通过一个简单示例了解 Alauda AI 的基本功能,包括上传模型、发布推理服务和调用推理服务。
  • 您刚刚部署了新的 Alauda AI 环境,想快速验证其可用性。

Estimated Reading Time

预计完成本文档的阅读和操作大约需要 20 分钟。

Notes

本文档仅演示基本流程,详细参数配置请参考完整文档。

Prerequisites

  • 您已拥有平台管理员账号(用于创建和管理 namespace)。
  • 您已准备好待部署的模型文件(可提前从 Hugging Face、ModelScope 等网站下载)。
  • 若需使用 GPU 推理,请确保已安装 GPU 插件。若未安装,请在平台管理插件中心安装 GPU 插件。
  • 您了解 Kubernetes 和机器学习模型的基本概念。

Step Overview

步骤操作说明备注
1创建 Namespace在容器平台创建 namespace,并为用户配置 Alauda AI 相关角色权限若已有 namespace 且已分配用户权限,则跳过此步骤
2管理 Namespace将 namespace 纳入 Alauda AI 管理若 namespace 已被管理,则跳过此步骤
3上传模型上传模型文件至模型仓库若已上传模型或使用平台共享模型,则跳过此步骤
4发布推理服务将模型发布为在线推理服务
5调用推理服务通过 API 或“体验”功能调用推理服务

Operation Steps

Step 1: 创建 Namespace 并为用户分配权限

注意:若已有 namespace 且已分配用户权限,则跳过此步骤

Namespace 是 Alauda AI 多租户隔离的基础,每个项目应使用独立的 namespace。

  1. 以管理员身份登录容器平台。
  2. 进入 项目管理,选择或创建项目。
  3. 在项目详情页点击 Namespace
  4. 点击 创建 Namespace,输入名称(例如 "text-classification-demo")。
  5. 点击 创建 完成 namespace 创建。
  6. 为用户分配 namespace 权限:
    • 进入 管理员 > 用户 > 用户
    • 创建用户或选择需要使用该 namespace 的已有用户。
    • 点击 配置角色 > 添加角色
    • 添加 Alauda AI 角色,并关联到创建的 namespace 及该 namespace 所属项目。
      • aml-namespace-editor:供 namespace 开发者使用,拥有创建、删除、修改、查询模型和推理服务的权限。
      • aml-namespace-owner:供 namespace 管理者使用。
      • aml-namespace-viewer:仅能查看模型、推理服务及其他资源。

Step 2: 管理 Namespace

注意:若 namespace 已被管理,则跳过此步骤

将创建的 namespace 纳入 Alauda AI 管理:

  1. 进入 Alauda AI,顶部导航选择 Admin,右侧 Clusters 中选择新建 namespace 所在集群。
  2. 左侧导航点击 Namespace Manage,点击 管理 Namespace 按钮。
  3. 在弹出对话框中选择新建的 "text-classification-demo" namespace。
  4. 点击 管理 完成管理操作。

Step 3: 上传模型

注意:若已上传模型或使用平台共享模型,则跳过此步骤

将文本分类模型上传至模型仓库:

  1. 进入 Alauda AI,顶部导航选择 业务视图,选择上一步管理的 namespace。
  2. 左侧导航点击 模型仓库,点击 创建模型仓库,输入准备好的模型名称,如 "gpt2"。
  3. 创建完成后,进入模型详情页的 文件管理 标签。
  4. 点击 导入模型文件,拖拽或选择模型文件/子文件夹上传。若上传大语言模型,因文件较大 UI 可能卡顿,建议使用 git push 命令推送大模型文件至模型仓库。
  5. 点击 导入 按钮,等待上传完成。
  6. 文件管理 标签点击 更新元数据,根据大模型属性选择正确的“任务类型”和“框架”。
    • 任务类型:模型自身属性,可通过查看模型下载详情页标签获得,分为“文本生成”、“图像生成”等。
    • 框架:模型自身属性,可通过查看模型下载详情页标签获得,分为“Transformers”、“MLflow”等。大多数流行开源大语言模型属于“Transformers”类型。

Step 4: 发布推理服务

将模型发布为在线推理服务:

  1. 在模型详情页点击 发布推理 API > 自定义发布
  2. 配置服务参数:
    • 名称:gpt2-service
    • 模型:gpt2
    • 版本:Branch-main
    • 推理运行时:根据 GPU 节点安装的 cuda 版本选择,例如安装 cuda11 驱动则选择 "vllm-cuda11.8-x86",安装 cuda12 则选择 "vllm-cuda12.1-x86"。
    • 资源请求:1CPU/4Gi 内存
    • 资源限制:2CPU/6Gi 内存
    • GPU 加速:GPU 管理器
      • GPU vcore:30
      • GPU vmemory:32
    • 存储:挂载已有 PVC/新建 PVC 或临时存储/容量 10Gi
    • 自动扩缩容:关闭
    • 实例数:1
  3. 点击 发布,等待服务启动。
  4. 推理服务 页面查看服务状态。

Step 5: 调用推理服务

测试已发布的推理服务:

  1. 左侧导航点击 推理服务,点击“已发布推理服务”的名称,在推理服务详情页点击 体验
  2. 输入测试文本,如“推荐几本好书”。
  3. 查看模型返回的生成文本及生成参数。