安装 Alauda AI

在计划使用 Alauda AI 的集群中,需要部署以下两个 operator:

  1. Alauda AI Operator

Alauda AI Operator 是驱动 Alauda AI 产品的核心引擎,聚焦于两个核心功能:模型管理和推理服务,提供了一个灵活且易于扩展的框架。

  1. Alauda AI Model Serving Operator

Alauda AI Model Serving Operator 提供无服务器模型推理服务。

INFO

在部署 Alauda AI 的过程中,Alauda AI Model Serving Operator 会被自动部署,无需手动操作或配置更改。

目录

下载

INFO

您可以从 Customer Portal 网站的 Marketplace 下载 “Alauda AI” 和 “Alauda AI Model Serving”。操作步骤如下:

  1. 下载名为 “AI” 的应用。
  2. 解压下载的文件,获得 aml-operator.xxx.tgzkserveless-operator.xxx.tgz 软件包。

上传

我们需要将 Alauda AIAlauda AI Model Serving 两个软件包上传到计划使用 Alauda AI 的集群中。

下载 violet 工具

首先,如果机器上没有 violet 工具,需要先下载。

登录 Web Console 并切换到 Administrator 视图:

  1. 点击 Marketplace / Upload Packages
  2. 点击 Download Packaging and Listing Tool
  3. Execution Environment 下找到对应的操作系统 / CPU 架构。
  4. 点击 Download 下载 violet 工具。
  5. 运行 chmod +x ${PATH_TO_THE_VIOLET_TOOL} 使工具可执行。

上传软件包

先将以下脚本保存为 uploading-ai-cluster-packages.sh,然后根据注释更新脚本中的环境变量配置。

uploading-ai-cluster-packages.sh
#!/usr/bin/env bash
export PLATFORM_ADDRESS=https://platform-address  
export PLATFORM_ADMIN_USER=<admin>
export PLATFORM_ADMIN_PASSWORD=<admin-password>
export CLUSTER=<cluster-name>

export AI_CLUSTER_OPERATOR_NAME=<path-to-aml-operator-tarball>
export KSERVELESS_OPERATOR_PKG_NAME=<path-to-kserveless-operator-tarball>

VIOLET_EXTRA_ARGS=()
IS_EXTERNAL_REGISTRY=

# 如果目标集群的镜像仓库类型不是平台内置(外部私有或公共仓库),
# 需要额外配置(取消注释以下行):
# IS_EXTERNAL_REGISTRY=true
if [[ "${IS_EXTERNAL_REGISTRY}" == "true" ]]; then
    REGISTRY_URL=<external-registry-url>
    REGISTRY_USERNAME=<registry-username>
    REGISTRY_PASSWORD=<registry-password>

    VIOLET_EXTRA_ARGS+=(
        --dst-repo "${REGISTRY_ADDRESS}"
        --username "${REGISTRY_USERNAME}"
        --password "${REGISTRY_PASSWORD}"
    )
fi

# 推送 **Alauda AI Cluster** operator 软件包到目标集群
violet push \
    ${AI_CLUSTER_OPERATOR_NAME} \
    --platform-address=${PLATFORM_ADDRESS} \
    --platform-username=${PLATFORM_ADMIN_USER} \
    --platform-password=${PLATFORM_ADMIN_PASSWORD} \
    --clusters=${CLUSTER} \
    ${VIOLET_EXTRA_ARGS[@]}

# 推送 **KServeless** operator 软件包到目标集群
violet push \
    ${KSERVELESS_OPERATOR_PKG_NAME} \
    --platform-address=${PLATFORM_ADDRESS} \
    --platform-username=${PLATFORM_ADMIN_USER} \
    --platform-password=${PLATFORM_ADMIN_PASSWORD} \
    --clusters=${CLUSTER} \
    ${VIOLET_EXTRA_ARGS[@]}
  1. ${PLATFORM_ADDRESS} 是您的 ACP 平台地址。
  2. ${PLATFORM_ADMIN_USER} 是 ACP 平台管理员用户名。
  3. ${PLATFORM_ADMIN_PASSWORD} 是 ACP 平台管理员密码。
  4. ${CLUSTER} 是安装 Alauda AI 组件的目标集群名称。
  5. ${AI_CLUSTER_OPERATOR_NAME} 是 Alauda AI Cluster Operator 软件包 tarball 的路径。
  6. ${KSERVELESS_OPERATOR_PKG_NAME} 是 KServeless Operator 软件包 tarball 的路径。
  7. ${REGISTRY_ADDRESS} 是外部镜像仓库地址。
  8. ${REGISTRY_USERNAME} 是外部镜像仓库用户名。
  9. ${REGISTRY_PASSWORD} 是外部镜像仓库密码。

配置完成后,执行 bash ./uploading-ai-cluster-packages.sh 脚本上传 Alauda AIAlauda AI Model Serving operator。

安装 Alauda AI Operator

操作步骤

Administrator 视图:

  1. 点击 Marketplace / OperatorHub

  2. 在控制台顶部,从 Cluster 下拉列表中选择要安装 Alauda AI 的目标集群。

  3. 选择 Alauda AI,然后点击 Install

    会弹出 Install Alauda AI 窗口。

  4. Install Alauda AI 窗口中:

  5. 保持 Channel 不变。

  6. 检查 Version 是否与您要安装的 Alauda AI 版本匹配。

  7. 保持 Installation Location 不变,默认应为 aml-operator

  8. 选择 Manual 作为 Upgrade Strategy

  9. 点击 Install

验证

确认 Alauda AI 面板显示以下状态之一:

  • Installing:安装进行中;等待状态变为 Installed
  • Installed:安装完成。

创建 Alauda AI 实例

安装完成 Alauda AI Operator 后,即可创建 Alauda AI 实例。

操作步骤

Administrator 视图:

  1. 点击 Marketplace / OperatorHub

  2. 在控制台顶部,从 Cluster 下拉列表中选择要安装 Alauda AI Operator 的目标集群。

  3. 选择 Alauda AI,然后点击。

  4. Alauda AI 页面,点击标签页中的 All Instances

  5. 点击 Create

    会弹出 Select Instance Type 窗口。

  6. Select Instance Type 窗口中找到 AmlCluster 面板,点击 Create

    会显示 Create AmlCluster 表单。

  7. Name 保持为 default

  8. 从下拉列表中选择 Deploy Flavor

    1. single-node 用于非 HA 部署。
    2. ha-cluster 用于 HA 集群部署(生产环境推荐)。
  9. 选择 Managed 作为 Knative Serving Mode

  10. 选择 Managed 作为 KServe Mode

  11. Domain 字段输入有效域名。

    INFO

    该域名用于 ingress gateway 暴露模型推理服务。 通常建议使用通配符域名,如 *.example.com。

    您可以通过更新 Domain Certificate Type 字段指定以下证书类型:

    • Provided
    • SelfSigned
    • ACPDefaultIngress

    默认配置使用 SelfSigned 证书类型保护集群的 ingress 流量,证书存储在 Domain Certificate Secret 字段指定的 knative-serving-cert secret 中。

    若使用自有证书,请将证书 secret 存储在 istio-system 命名空间,然后更新 Domain Certificate Secret 字段的值,并将 Domain Certificate Type 字段改为 Provided

  12. Gitlab 部分:

    1. 输入自托管 Gitlab 的 URL 到 Base URL
    2. 输入 cpaas-systemAdmin Token Secret Namespace
    3. 输入 aml-gitlab-admin-tokenAdmin Token Secret Name
  13. MySQL 部分:

    1. Host 字段输入 MySQL 实例的 地址
    2. Port 字段输入 MySQL 实例的 端口(默认:3306)。
    3. Username 字段输入连接 MySQL 实例的 用户
    4. Database 字段输入用于 Alauda AI数据库 名称(默认:aml)。
    5. Password Secret Namespace 字段选择该 用户 密码 secret 所在的命名空间。
    6. Password Secret Name 字段输入该 用户 密码 secret 的名称。
    INFO

    关于 MySQL 用户权限

    • MySQL 实例的 用户 应具有 DDL 权限。
    • 建议先创建 数据库 并授予 用户 访问权限。
    • 数据库 未创建,则 用户 需拥有 CREATE DATABASE 权限以创建数据库。
  14. 检查以上配置无误后,点击 Create

验证

查看名为 defaultAmlCluster 资源的状态字段:

kubectl get amlcluster default

应返回 Ready 状态:

NAME      READY   REASON
default   True    Succeeded

至此,Alauda AI 的核心能力已成功部署。如果您想快速体验产品,请参考快速开始

安装后替换 GitLab 服务

如果需要在安装后替换 GitLab 服务,请按以下步骤操作:

  1. 重新配置 GitLab 服务
    参考安装前配置并重新执行相关步骤。

  2. 更新 Alauda AI 实例

    • 在 Administrator 视图,进入 Marketplace > OperatorHub
    • Cluster 下拉列表选择目标集群
    • 选择 Alauda AI 并点击 All Instances 标签页
    • 找到名为 'default' 的实例,点击 Update
  3. 修改 GitLab 配置
    Update default 表单中:

    • 找到 GitLab 部分
    • 输入:
      • Base URL:新的 GitLab 实例 URL
      • Admin Token Secret Namespacecpaas-system
      • Admin Token Secret Nameaml-gitlab-admin-token
  4. 重启组件
    重启 kubeflow 命名空间中的 aml-controller deployment。

  5. 刷新平台数据
    在 Alauda AI 管理视图,重新管理所有命名空间。

    • 在 Alauda AI 视图中,从 Business View 切换到 Admin 视图
    • Namespace Management 页面,删除所有已管理的命名空间
    • 使用 “Managed Namespace” 添加需要集成 Alauda AI 的命名空间
      INFO

      原有模型不会自动迁移 若继续使用这些模型:

      • 需在新的 GitLab 中重新创建并重新上传,或
      • 手动将模型文件迁移到新的仓库