在计划使用 Alauda AI 的集群中,需要部署以下两个 operator:
Alauda AI Operator 是驱动 Alauda AI 产品的核心引擎,聚焦于两个核心功能:模型管理和推理服务,提供了一个灵活且易于扩展的框架。
Alauda AI Model Serving Operator 提供无服务器模型推理服务。
在部署 Alauda AI 的过程中,Alauda AI Model Serving Operator 会被自动部署,无需手动操作或配置更改。
您可以从 Customer Portal 网站的 Marketplace 下载 “Alauda AI” 和 “Alauda AI Model Serving”。操作步骤如下:
aml-operator.xxx.tgz
和 kserveless-operator.xxx.tgz
软件包。我们需要将 Alauda AI
和 Alauda AI Model Serving
两个软件包上传到计划使用 Alauda AI 的集群中。
首先,如果机器上没有 violet
工具,需要先下载。
登录 Web Console 并切换到 Administrator 视图:
violet
工具。chmod +x ${PATH_TO_THE_VIOLET_TOOL}
使工具可执行。先将以下脚本保存为 uploading-ai-cluster-packages.sh
,然后根据注释更新脚本中的环境变量配置。
${PLATFORM_ADDRESS}
是您的 ACP 平台地址。${PLATFORM_ADMIN_USER}
是 ACP 平台管理员用户名。${PLATFORM_ADMIN_PASSWORD}
是 ACP 平台管理员密码。${CLUSTER}
是安装 Alauda AI 组件的目标集群名称。${AI_CLUSTER_OPERATOR_NAME}
是 Alauda AI Cluster Operator 软件包 tarball 的路径。${KSERVELESS_OPERATOR_PKG_NAME}
是 KServeless Operator 软件包 tarball 的路径。${REGISTRY_ADDRESS}
是外部镜像仓库地址。${REGISTRY_USERNAME}
是外部镜像仓库用户名。${REGISTRY_PASSWORD}
是外部镜像仓库密码。配置完成后,执行 bash ./uploading-ai-cluster-packages.sh
脚本上传 Alauda AI
和 Alauda AI Model Serving
operator。
在 Administrator 视图:
点击 Marketplace / OperatorHub。
在控制台顶部,从 Cluster 下拉列表中选择要安装 Alauda AI 的目标集群。
选择 Alauda AI,然后点击 Install。
会弹出 Install Alauda AI 窗口。
在 Install Alauda AI 窗口中:
保持 Channel 不变。
检查 Version 是否与您要安装的 Alauda AI 版本匹配。
保持 Installation Location 不变,默认应为 aml-operator
。
选择 Manual 作为 Upgrade Strategy。
点击 Install。
确认 Alauda AI 面板显示以下状态之一:
Installing
:安装进行中;等待状态变为 Installed
。Installed
:安装完成。安装完成 Alauda AI Operator 后,即可创建 Alauda AI 实例。
在 Administrator 视图:
点击 Marketplace / OperatorHub。
在控制台顶部,从 Cluster 下拉列表中选择要安装 Alauda AI Operator 的目标集群。
选择 Alauda AI,然后点击。
在 Alauda AI 页面,点击标签页中的 All Instances。
点击 Create。
会弹出 Select Instance Type 窗口。
在 Select Instance Type 窗口中找到 AmlCluster 面板,点击 Create。
会显示 Create AmlCluster 表单。
Name 保持为 default
。
从下拉列表中选择 Deploy Flavor:
single-node
用于非 HA 部署。ha-cluster
用于 HA 集群部署(生产环境推荐)。选择 Managed 作为 Knative Serving Mode。
选择 Managed 作为 KServe Mode。
为 Domain 字段输入有效域名。
该域名用于 ingress gateway 暴露模型推理服务。 通常建议使用通配符域名,如 *.example.com。
您可以通过更新 Domain Certificate Type 字段指定以下证书类型:
Provided
SelfSigned
ACPDefaultIngress
默认配置使用 SelfSigned
证书类型保护集群的 ingress 流量,证书存储在 Domain Certificate Secret 字段指定的 knative-serving-cert
secret 中。
若使用自有证书,请将证书 secret 存储在 istio-system
命名空间,然后更新 Domain Certificate Secret 字段的值,并将 Domain Certificate Type 字段改为 Provided
。
在 Gitlab 部分:
cpaas-system
到 Admin Token Secret Namespace。aml-gitlab-admin-token
到 Admin Token Secret Name。在 MySQL 部分:
3306
)。aml
)。关于 MySQL 用户权限
CREATE DATABASE
权限以创建数据库。检查以上配置无误后,点击 Create。
查看名为 default
的 AmlCluster
资源的状态字段:
应返回 Ready
状态:
至此,Alauda AI 的核心能力已成功部署。如果您想快速体验产品,请参考快速开始。
如果需要在安装后替换 GitLab 服务,请按以下步骤操作:
重新配置 GitLab 服务
参考安装前配置并重新执行相关步骤。
更新 Alauda AI 实例
修改 GitLab 配置
在 Update default 表单中:
cpaas-system
aml-gitlab-admin-token
重启组件
重启 kubeflow
命名空间中的 aml-controller
deployment。
刷新平台数据
在 Alauda AI 管理视图,重新管理所有命名空间。
原有模型不会自动迁移 若继续使用这些模型: