发版日志

目录

AI 1.3.3

修复的问题

  • 用共享模型的模板发布其推理服务时,偶尔会出现模型拉取失败的问题
  • 推理服务列表中的 GPU 加速一列,未能正确的展示扩展资源的使用情况,当推理服务使用扩展资源时,此列错误的展示成‘未使用’了

已知问题

  • 在 Gitlab 中通过直接编辑 readme 文件,来修改 library_name,在页面中无法同步显示出其模型类型变化。
    临时方案:使用 UI 操作修改,避免直接操作 Gitlab 修改。

AI 1.3.2

修复的问题

  • 推理服务(Inference Service)问题:服务卡在“待处理(Pending)”状态
    在部署推理服务时,该服务长时间处于待处理状态,无法进入运行状态。
    检查容器平台计算组件(Deployment)内的实时事件后,观察到以下警告信息:
    “创建失败:禁止创建 Pod“xxx-predictor-xxx”:配额不足:默认配额要求必须为以下资源指定限制值:队列代理(queue-proxy)的 limits.cpu;队列代理(queue-proxy)的 limits.memory;队列代理(queue-proxy)的 requests.memory”
    此错误表明,由于违反资源配额限制,部署操作无法创建 Pod。该问题的根本原因是:由 Knative 注入的队列代理(queue-proxy)容器未配置默认资源限制。因此,队列代理缺少容器平台默认配额强制要求的 CPU 和内存资源规格(limits.cpu、limits.memory、requests.memory)。

已知问题

  • 用共享模型的模板发布其推理服务时,偶尔会出现模型拉取失败的问题
  • 在 Gitlab 中通过直接编辑 readme 文件,来修改 library_name,在页面中无法同步显示出其模型类型变化。
    临时方案:使用 UI 操作修改,避免直接操作 Gitlab 修改。

AI 1.3.1

新增与优化功能

产品更名为 "Alauda AI"

产品名称由 "Alauda Machine Learning" 更改为 "Alauda AI"。

修复的问题

此次发版无相关问题。

已知问题

  • 用共享模型的模板发布其推理服务时,偶尔会出现模型拉取失败的问题
  • 推理服务(Inference Service)问题:服务卡在“待处理(Pending)”状态
    在部署推理服务时,该服务长时间处于待处理状态,无法进入运行状态。
    检查容器平台计算组件(Deployment)内的实时事件后,观察到以下警告信息:
    “创建失败:禁止创建 Pod“xxx-predictor-xxx”:配额不足:默认配额要求必须为以下资源指定限制值:队列代理(queue-proxy)的 limits.cpu;队列代理(queue-proxy)的 limits.memory;队列代理(queue-proxy)的 requests.memory”
    此错误表明,由于违反资源配额限制,部署操作无法创建 Pod。该问题的根本原因是:由 Knative 注入的队列代理(queue-proxy)容器未配置默认资源限制。因此,队列代理缺少容器平台默认配额强制要求的 CPU 和内存资源规格(limits.cpu、limits.memory、requests.memory)。
  • 在 Gitlab 中通过直接编辑 readme 文件,来修改 library_name,在页面中无法同步显示出其模型类型变化。
    临时方案:使用 UI 操作修改,避免直接操作 Gitlab 修改。

AI 1.3.0

新增与优化功能

共享模型权限限制

模型仓库目前支持两种模型类型:共享模型私有模型。在原设计中,用户可以对共享模型执行部分管理操作,存在潜在权限风险。
本次发布中,私有模型的功能和权限保持不变,支持完整的管理操作。共享模型的权限进行了限制和优化,具体如下:

  • 权限限制:所有用户仅能使用共享模型,不再支持创建、编辑或删除共享模型。
  • 创建流程调整:“创建模型”流程中移除可见性参数,所有新建模型默认为 私有模型
  • 功能移除:
    • 共享模型移除以下功能:
      • 编辑标签按钮
      • 编辑描述按钮
      • 创建标签按钮
      • 删除按钮
      • 文件管理标签页
      • 版本管理标签页

推理服务新增模板发布功能

之前创建推理服务需要手动配置大量相互依赖的参数,复杂度高且易出错,导致成功率降低,影响用户体验。
本次发布引入了模板发布功能,允许用户将验证过的配置封装为模板,基于模板快速发布推理服务。
优势包括:

  • 用户可创建自定义模板,复用验证过的最佳实践。
  • 参数配置自动填充,减少重复输入和依赖错误。
  • 降低大模型推理服务发布门槛,提高成功率和效率。

推理运行时支持单节点多GPU

之前推理服务部署在单节点时仅支持单GPU模式,受限于资源调度,限制了大模型推理场景且GPU资源利用不足。
本次升级支持单节点内多GPU调度,单个推理服务可自动分配同一机器上的多个GPU,实现更大模型推理、更优资源利用和增强服务能力。

推理服务新增“业务监控”

推理服务之前仅展示基础信息。为提升可观测性,帮助用户快速发现问题、实时监控服务健康、主动优化或调整资源,新增以下功能:
监控面板

  • 作为推理服务的新标签页,覆盖三大维度:
    • 资源监控:CPU 使用量(核)、CPU 利用率(%)、内存使用量(GiB)、内存利用率(%)
    • 计算监控:GPU 使用量(核)、GPU 利用率(%)、GPU 内存使用量(GiB)、GPU 内存利用率(%)
    • 其他指标:响应时间、流量(入/出数据量)、QPS(每秒查询数)、总调用次数、令牌吞吐量(/秒)

推理运行时扩展

为增强 AML 推理运行时支持,本版本新增以下运行时:

  • vllm-cuda-11.8
  • vllm-cpu

独立“平台管理视图”

之前平台管理功能(包括 Namespace 管理和凭证管理)与业务功能混合在同一视图,权限层级混杂导致混淆。
本次发布:

  • 平台管理功能独立为单独视图,仅管理员可见和操作
  • 管理员可通过顶部导航自由切换 “管理视图”“业务视图”
  • 普通用户仅能访问 业务视图,无法访问平台管理功能。

Namespace 入驻自动配置 GitLab 令牌

之前入驻 Namespace 时,用户需手动配置 GitLab 令牌以授权仓库访问。
本次优化 GitLab 授权流程,实现 自动配置 GitLab 令牌

  • 每个新入驻的 Namespace 平台自动配置 GitLab 令牌。
  • 用户无需手动操作或管理 GitLab 授权。
  • 确保所有管理的 Namespace 持续访问 GitLab。

废弃功能

α 功能降级为 S2 阶段

AML 平台迭代过程中,部分模块以 α 功能 形式发布,用于探索设计和用户需求验证。
但由于大模型开发场景快速变化及用户需求演进,部分 α 功能存在设计缺陷或适用性有限,将进行重新评估降级为 S2 阶段以便未来规划。
降级功能包括:

  • 数据集:数据集仓库、数据标注
  • 模型优化:任务模板、模型微调、预训练
  • Agents:应用仓库、Dify
  • 高级功能:Notebook、存储卷、MLFlow、Tensorboard、工作流、工作流任务、定时任务、AutoML
  • 模型:构建推理 API 镜像

修复的问题

  • “共享”类型的模型无法被其他命名空间的用户访问,导致“推理服务体验”效果从聊天补全退变为文本补全。
  • 当模型数量超过100时,因API错误仅可获取前100条数据,导致“概览页”中“模型仓库数量的统计不准确。
  • 推理服务的日志仅可显示第一个 pod 的日志,导致无法查看多个 pod 的日志。
  • 修复推理服务调用示例中使用了固定的模型名称的问题。
  • 在驱动为cuda 12.4的节点上,使用 gpu-manager + vllm推理运行时创建推理服务时,会出现”enforce_eager=True or user '--enforce-eager' in the CLI“的错误。
    原因是,当应用根据cuda版本请求cuda函数地址时, gpu-manager每次都返回最新的函数版本,例如cumemoryalloc存在v1,v2,v3时。v1存在cuda 10版本,v2针对cuda11版本,v3针对cuda12版本,每次返回最新可能会导致推理服务异常。

已知问题

  • 用共享模型的模板发布其推理服务时,偶尔会出现模型拉取失败的问题
  • 推理服务(Inference Service)问题:服务卡在“待处理(Pending)”状态
    在部署推理服务时,该服务长时间处于待处理状态,无法进入运行状态。
    检查容器平台计算组件(Deployment)内的实时事件后,观察到以下警告信息:
    “创建失败:禁止创建 Pod“xxx-predictor-xxx”:配额不足:默认配额要求必须为以下资源指定限制值:队列代理(queue-proxy)的 limits.cpu;队列代理(queue-proxy)的 limits.memory;队列代理(queue-proxy)的 requests.memory”
    此错误表明,由于违反资源配额限制,部署操作无法创建 Pod。该问题的根本原因是:由 Knative 注入的队列代理(queue-proxy)容器未配置默认资源限制。因此,队列代理缺少容器平台默认配额强制要求的 CPU 和内存资源规格(limits.cpu、limits.memory、requests.memory)。
  • 在 Gitlab 中通过直接编辑 readme 文件,来修改 library_name,在页面中无法同步显示出其模型类型变化。
    临时方案:使用 UI 操作修改,避免直接操作 Gitlab 修改。