• Русский
  • Примечания к выпуску

    AI 2.3.0

    Новые и оптимизированные функции

    Распределённые нагрузки на базе Ray

    KubeRay и CodeFlare SDK позволяют разработчикам запускать распределённые нагрузки на базе Ray из Workbench и управлять удалёнными кластерами Ray в Kubernetes. Разработчики могут создавать и отслеживать ресурсы RayCluster, отправлять задачи RayJob и определять распределённые вычислительные задания для сред на основе Python.

    Feast Feature Store

    Feast Feature Store предоставляет единообразный способ управления повторно используемыми признаками machine learning на этапах обучения, пакетного скоринга и online inference. Администраторы могут разворачивать Feast в Kubernetes через пользовательский ресурс FeatureStore, который управляет основными службами, такими как online store, offline store, registry, UI и конфигурация клиента.

    Поддержка S3 в Connection Hub

    Connection Hub поддерживает типы подключений S3, расширяя набор повторно используемых конфигураций подключений для рабочих процессов AI. Это позволяет пользователям один раз настроить доступ к S3-compatible object storage и повторно использовать это подключение в поддерживаемых рабочих процессах model, data и development.

    Дообучение и постдообучение в TrainingHub

    TrainingHub предоставляет унифицированный высокоуровневый API для дообучения и постдообучения моделей в средах Workbench. Он поддерживает рабочие процессы SFT и OSFT при выполнении на одном GPU, нескольких GPU и в многонодовой конфигурации, упрощая настройку распределённого обучения, управление памятью, checkpointing и отслеживание экспериментов.

    Расширенная библиотека базовых образов Notebook для ARM

    Библиотека базовых образов Notebook для ARM теперь включает образы minimal CANN, PyTorch CANN, MindSpore CANN и datascience code-server. Образы на базе CANN обеспечивают поддержку фреймворков для Ascend NPUs, расширяя возможности разработки на ARM для сред notebook и code-server.

    Устаревшие функции

    В этом выпуске отсутствуют.

    Исправленные проблемы

    • [LWS] Add master/control-plane node tolerations to LWS controller to fix Pending status.
    • Inconsistency between the tag and the start tag of a Node Feature Discovery package leads to an anomalous deployment state in the global cluster, but not in the business cluster.
    • Fix catalog component start error in disconnected environments
    • After successfully creating an inference service and updating the parameters of ServingRuntime in the management view, if the inference service references this ServingRuntime, even if it is stopped and restarted or some of the parameters are updated, it cannot actually reference the latest ServingRuntime parameters internally.

    Известные проблемы

    • Modifying library_name in Gitlab by directly editing the readme file does not synchronize the model type change on the page.
      Temporary solution: Use UI operation to modify the library_name to avoid direct operation in Gitlab.
    • When using VictoriaMetrics for monitoring data collection of inference services operating in Serverless mode, there is a known issue where the inference services cannot scale down to zero.