• Русский
  • Примечания к выпуску

    Содержание

    AI 1.3.3

    Исправленные ошибки

    • When publishing the inference service using the shared model template, model pull failure may occur occasionally
    • The GPU acceleration column in the inference service list does not correctly display the usage of extended resources. When the inference service uses extended resources, this column is incorrectly displayed as "unused".

    Известные проблемы

    • Modifying library_name in Gitlab by directly editing the readme file does not synchronize the model type change on the page.
      Temporary solution: Use UI operation to modify the library_name to avoid direct operation in Gitlab.

    AI 1.3.2

    Исправленные ошибки

    • Inference Service Issue: Service Stuck in Pending State
      When deploying an inference service, it remains in a pending state for an extended period, failing to transition to a running state.

      Upon inspecting the real-time events within the container platform's compute component (Deployment), the following warning message is observed:

      "Error creating: pods "xxx-predictor-xxx" is forbidden: failed quota: default: must specify limits.cpu for: queue-proxy; limits.memory for: queue-proxy; requests.memory for: queue-proxy"

      This error indicates that the deployment is being prevented from creating pods due to a resource quota violation. The root cause of this issue is that the queue-proxy container, which is injected by Knative, does not have default resource limits configured. As a result, the queue-proxy is missing the required CPU and memory resource specifications (limits.cpu, limits.memory, requests.memory) as enforced by the default quota on your container platform.

    Известные проблемы

    • When publishing the inference service using the shared model template, model pull failure may occur occasionally
    • Modifying library_name in Gitlab by directly editing the readme file does not synchronize the model type change on the page.
      Temporary solution: Use UI operation to modify the library_name to avoid direct operation in Gitlab.

    AI 1.3.1

    Новые и оптимизированные функции

    Ребрендинг продукта в "Alauda AI"

    Название продукта изменено с "Alauda Machine Learning" на "Alauda AI".

    Исправленные ошибки

    No issues in this release.

    Известные проблемы

    • When publishing the inference service using the shared model template, model pull failure may occur occasionally
    • Inference Service Issue: Service Stuck in Pending State
      When deploying an inference service, it remains in a pending state for an extended period, failing to transition to a running state.

      Upon inspecting the real-time events within the container platform's compute component (Deployment), the following warning message is observed:

      "Error creating: pods "xxx-predictor-xxx" is forbidden: failed quota: default: must specify limits.cpu for: queue-proxy; limits.memory for: queue-proxy; requests.memory for: queue-proxy"

      This error indicates that the deployment is being prevented from creating pods due to a resource quota violation. The root cause of this issue is that the queue-proxy container, which is injected by Knative, does not have default resource limits configured. As a result, the queue-proxy is missing the required CPU and memory resource specifications (limits.cpu, limits.memory, requests.memory) as enforced by the default quota on your container platform.
    • Modifying library_name in Gitlab by directly editing the readme file does not synchronize the model type change on the page.
      Temporary solution: Use UI operation to modify the library_name to avoid direct operation in Gitlab.

    AI 1.3.0

    Новые и оптимизированные функции

    Ограничение прав на общие модели

    Репозиторий моделей в настоящее время поддерживает два типа моделей: Общие модели и Приватные модели. В исходном дизайне пользователи могли выполнять определённые операции управления общими моделями, что создавало потенциальные риски с точки зрения прав доступа.
    В этом выпуске функциональность и права для Приватных моделей остаются без изменений, поддерживая полный набор операций управления. Права для Общих моделей ограничены и оптимизированы следующим образом:

    • Ограничение прав: Все пользователи могут только использовать общие модели. Возможность создавать, редактировать или удалять общие модели больше не поддерживается.
    • Корректировка процесса создания: Параметр видимости удалён из процесса "Создать модель". Все новые модели по умолчанию создаются как Приватные модели.
    • Удаление функций:
      • Для Общих моделей удалены следующие функции:
        • Кнопка редактирования тегов
        • Кнопка редактирования описания
        • Кнопка создания тега
        • Кнопка удаления
        • Вкладка управления файлами
        • Вкладка управления версиями

    Новая публикация шаблонов для inference-сервисов

    Ранее создание inference-сервисов требовало ручной настройки множества взаимозависимых параметров. Эта сложность часто приводила к ошибкам, снижая успешность и ухудшая пользовательский опыт.
    В этом выпуске введена возможность публикации шаблонов, позволяющая пользователям инкапсулировать проверенные конфигурации в шаблоны и быстро публиковать inference-сервисы на их основе.
    Преимущества:

    • Пользователи могут создавать собственные шаблоны, повторно используя проверенные лучшие практики.
    • Автозаполнение параметров снижает повторяющийся ввод и ошибки зависимостей.
    • Снижает порог публикации inference-сервисов для больших моделей, повышая успешность и эффективность.

    Поддержка Multi-GPU на одном узле для inference runtime

    Ранее inference-сервисы, развернутые на одном узле, поддерживали только режим с одним GPU из-за ограничений планирования ресурсов. Это ограничивало сценарии инференса больших моделей и приводило к неэффективному использованию GPU.
    С этим обновлением поддерживается планирование нескольких GPU на одном узле. Один inference-сервис может автоматически выделять несколько GPU на одной машине, что позволяет выполнять инференс больших моделей, лучше использовать ресурсы и повышать возможности сервиса.

    "Бизнес-мониторинг" для inference-сервисов

    Ранее inference-сервисы отображали только базовую информацию. Для улучшения наблюдаемости и возможности быстрого обнаружения проблем, мониторинга состояния сервиса в реальном времени и проактивной оптимизации или корректировки ресурсов введена новая функция:
    Панель мониторинга

    • Добавлена как новая вкладка в inference-сервисах, охватывающая три направления:
      • Мониторинг ресурсов: использование CPU (ядра), загрузка CPU (%), использование памяти (GiB), загрузка памяти (%)
      • Мониторинг вычислений: использование GPU (ядра), загрузка GPU (%), использование памяти GPU (GiB), загрузка памяти GPU (%)
      • Прочие метрики: время отклика, трафик (входящий/исходящий объём данных), QPS (запросов в секунду), общее количество вызовов, пропускная способность по токенам (/с)

    Расширение inference runtime

    Для улучшения поддержки AML inference runtime в этой версии добавлены новые рантаймы:

    • vllm-cuda-11.8
    • vllm-cpu

    Выделенный "Вид управления платформой"

    Ранее функции управления платформой (включая управление Namespace и управление учетными данными) были смешаны с бизнес-функциями в одном представлении, что вызывало путаницу из-за смешанных уровней прав.
    В этом выпуске:

    • Функции управления платформой выделены в отдельное представление, доступное и управляемое только Администраторами.
    • Администраторы могут свободно переключаться между "Видом управления" и "Бизнес-видом" через верхнюю навигацию.
    • Обычные пользователи имеют доступ только к Бизнес-виду, без доступа к функциям управления платформой.

    Автоматическая настройка GitLab Token при подключении Namespace

    Ранее при подключении Namespace пользователи должны были вручную настраивать GitLab Token для авторизации доступа к репозиторию.
    В этом выпуске оптимизирован процесс авторизации GitLab за счёт реализации автоматической настройки GitLab Token:

    • Для каждого нового подключаемого Namespace платформа автоматически настраивает GitLab Token.
    • Пользователям не требуется выполнять ручные операции или управлять авторизацией GitLab.
    • Обеспечивается непрерывный доступ к GitLab для всех управляемых Namespace.

    Устаревшие функции

    Понижение α-функций до стадии S2

    В ходе итераций платформы AML некоторые модули выпускались как α-функции для исследовательской проверки дизайна и потребностей пользователей.
    Однако из-за быстрых изменений в сценариях разработки больших моделей и эволюции требований пользователей некоторые α-функции имеют недостатки в дизайне или ограниченную применимость. Эти функции будут переоценены и понижены до стадии S2 для дальнейшего планирования.
    Понижены следующие функции:

    • Dataset: Репозиторий датасетов, Разметка данных
    • Model Optimization: Шаблоны задач, Тонкая настройка моделей, Предобучение
    • Agents: Репозиторий приложений, Dify
    • Advanced Features: Notebook, Хранилища, MLFlow, Tensorboard, Workflow, Задачи Workflow, Планировщик задач, AutoML
    • Model: Сборка образа Inference API

    Исправленные ошибки

    • Models of type "Shared" are not accessible to users in other namespaces, causing the "Reasoning Service Experience" effect to fall back from chat-completion to text-completion.
    • When the number of models exceeds 100, only the first 100 data items can be retrieved due to an API error, resulting in inaccurate statistics for the number of model repositories in the "Overview Page".
    • The logs of the inference service can only display the logs of the first pod, making it impossible to view the logs of multiple pods.
    • Fix an issue where a fixed model name was used in the reasoning service call example.
    • When creating an inference service with gpu-manager + vllm inference runtime on a node with cuda 12.4 driver, the error "enable_eager=True or user '--enforce-eager' in the CLI" occurs.
      The reason is that when the application requests the address of a cuda function based on the cuda version, gpu-manager returns the latest function version every time, for example, when cumemoryalloc exists for v1, v2, and v3. v1 exists for cuda 10, v2 for cuda 11, and v3 for cuda 12, and returning the latest every time may result in an exception for the inference service. service exception.

    Известные проблемы

    • When publishing the inference service using the shared model template, model pull failure may occur occasionally
    • Inference Service Issue: Service Stuck in Pending State
      When deploying an inference service, it remains in a pending state for an extended period, failing to transition to a running state.

      Upon inspecting the real-time events within the container platform's compute component (Deployment), the following warning message is observed:

      "Error creating: pods "xxx-predictor-xxx" is forbidden: failed quota: default: must specify limits.cpu for: queue-proxy; limits.memory for: queue-proxy; requests.memory for: queue-proxy"

      This error indicates that the deployment is being prevented from creating pods due to a resource quota violation. The root cause of this issue is that the queue-proxy container, which is injected by Knative, does not have default resource limits configured. As a result, the queue-proxy is missing the required CPU and memory resource specifications (limits.cpu, limits.memory, requests.memory) as enforced by the default quota on your container platform.
    • Modifying library_name in Gitlab by directly editing the readme file does not synchronize the model type change on the page.
      Temporary solution: Use UI operation to modify the library_name to avoid direct operation in Gitlab.