• Русский
  • Примечания к выпуску

    AI 2.1.0

    Новые и оптимизированные функции

    Поддержка моделей на основе образов контейнеров

    Платформа теперь поддерживает развертывание моделей с использованием образов контейнеров. Используя возможность ModelCar в KServe, пользователи могут упаковывать модели в виде OCI-образов контейнеров и создавать сервисы инференса моделей непосредственно из этих образов без загрузки артефактов модели во время выполнения.

    Использование OCI-контейнеров для хранения и распространения моделей предоставляет несколько преимуществ:

    • Сокращение времени запуска – артефакты модели упакованы внутри образа контейнера, что исключает повторные загрузки при развертывании или масштабировании сервисов инференса.
    • Снижение использования дискового пространства – повторное использование слоев образа контейнера уменьшает избыточное хранение одинаковых файлов модели на узлах.
    • Повышение стабильности производительности инференса – образы могут быть предварительно загружены и кэшированы на узлах, обеспечивая более быстрый и предсказуемый запуск сервисов.

    Эта возможность стандартизирует процесс развертывания моделей и использует экосистему образов контейнеров для эффективного управления версиями моделей, их распространения и жизненного цикла.

    Набор инструментов для сжатия моделей

    Введён набор инструментов для сжатия моделей, интегрирующий библиотеку llm-compressor, обеспечивающий возможности сжатия больших языковых моделей.

    Набор поддерживает продвинутые методы оптимизации, такие как квантизация весов, квантизация активаций и разреживание моделей. Эти методы позволяют пользователям снижать вычислительные и памятьные требования больших моделей при сохранении качества. Задачи сжатия могут выполняться в средах Notebook или автоматизированных конвейерах, помогая организациям снижать затраты на оборудование и повышать производительность инференса.

    Автоматическое масштабирование на основе событий

    Введены возможности автоматического масштабирования на основе событий через интеграцию с KEDA, позволяющие сервисам инференса моделей автоматически масштабироваться в зависимости от сигналов нагрузки в реальном времени.

    В отличие от традиционных стратегий масштабирования, основанных только на использовании CPU или GPU, масштабирование на основе событий может реагировать на метрики, такие как скорость запросов, длина очереди или события сообщений. Это обеспечивает более отзывчивое масштабирование сервисов инференса и улучшает общую эффективность использования ресурсов и стабильность системы.

    Библиотека базовых образов для Notebook

    Добавлена новая библиотека базовых образов для Notebook, предоставляющая предустановленные среды разработки для задач Data Science и AI.

    Эти образы включают часто используемые фреймворки машинного обучения, библиотеки глубокого обучения и инструменты обработки данных, позволяя пользователям быстро запускать среды Notebook для экспериментов и разработки моделей, снижая затраты времени на настройку окружения.

    Обнаружение дрейфа с TrustyAI

    Платформа внедряет возможности обнаружения дрейфа моделей с помощью TrustyAI.

    Эта функция непрерывно отслеживает распределения данных инференса и поведение модели для выявления потенциального дрейфа данных или предсказаний в продуктивных средах. Это помогает командам своевременно выявлять ухудшение производительности модели и поддерживать надежность развернутых AI-систем.

    Ограничения безопасности

    Введены ограничения безопасности для приложений генеративного AI с помощью TrustyAI.

    Эта функция обеспечивает мониторинг и фильтрацию выходных данных моделей на основе политик, позволяя организациям обнаруживать и ограничивать небезопасный или несоответствующий контент, генерируемый AI-моделями. Это способствует повышению безопасности, управляемости и соответствия требованиям генеративных AI-сервисов.

    Среда оценки языковых моделей

    Введена среда оценки языковых моделей для поддержки стандартизированной оценки больших языковых моделей.

    Фреймворк оценки поддерживает множество эталонных задач и наборов данных, позволяя пользователям систематически измерять производительность моделей и принимать решения на основе данных при выборе или оптимизации моделей.

    Устаревшие функции

    Отсутствуют.

    Исправленные ошибки

    • After deleting a model, the list page fails to reflect the deletion result immediately, and the deleted model still briefly exists in the list.
    • When accessing an AI page within a namespace that is not under management, you cannot switch to a page within a namespace that is under management.

    Известные проблемы

    • When the platform access address utilizes a self-signed certificate, updating other access addresses of the platform will trigger the re-issuance of the self-signed certificate. Until the new certificate is synchronized to the model downloading program of the inference service, model downloads will fail.
      Temporary Solution: The certificate for the platform access address will be automatically synchronized in the background. If you encounter model download failures due to certificate verification errors, please wait a few minutes and then attempt to restart the inference service.
    • When using VictoriaMetrics for monitoring data collection of inference services operating in Serverless mode, there is a known issue where the inference services cannot scale down to zero.
    • When deploying an inference service, if users implement image downloading from OCI by modifying the YAML file, after the inference service is created, any subsequent update that triggers modifications and submission via the UI form will result in the invalidation of the storageUri field data for the model. Consequently, the model will fail to start.
      Temporary Solution: For inference services that implement image downloading from OCI via YAML, if an update is required, please make the changes through the YAML editor on the page. Alternatively, after updating via the page interface, double-check the storageUri field in the YAML editor, correct it if necessary, and then submit the changes.