Этот документ пошагово объясняет, как добавить новые среды выполнения инференса для обслуживания как больших языковых моделей (LLM), так и любых других моделей, таких как «классификация изображений», «обнаружение объектов», «классификация текста» и т. д.
Alauda AI поставляется с встроенным движком инференса «vLLM». С помощью «custom inference runtimes» вы можете добавить дополнительные движки инференса, например, Seldon MLServer, Triton inference server и другие.
Внедряя пользовательские среды выполнения, вы расширяете поддержку платформой более широкого спектра типов моделей и типов GPU, а также оптимизируете производительность для конкретных сценариев, чтобы удовлетворить более разнообразные бизнес-требования.
В этом разделе мы продемонстрируем расширение текущей AI платформы с помощью пользовательской среды выполнения сервиса инференса XInfernece для развертывания LLM и обслуживания «OpenAI совместимого API».
Рассмотрите возможность расширения сред выполнения сервиса инференса вашей AI платформы, если вы столкнулись с одной из следующих ситуаций:
vLLM.Перед началом убедитесь, что выполнены следующие условия:
xprobe/xinference:v1.2.2 (для GPU) или xprobe/xinference:v1.2.2-cpu (для CPU).Вам нужно создать соответствующие ресурсы среды выполнения инференса в зависимости от целевой аппаратной среды (GPU/CPU/NPU).
Подготовьте YAML-конфигурацию среды выполнения:
В зависимости от типа среды выполнения, которую вы хотите добавить (например, Xinference), и вашей целевой аппаратной среды подготовьте соответствующий YAML-файл конфигурации. Ниже приведены примеры для среды Xinference на разных аппаратных платформах:
image на путь к вашему реальному подготовленному образу среды выполнения. Также вы можете изменить поле annotations.cpaas.io/display-name для кастомизации отображаемого имени среды выполнения в UI AI платформы.Примените YAML-файл для создания ресурса:
В терминале с правами администратора кластера выполните команду для применения вашего YAML-файла и создания ресурса среды выполнения инференса:
После успешного создания ресурса среды выполнения Xinference вы сможете выбрать и настроить её при публикации сервиса инференса LLM на AI платформе.
Настройте фреймворк инференса для модели:
Убедитесь, что на странице деталей модели в репозитории моделей, которую вы собираетесь публиковать, выбран соответствующий framework через функцию редактирования метаданных File Management. Значение параметра framework, выбранное здесь, должно совпадать со значением из поля supportedModelFormats, указанного при создании среды выполнения инференса. Пожалуйста, убедитесь, что значение параметра framework модели входит в список supportedModelFormats, установленный в среде выполнения инференса.
Перейдите на страницу публикации сервиса инференса:
Войдите в AI платформу и перейдите в модули «Inference Services» или «Model Deployment», затем нажмите «Publish Inference Service».
Выберите среду выполнения Xinference:
В мастере создания сервиса инференса найдите опцию «Runtime» или «Inference Framework». В выпадающем списке или меню выберите среду выполнения Xinference, которую вы создали на шаге 1 (например, «Xinference CPU Runtime» или «Xinference GPU Runtime (CUDA)»).
Установите переменные окружения: Среда выполнения Xinference требует определённых переменных окружения для корректной работы. На странице конфигурации сервиса инференса найдите раздел «Environment Variables» или «More Settings» и добавьте следующую переменную окружения:
Описание параметра переменной окружения
| Имя параметра | Описание | 
|---|---|
| MODEL_FAMILY | Обязательно. Указывает семейство LLM модели, которую вы разворачиваете. Xinference использует этот параметр для идентификации и загрузки правильной логики инференса для модели. Например, если вы разворачиваете модель Llama 3, установите значение llama; если это модель ChatGLM, установитеchatglm. Пожалуйста, задайте это в соответствии с реальным семейством вашей модели. | 
Пример:
MODEL_FAMILYllama (если вы используете модель серии Llama, ознакомьтесь с документацией для подробностей. Или выполните команду xinference registrations -t LLM для списка всех поддерживаемых семейств моделей.)