Установка Llama Stack
В этом документе описывается, как установить и развернуть Llama Stack Server на Kubernetes с помощью Llama Stack Operator.
Содержание
Загрузка оператораУстановка оператораРазвертывание Llama Stack ServerВызов инструментов с vLLM на KServeЗагрузка оператора
Скачайте файл установки Llama Stack Operator (например, llama-stack-operator.alpha.ALL.xxxx.tgz).
Используйте команду violet для публикации в репозиторий платформы:
Установка оператора
-
Перейдите в представление
Administratorв Alauda Container Platform. -
В левой навигации выберите
Marketplace/Operator Hub. -
В правой панели найдите
Alauda build of Llama Stackи нажмитеInstall. -
Оставьте все параметры по умолчанию и завершите установку.
Развертывание Llama Stack Server
После установки оператора разверните Llama Stack Server, создав пользовательский ресурс LlamaStackDistribution:
Примечание: Подготовьте следующее заранее, иначе дистрибутив может не перейти в состояние готовности:
- Inference URL:
VLLM_URLдолжен указывать на HTTP базовый URL, совместимый с OpenAI vLLM (например, vLLM внутри кластера или KServe InferenceService), который обслуживает целевую модель.- Секрет (опционально):
VLLM_API_TOKENнужен только если конечная точка vLLM требует аутентификации. Если у vLLM нет аутентификации, не устанавливайте этот параметр. При необходимости создайте Secret в том же namespace и укажите его вcontainerSpec.env(см. закомментированный пример в манифесте ниже).- Storage Class: Убедитесь, что в кластере существует Storage Class с именем
default; иначе PVC не сможет быть привязан, и ресурс не станет готовым.
После развертывания Llama Stack Server будет доступен внутри кластера. URL доступа отображается в status.serviceURL, например:
Вызов инструментов с vLLM на KServe
Следующее относится к vLLM predictor на KServe, а не к манифесту LlamaStackDistribution. Для агентских потоков, использующих инструменты (клиентские инструменты или MCP), процесс vLLM должен поддерживать вызов инструментов. Добавьте аргументы контейнера предиктора args в соответствии с требованиями upstream vLLM, например:
Выбирайте --tool-call-parser (и связанные флаги) в зависимости от обслуживаемой модели и документации vLLM для этой семейства моделей.