Централизованный сервер: Llama Stack Server размещает inference, agents, безопасность, runtime инструментов, векторный ввод/вывод и файлы
Удалённые и встроенные провайдеры: Поддержка удалённых API (например, совместимых с OpenAI) и встроенных провайдеров (например, meta-reference, sqlite-vec, localfs)
Развёртывание в Kubernetes: Развёртывание через Llama Stack Operator с использованием кастомных ресурсов LlamaStackDistribution
Создание агентов: Создавайте агентов с моделью, инструкциями и списком инструментов
Инструменты на стороне клиента: Определяйте инструменты с помощью декоратора @client_tool; клиент выполняет вызовы инструментов и возвращает результаты серверу
Управление сессиями: Создавайте сессии и ведите многотуровые диалоги с потоковой передачей ответов
Потоковая передача: Поддержка потоковой передачи ответов агентов для отображения в реальном времени
Python клиент: llama-stack-client для Python 3.12+ с полным набором API для агентов и моделей
REST-дружественный: Сервер предоставляет API для inference, агентов и runtime инструментов; может быть обёрнут в FastAPI или другие веб-фреймворки для использования в продакшене