Основные возможности

Содержание

Централизованный сервер: Llama Stack Server размещает inference, agents, safety, tool runtime, vector I/O и файлы
Удалённые и встроенные провайдеры: Поддержка удалённых API (например, совместимых с OpenAI) и встроенных провайдеров (например, meta-reference, sqlite-vec, localfs)
Развёртывание в Kubernetes: Развёртывание через Llama Stack Operator с использованием кастомных ресурсов LlamaStackDistribution

Создание агентов: Создавайте агентов с моделью, инструкциями и списком инструментов
Инструменты на стороне клиента: Определяйте инструменты с помощью декоратора @client_tool; клиент выполняет вызовы инструментов и возвращает результаты серверу
Управление сессиями: Создавайте сессии и ведите многократные диалоги с потоковой передачей ответов
Потоковая передача: Поддержка потоковой передачи ответов агентов для отображения в реальном времени

Конфигурация стека: Конфигурация на основе YAML для API, провайдеров, хранения данных (например, kv_default, sql_default) и моделей
Запасные варианты окружения: Использование ${env.VAR:~default} в конфигурации для гибкого развёртывания
Несколько дистрибутивов: Starter, postgres-demo, meta-reference-gpu и другие варианты дистрибутивов

Python-клиент: llama-stack-client для Python 3.12+ с полным API для агентов и моделей
REST-дружелюбность: Сервер предоставляет API для inference, agents и tool runtime; может быть обёрнут в FastAPI или другие веб-фреймворки для использования в продакшене