• Русский
  • Основные возможности

    Серверная архитектура

    • Централизованный сервер: Llama Stack Server размещает inference, agents, safety, tool runtime, vector I/O и файлы
    • Удалённые и встроенные провайдеры: Поддержка удалённых API (например, совместимых с OpenAI) и встроенных провайдеров (например, meta-reference, sqlite-vec, localfs)
    • Развёртывание в Kubernetes: Развёртывание через Llama Stack Operator с использованием кастомных ресурсов LlamaStackDistribution

    AI-агенты с инструментами

    • Создание агентов: Создавайте агентов с моделью, инструкциями и списком инструментов
    • Инструменты на стороне клиента: Определяйте инструменты с помощью декоратора @client_tool; клиент выполняет вызовы инструментов и возвращает результаты серверу
    • Управление сессиями: Создавайте сессии и ведите многократные диалоги с потоковой передачей ответов
    • Потоковая передача: Поддержка потоковой передачи ответов агентов для отображения в реальном времени

    Конфигурация и расширяемость

    • Конфигурация стека: Конфигурация на основе YAML для API, провайдеров, хранения данных (например, kv_default, sql_default) и моделей
    • Запасные варианты окружения: Использование ${env.VAR:~default} в конфигурации для гибкого развёртывания
    • Несколько дистрибутивов: Starter, postgres-demo, meta-reference-gpu и другие варианты дистрибутивов

    Интеграция

    • Python-клиент: llama-stack-client для Python 3.12+ с полным API для агентов и моделей
    • REST-дружелюбность: Сервер предоставляет API для inference, agents и tool runtime; может быть обёрнут в FastAPI или другие веб-фреймворки для использования в продакшене