• Русский
  • Основные возможности

    Серверная архитектура

    • Централизованный сервер: Llama Stack Server размещает inference, agents, безопасность, runtime инструментов, векторный ввод/вывод и файлы
    • Удалённые и встроенные провайдеры: Поддержка удалённых API (например, совместимых с OpenAI) и встроенных провайдеров (например, meta-reference, sqlite-vec, localfs)
    • Развёртывание в Kubernetes: Развёртывание через Llama Stack Operator с использованием кастомных ресурсов LlamaStackDistribution

    AI-агенты с инструментами

    • Создание агентов: Создавайте агентов с моделью, инструкциями и списком инструментов
    • Инструменты на стороне клиента: Определяйте инструменты с помощью декоратора @client_tool; клиент выполняет вызовы инструментов и возвращает результаты серверу
    • Управление сессиями: Создавайте сессии и ведите многотуровые диалоги с потоковой передачей ответов
    • Потоковая передача: Поддержка потоковой передачи ответов агентов для отображения в реальном времени

    Конфигурация и расширяемость

    • Конфигурация стека: Конфигурация на основе YAML для API, провайдеров, хранения данных (например, kv_default, sql_default) и моделей
    • Запасные варианты окружения: Использование ${env.VAR:~default} в конфигурации для гибкого развёртывания
    • Несколько дистрибутивов: Starter, postgres-demo, meta-reference-gpu и другие варианты дистрибутивов

    Интеграция

    • Python клиент: llama-stack-client для Python 3.12+ с полным набором API для агентов и моделей
    • REST-дружественный: Сервер предоставляет API для inference, агентов и runtime инструментов; может быть обёрнут в FastAPI или другие веб-фреймворки для использования в продакшене