• Русский
  • Введение

    Envoy AI Gateway

    Alauda Build of Envoy AI Gateway основан на проекте Envoy AI Gateway.
    Envoy AI Gateway — это Kubernetes-нативный шлюзовый слой, ориентированный на AI, построенный поверх Envoy Gateway, обеспечивающий интеллектуальное управление трафиком, маршрутизацию и применение политик для рабочих нагрузок AI inference.

    Основные компоненты и возможности включают:

    • AI-Aware Routing: Маршрутизация запросов inference к соответствующему backend-сервису модели на основе содержимого запроса, имени модели и доступности backend — обеспечивает прозрачное обслуживание нескольких моделей за одним endpoint.
    • OpenAI-Compatible API: Предоставляет единый API, совместимый с OpenAI (/v1/chat/completions, /v1/completions, /v1/models), для всех downstream inference-сервисов, независимо от используемого runtime.
    • Per-Model Rate Limiting & Policies: Применяет тонконастроенное ограничение скорости, квоты по токенам и политики трафика на уровне каждой модели, предотвращая истощение ресурсов и обеспечивая справедливое использование между арендаторами.
    • Backend Load Balancing: Распределяет запросы inference между несколькими репликами одной и той же модели с использованием настраиваемых стратегий балансировки нагрузки, включая проверку состояния и автоматическое переключение при сбоях.
    • Envoy Gateway Integration: Работает как расширение Envoy Gateway, наследуя его Kubernetes Gateway API-нативную контрольную плоскость, TLS-терминацию и возможности наблюдаемости (метрики, журналы доступа, распределённый трейсинг).
    • Gateway API Inference Extension (GIE): Интегрируется с Kubernetes SIG Gateway API Inference Extension для продвинутого, осведомлённого о inference планирования и принятия решений по балансировке нагрузки на основе состояния backend в реальном времени.

    Envoy AI Gateway является обязательной зависимостью Alauda Build of KServe для экспонирования inference-сервисов.

    Для установки на платформе смотрите Install Envoy AI Gateway.

    Документация

    Официальная документация и связанные ресурсы Envoy AI Gateway:

    • Envoy AI Gateway Documentation: https://aigateway.envoyproxy.io/ — Официальная документация, охватывающая архитектуру, конфигурацию и справочники по API.
    • Envoy AI Gateway GitHub: https://github.com/envoyproxy/ai-gateway — Исходный код, заметки о релизах и трекер проблем.
    • Envoy Gateway: https://gateway.envoyproxy.io/ — Базовая инфраструктура шлюза, которую расширяет Envoy AI Gateway.
    • Gateway API Inference Extension (GIE): https://gateway-api-inference-extension.sigs.k8s.io/ — Проект Kubernetes SIG для AI-ориентированной маршрутизации, интегрированный с Envoy AI Gateway.
    • KServe (Alauda Build): ../kserve/intro — KServe использует Envoy AI Gateway как обязательную зависимость для экспонирования и маршрутизации inference-сервисов.