Введение
Envoy AI Gateway
Alauda Build of Envoy AI Gateway основан на проекте Envoy AI Gateway.
Envoy AI Gateway — это Kubernetes-нативный шлюзовый слой, ориентированный на AI, построенный поверх Envoy Gateway, обеспечивающий интеллектуальное управление трафиком, маршрутизацию и применение политик для рабочих нагрузок AI inference.
Основные компоненты и возможности включают:
- AI-Aware Routing: Маршрутизация запросов inference к соответствующему backend-сервису модели на основе содержимого запроса, имени модели и доступности backend — обеспечивает прозрачное обслуживание нескольких моделей за одним endpoint.
- OpenAI-Compatible API: Предоставляет единый API, совместимый с OpenAI (
/v1/chat/completions,/v1/completions,/v1/models), для всех downstream inference-сервисов, независимо от используемого runtime. - Per-Model Rate Limiting & Policies: Применяет тонконастроенное ограничение скорости, квоты по токенам и политики трафика на уровне каждой модели, предотвращая истощение ресурсов и обеспечивая справедливое использование между арендаторами.
- Backend Load Balancing: Распределяет запросы inference между несколькими репликами одной и той же модели с использованием настраиваемых стратегий балансировки нагрузки, включая проверку состояния и автоматическое переключение при сбоях.
- Envoy Gateway Integration: Работает как расширение Envoy Gateway, наследуя его Kubernetes Gateway API-нативную контрольную плоскость, TLS-терминацию и возможности наблюдаемости (метрики, журналы доступа, распределённый трейсинг).
- Gateway API Inference Extension (GIE): Интегрируется с Kubernetes SIG Gateway API Inference Extension для продвинутого, осведомлённого о inference планирования и принятия решений по балансировке нагрузки на основе состояния backend в реальном времени.
Envoy AI Gateway является обязательной зависимостью Alauda Build of KServe для экспонирования inference-сервисов.
Для установки на платформе смотрите Install Envoy AI Gateway.
Документация
Официальная документация и связанные ресурсы Envoy AI Gateway:
- Envoy AI Gateway Documentation: https://aigateway.envoyproxy.io/ — Официальная документация, охватывающая архитектуру, конфигурацию и справочники по API.
- Envoy AI Gateway GitHub: https://github.com/envoyproxy/ai-gateway — Исходный код, заметки о релизах и трекер проблем.
- Envoy Gateway: https://gateway.envoyproxy.io/ — Базовая инфраструктура шлюза, которую расширяет Envoy AI Gateway.
- Gateway API Inference Extension (GIE): https://gateway-api-inference-extension.sigs.k8s.io/ — Проект Kubernetes SIG для AI-ориентированной маршрутизации, интегрированный с Envoy AI Gateway.
- KServe (Alauda Build): ../kserve/intro — KServe использует Envoy AI Gateway как обязательную зависимость для экспонирования и маршрутизации inference-сервисов.