Настройка локального сервиса Reranker для Hyperflux
Выполните следующие шаги в Alauda AI для настройки rerank модели с использованием vLLM:
- Загрузите нужную rerank модель в репозиторий моделей, например: Alibaba-NLP/gte-reranker-modernbert-base
- Нажмите кнопку "Publish Inference Service", настройте соответствующие ресурсы и выберите runtime vLLM (
>=vllm-0.9.2-cuda-12.6-x86). - Не нажимайте пока "Publish". Нажмите кнопку YAML в правом верхнем углу, чтобы переключиться в режим редактирования YAML.
- Измените раздел
spec.model.commandв YAML-файле следующим образом (обратите внимание, что нужно только удалить оригинальную часть запускаpython3и заменить её командой запускаvllm serveниже; предыдущий скрипт менять не нужно): - После запуска rerank модели убедитесь, что API-адрес модели доступен из глобального кластера (кластера, где развернут Hyperflux). Если это разные кластеры, необходимо настроить доступ через NodePort, Ingress или AI Gateway и т.п.
- Измените параметры конфигурации Hyperflux: замените Cohere Reranker BaseUrl на адрес доступа к inference-сервису, указанный выше, Cohere Reranker Model — на имя модели (обычно имя созданного
InferenceService), а Cohere Reranker API key заполните любым значением (vLLM по умолчанию не требует ключа). - После успешного перезапуска контейнера smart-doc процесс завершён.
Пример команды запуска vLLM: