Установка Alauda Hyperflux
Содержание
Скачивание пакета и загрузка в clusterПодготовьте LLM и rerank serviceУстановка cluster plugin Alauda HyperfluxDatabaseSchedulingLLM serviceRerankerAgent ModeНастройка Retrieval (RAG)Audit and identityRate limiterУстранение неполадокСкачивание пакета и загрузка в cluster
Вы можете скачать приложение с названием Alauda Hyperflux из Marketplace на сайте Customer Portal.
Скачанный пакет представляет собой tarball-файл с именем alauda-hyperflux-<version>.tar.gz.
Скачайте командную утилиту violet, если она отсутствует на машине:
- Войдите в ACP Web Console и переключитесь в представление Administrator.
- В Marketplace / Upload Packages нажмите Download Packaging and Listing Tool.
- Выберите правильную ОС/архитектуру CPU и нажмите Download.
- Выполните
chmod +x ${PATH_TO_THE_VIOLET_TOOL}, чтобы сделать инструмент исполняемым.
Сохраните следующий скрипт в upload.sh,
затем отредактируйте файл и заполните корректные значения конфигурации в соответствии с комментариями.
Подготовьте LLM и rerank service
Перед установкой Alauda Hyperflux необходимо подготовить LLM service, который будет использоваться Alauda Hyperflux.
Вы можете использовать Azure OpenAI service или развернуть On-Premise LLM service, например vLLM, с помощью Alauda AI.
На этапе установки Alauda Hyperflux будут использоваться endpoint LLM service, имя модели и API key.
При необходимости, если вы хотите включить функцию rerank в Alauda Hyperflux, вам также нужно подготовить rerank service, поддерживающий Cohere Reranker API v2. См. Setup On-Premise Reranker Service для одного из способов развертывания этого решения с помощью Alauda AI + vLLM.
NOTE: Начиная с v1.4.0, файл дампа встроенной knowledge-base входит в состав пакета плагина — вам больше не нужно загружать его отдельно, и ручной шаг
pg_restoreиз предыдущих версий больше не требуется. Init- container автоматически восстанавливает выбранный дамп при первом запуске. См. Build a Custom Knowledge Base, если вы хотите добавить или заменить встроенный corpus на собственную внутреннюю документацию.
Установка cluster plugin Alauda Hyperflux
Перейдите на страницу Administrator / Marketplace / Cluster Plugins,
выберите кластер "global" в выпадающем списке кластеров,
затем найдите plugin Alauda Hyperflux и нажмите Install.
NOTE: Alauda Hyperflux MUST be installed in the
Globalcluster.
Форма установки ниже сгруппирована по темам. Обязательные поля помечены как (required).
Database
-
Enable builtin PGVector — при включении chart разворачивает один экземпляр PostgreSQL + ParadeDB для Alauda Hyperflux. Укажите:
- PGVector Storage Size — размер хранилища для PVC PostgreSQL (например,
10Gi). - PGVector StorageClass name — storage class Kubernetes для PVC, например
sc-topolvm.
- PGVector Storage Size — размер хранилища для PVC PostgreSQL (например,
-
Когда параметр disabled, вместо этого создайте
Secret(на который ссылается pg database secret name) с информацией о внешнем подключении PostgreSQL. Hyperflux использует три логические базы данных на одном экземпляре —docvec_sys_kb(встроенная product knowledge base),docvec_user_kb(user-uploaded knowledge base) и базу данных истории чатов (по умолчаниюdocvec, настраивается через PG database name) — все они создаются автоматически init container, если отсутствуют.Затем введите имя Secret в pg database secret name.
-
PG database name — имя базы данных истории чатов (по умолчанию
docvec). Создается при первом запуске, если отсутствует. -
PG collection name — имя коллекции LangChain PGVector, из которой сервер читает данные из
docvec_sys_kb. Оно должно совпадать с внутренним именем коллекции выбранного Built-in KnowledgeBase File; по соглашению это имя файла дампа без суффикса.dump. Значение по умолчаниюdocvec_gte_acp_4_3_20260508соответствует дампу по умолчанию, поэтому оставьте его без изменений, если вы либо (a) выбираете ниже нестандартный встроенный дамп, либо (b) разворачиваете пользовательскую KB, созданную с помощью Build a Custom Knowledge Base — в обоих случаях укажите здесь имя соответствующего файла дампа без.dump. -
Built-in KnowledgeBase File — выберите, какой встроенный дамп восстанавливать при первом запуске. Каждый дамп — это knowledge base документации продукта Alauda Container Platform (ACP), собранная для определенного релиза ACP; все они встроены с моделью gte-multilingual-base. Выберите тот, который соответствует используемой версии ACP; по умолчанию выбран самый новый. Селектор предлагает:
docvec_gte_acp_4_1_20260508.dump— documentation corpus ACP 4.1.docvec_gte_acp_4_2_20260508.dump— documentation corpus ACP 4.2.docvec_gte_acp_4_3_20260508.dump(default) — documentation corpus ACP 4.3 (latest).
NOTE: Восстановление при первом запуске загружает дамп как есть и сохраняет его внутреннее имя коллекции. Если вы выберете дамп, отличный от значения по умолчанию, вы должны также указать PG collection name как имя этого дампа без
.dump(например,docvec_gte_acp_4_1_20260508), иначе сервер будет выполнять запрос к несуществующей коллекции и retrieval ничего не вернет. -
Enable builtin Redis — при включении chart разворачивает один экземпляр Redis, используемый rate limiter. Когда параметр отключен, укажите Secret с учетными данными Redis в redis database secret name.
Scheduling
- Node Selector (optional) — закрепляет pod Hyperflux за определенными узлами по label. Добавьте одну или несколько строк; разные ключи label обрабатываются по OR.
LLM service
- LLM Model type (required) —
azureилиopenai. - LLM Base URL (required) — базовый URL для вызовов API LLM. Для On-Premise развертывания vLLM используйте
http://<your-vllm-host>:<port>/v1. - LLM Model Name (required) — имя модели, передаваемое в API-вызовах, например
gpt-5-miniилиqwen2. - LLM API Key (required) — API key для вызовов LLM API. Хранится как external password.
- Azure API Version — только если LLM Model type =
azure, например2024-12-01-preview. - Azure Deployment Name — только если LLM Model type =
azure, напримерo4-mini.
Reranker
- Enable Reranker (required) — включает reranking, совместимый с Cohere API. Повышает релевантность ответов ценой одного дополнительного перехода к service. При включении укажите:
- Cohere Reranker BaseUrl — базовый URL reranker service.
- Cohere Reranker Model — имя модели.
- Cohere Reranker API key — API key (для развертываний vLLM без проверки auth подойдет любое непустое значение).
Agent Mode
- Enable Agent Mode (required) — включает многошаговое рассуждение, чтобы agent мог вызывать MCP tools. Рекомендуется: использовать мощный LLM (класса ≥ GPT-4 / Qwen-72B), когда эта опция включена; более маленькие модели могут зацикливаться или неправильно использовать tools.
- Enable MCP Tools — загружает ACP MCP tools, чтобы agent мог читать текущее состояние cluster. Доступно только когда включен Agent Mode.
- Expose MCP — публикует встроенный
acp-mcp-serverчерез Ingress, чтобы внешние MCP clients (например, coding agents на стороне IDE) могли подключаться к нему. Доступно только когда включен Agent Mode. - Сам deployment встроенного
acp-mcp-serverуправляется параметромsmartdoc.enableMCPServer(по умолчаниюtrue); оставляйте его включенным, когда включен Agent Mode.
NOTE: В более ранних версиях требовалось задавать "MCP K8s API Server Address" (URL
erebus). Это поле было удалено в v1.4.0 — теперь встроенныйacp-mcp-serverобращается к cluster напрямую внутри global cluster, а внешний трафик маршрутизируется через Ingress.
Настройка Retrieval (RAG)
- Total Search K (required) — количество кандидатов, которые нужно получить из knowledge base перед reranking, по умолчанию
20. - RAG Similarity Threshold (required) — минимальная cosine similarity для сохранения chunk, по умолчанию
0.8. Более низкие значения повышают recall за счет precision. - Cohere Reranker Top N (required) — количество chunk с самым высоким рейтингом, передаваемых в LLM после reranking, по умолчанию
6. Применяется только при включенном reranking. - Max History Number (required) — количество предыдущих ходов, сохраняемых в prompt, по умолчанию
1. - Model Context Window — общий размер context window LLM в token (например,
128000). Оставьте пустым, чтобы определить его автоматически по имени модели; compressor истории диалога использует это значение, чтобы понять, когда нужно суммировать более старые ходы.
Audit and identity
- Admin Users — список usernames, разделенных запятыми, которые могут просматривать audit logs в Alauda Hyperflux, например
admin@cpaas.io,admin.
Rate limiter
- Enable Rate Limiter (required) — при включении ограничивается частота запросов для каждого пользователя и дневные квоты token через Redis.
- Max Requests Per Minute (RPM) — лимит запросов на пользователя, по умолчанию
5. - RPM Window Time (Minute) — скользящее окно для проверки RPM, по умолчанию
5. - Max Total Tokens Per Day — суммарный лимит input + output token на пользователя, по умолчанию
1000000. - Max Input Tokens Per Day — лимит input token на пользователя, по умолчанию
200000. - Max Output Tokens Per Day — лимит output token на пользователя, по умолчанию
1000000.
Нажмите Install, чтобы начать установку. При первом запуске init container выполнит:
- Восстановит выбранный встроенный дамп в
docvec_sys_kb(дамп уже содержит индекс BM25). - Создаст базу данных истории чатов и
docvec_user_kb, если они не существуют. - Применит индекс btree для
doc_idи миграции схемы URL-backfill к обеим базам знаний.
Устранение неполадок
Если интерфейс чата не отвечает, проверьте logs pod Alauda Hyperflux:
Большинство проблем вызвано следующими причинами:
- Неверная конфигурация LLM service — неправильный base URL, неверная версия API для Azure, неправильное имя модели.
- Неверная конфигурация Cohere API при включенном reranking.
- Неудачная попытка init container создать или восстановить базу данных system KB — строки лога init (с префиксом
[upgrade]для шага data swap) указывают на проблемный шаг.