• Русский
  • Configure External Access for Inference Services

    Содержание

    Introduction

    В этом документе представлен пошаговый гид по настройке внешнего доступа к вашим сервисам инференса, включая проверку адресов внешнего доступа, создание доменов, настройку балансировщиков нагрузки и проверку конфигурации.

    Steps

    1. Просмотр адреса внешнего доступа сервиса инференса

    Вы можете:

    1. Перейти на страницу с деталями сервиса и скопировать адрес из карточки Access Method, или
    2. Посмотреть адрес в карточке YAML в поле status.url.

    2. Создание домена

    В Administrator Console перейдите в Network > Domains, затем нажмите Create Domain.

    • В поле Domain введите адрес внешнего доступа вашего сервиса инференса.
    • В поле Allocated To (Cluster) выберите кластер, в котором находится ваш сервис.
    • В поле Allocated Projects выберите проект, в котором размещён ваш сервис инференса.

    3. Создание балансировщика нагрузки

    (Один балансировщик нагрузки может использоваться несколькими проектами; создавайте новый только при необходимости.)

    В Administrator Console перейдите в Network > Load Balancers, затем нажмите Create Load Balancer. Для подробной документации обратитесь к .

    4. Настройка балансировщика нагрузки

    В Alauda Container Platform Console перейдите в Network > Load Balancers, затем нажмите на имя созданного балансировщика, чтобы открыть страницу его конфигурации.

    4.1 Добавление frontend ресурсов слушателя

    Добавьте порты прослушивания: протокол HTTP на порту 80 и протокол HTTPS на порту 443. При необходимости можно добавить дополнительные порты.

    4.2 Добавление ресурсов правил переадресации

    • Domains: выберите домен, созданный на предыдущем шаге.
    • ServiceGroup (Kubernetes Service): выберите knative-ingressgateway в пространстве имён istio-system и порт 80.

    Для более подробной настройки параметров обратитесь к .

    5. Проверка доступа к сервису инференса по внешнему адресу

    Чтобы проверить, доступен ли ваш сервис инференса извне, используйте команду curl ниже. Не забудьте заменить заполнители на фактический IP-адрес балансировщика нагрузки, порт и адрес сервиса инференса.

    # Для HTTP
    curl -v --resolve "your-inference-service-domain.com:your-port:your-load-balancer-ip" \
        http://your-inference-service-domain.com/v1/models
    
    # Для HTTPS (пропустите `-k`, если у вас есть действительный сертификат)
    curl -vk --resolve "your-inference-service-domain.com:443:your-load-balancer-ip" \
        https://your-inference-service-domain.com/v1/models

    Объяснение частей команды и что нужно заменить:

    • your-inference-service-domain.com: это доменное имя, созданное для вашего сервиса инференса (например, qwen2-0b5-kubeflow-admin-cpaas-io.my-company.com).
    • your-port: порт, на котором ваш балансировщик нагрузки слушает HTTP-трафик (обычно 80).
    • your-load-balancer-ip: фактический IP-адрес вашего балансировщика нагрузки (например, 192.168.137.21).

    Если запрос успешно возвращает список моделей, значит настройка завершена! Если запрос не удался, проверьте настройки балансировщика нагрузки или просмотрите логи сервиса инференса для выявления проблемы.