Введение в функцию
Ключевое назначение функции сервиса инференса заключается в том, чтобы развертывать обученные модели машинного обучения или глубокого обучения как онлайн-сервисы, доступные для вызова по HTTP API или gRPC, позволяя приложениям использовать возможности модели для предсказания, классификации, генерации и других задач в реальном времени или пакетно. Эта функция в первую очередь решает задачу эффективного, стабильного и удобного развертывания моделей в продуктивной среде после завершения обучения и предоставления масштабируемых онлайн-сервисов.
Содержание
ПреимуществаПрименимые сценарииПриносимая ценностьОсновные функцииПреимущества функцииСоздание сервиса инференсаРабота с сервисомДополнительные ссылкиПреимущества
- Упрощает процесс развертывания модели, снижая сложность публикации.
- Предоставляет высокодоступные и высокопроизводительные онлайн- и пакетные сервисы инференса.
- Поддерживает динамическое обновление моделей и управление версиями.
- Обеспечивает автоматизированную эксплуатацию, сопровождение и мониторинг сервисов инференса моделей.
Применимые сценарии
- Системы рекомендаций в реальном времени: рекомендации товаров или контента на основе поведения пользователя в реальном времени.
- Распознавание изображений: классификация, обнаружение или распознавание загруженных изображений.
- Обработка естественного языка: предоставление таких сервисов, как классификация текста, анализ тональности и машинный перевод.
- Финансовый риск-контроль: оценка кредитного риска пользователя или риска транзакции в реальном времени.
- Сервисы больших языковых моделей: предоставление онлайн-ответов на вопросы, генерации текста и других сервисов.
- Пакетный инференс: обработка больших объемов данных, не требующих реакции в реальном времени, например анализ исторических данных и генерация отчетов.
Приносимая ценность
- Ускоряет развертывание моделей и сокращает циклы разработки приложений.
- Повышает эффективность инференса моделей и снижает задержку.
- Снижает затраты на эксплуатацию и сопровождение, а также повышает стабильность системы.
- Поддерживает быструю итерацию бизнеса и инновации.
Основные функции
Прямое развертывание модели для сервисов инференса
- Позволяет пользователям напрямую выбирать конкретные версии файлов модели из репозитория моделей и указывать образ среды выполнения инференса, чтобы быстро развернуть онлайн-сервисы инференса. Система автоматически загружает, кэширует и подгружает модель, после чего запускает сервис инференса. Это упрощает процесс развертывания модели и снижает порог входа.
Развертывание сервисов инференса с использованием собственного образа
- Поддерживает создание Dockerfile для упаковки моделей и их зависимостей в собственные образы, а затем развертывание сервисов инференса через стандартные Kubernetes Deployment. Такой подход обеспечивает большую гибкость и позволяет настраивать среду инференса в соответствии с потребностями пользователя.
Пакетные операции над сервисами инференса
- Поддерживает пакетные операции над несколькими сервисами инференса, такие как массовый запуск, остановка, обновление и удаление.
- Поддерживает создание, мониторинг и экспорт результатов пакетных задач инференса.
- Обеспечивает пакетное управление ресурсами, позволяя назначать и корректировать ресурсы сервисов инференса пакетно.
Работа с сервисом инференса
- Предоставляет интерактивный интерфейс для удобного тестирования и ознакомления пользователей с сервисами инференса.
- Поддерживает несколько форматов ввода и вывода для удовлетворения потребностей различных сценариев применения.
- Предоставляет инструменты оценки производительности модели, помогающие пользователям оптимизировать развертывание модели.
Поддержка среды выполнения инференса
- Интегрирует различные распространенные фреймворки инференса, такие как vLLM, Seldon MLServer и др., а также поддерживает пользовательские среды выполнения инференса.
- vLLM: оптимизирован для больших языковых моделей (LLMs), таких как DeepSeek/Qwen, обеспечивает высокую конкурентность обработки и повышенную пропускную способность при более эффективном использовании ресурсов.
- MLServer: предназначен для традиционных ML-моделей (XGBoost/классификация изображений), обеспечивает совместимость с несколькими фреймворками и упрощенную отладку.
Способы доступа, журналы, Swagger, мониторинг и т. д.
- Предоставляет несколько способов доступа, таких как HTTP API и gRPC.
- Поддерживает подробное ведение и анализ журналов для упрощения устранения неполадок пользователями.
- Автоматически генерирует документацию Swagger для упрощения интеграции и вызова сервисов инференса.
- Предоставляет функции мониторинга в реальном времени и оповещения для обеспечения стабильной работы сервиса.
Преимущества функции
Преимущества производительности:
- Поддерживает GPU-ускорение для повышения скорости инференса модели.
- Поддерживает пакетный инференс для увеличения пропускной способности.
- Оптимизирует среду выполнения инференса для снижения задержки.
Масштабируемость:
- Построено на Kubernetes с поддержкой эластичного масштабирования.
- Поддерживает горизонтальное масштабирование для работы в сценариях с высокой конкуренцией.
- Поддерживает распределенный инференс больших моделей.
- Поддерживает параллельную обработку пакетных задач.
Безопасность:
- Предоставляет механизмы аутентификации и авторизации для обеспечения безопасности сервиса.
- Поддерживает сетевую изоляцию для предотвращения утечки данных.
- Поддерживает безопасное развертывание и обновление моделей.
Стабильность:
- Предоставляет проверки состояния и механизмы автоматического перезапуска для повышения доступности сервиса.
- Поддерживает мониторинг журналов и оповещения для своевременного обнаружения и устранения проблем.
Создание сервиса инференса
Шаг 1
Выберите пользовательскую публикацию
Для пользовательской публикации сервиса инференса требуется ручная настройка параметров. Вы также можете создать «шаблон», объединив входные параметры для быстрой публикации сервисов инференса.
Шаг 2
Укажите сведения о сервисе инференса для публикации модели
Шаг 3
Нажмите кнопку Publish, чтобы создать сервис инференса.
Работа с сервисом
Шаг 1
В списке сервисов Inference API щелкните по имени любого сервиса со статусом Running, чтобы просмотреть его сведения.
Шаг 2
Нажмите Experience, чтобы открыть правую панель.
Шаг 3
Задайте вопрос
-
System Role
Определяет назначение, тон и рабочие границы ИИ (например, "You are a helpful assistant specialized in medical information").
-
Parameters
Выбирайте параметры в соответствии с типом задачи. Подробности см. в описаниях параметров ниже.
Описание параметров для различных типов задач
Генерация текста
Параметры по умолчанию
Другие параметры
Дополнительные параметры см. в Конфигурации параметров генерации текста.
Text-to-Image
Параметры по умолчанию
Другие параметры
Дополнительные параметры см. в Конфигурации параметров Text-to-Image.
Классификация текста
Параметры по умолчанию
Дополнительные параметры см. в Конфигурации параметров классификации текста
Дополнительные ссылки
Конфигурация параметров Image Classification
Конфигурация параметров Conversational
Конфигурация параметров Summarization
Конфигурация параметров Translation