Введение в функциональность
Основное определение функции inference service — это развертывание обученных моделей машинного обучения или глубокого обучения в виде онлайн-сервисов, доступных по протоколам таким как HTTP API или gRPC, что позволяет приложениям использовать возможности модели для предсказания, классификации, генерации и других задач в реальном времени или пакетно. Эта функция в основном решает задачу эффективного, стабильного и удобного развертывания моделей в продуктивной среде после завершения обучения, а также предоставляет масштабируемые онлайн-сервисы.
Содержание
Преимущества
- Упрощает процесс развертывания моделей, снижая сложность внедрения.
- Обеспечивает высокодоступные, высокопроизводительные онлайн и пакетные inference-сервисы.
- Поддерживает динамическое обновление моделей и управление версиями.
- Реализует автоматизированную эксплуатацию, сопровождение и мониторинг inference-сервисов.
Применимые сценарии
- Системы рекомендаций в реальном времени: рекомендации товаров или контента на основе поведения пользователя.
- Распознавание изображений: классификация, детекция или распознавание загруженных изображений.
- Обработка естественного языка: предоставление сервисов классификации текста, анализа тональности, машинного перевода.
- Финансовый контроль рисков: оценка кредитного риска пользователя или рисков транзакций в реальном времени.
- Сервисы больших языковых моделей: предоставление онлайн-вопросов и ответов, генерации текста и других функций.
- Пакетный inference: обработка больших объемов данных, не требующих реального времени, например, анализ исторических данных и генерация отчетов.
Приносимая ценность
- Ускоряет развертывание моделей и сокращает циклы разработки приложений.
- Повышает эффективность inference моделей и снижает задержки.
- Снижает затраты на эксплуатацию и сопровождение, улучшая стабильность системы.
- Поддерживает быструю бизнес-итерацию и инновации.
Основные возможности
Прямое развертывание модели для inference-сервисов
- Позволяет пользователям напрямую выбирать конкретные версии файлов модели из репозитория и указывать образ inference runtime для быстрого развертывания онлайн-сервиса. Система автоматически скачивает, кеширует и загружает модель, запуская inference-сервис. Это упрощает процесс развертывания и снижает порог входа.
Развертывание inference-сервисов с кастомным образом
- Поддерживает возможность написания Dockerfile для упаковки модели и зависимостей в кастомный образ, а затем развертывания inference-сервисов через стандартные Kubernetes Deployments. Такой подход обеспечивает большую гибкость, позволяя пользователям настраивать среду inference под свои нужды.
Пакетные операции с inference-сервисами
- Поддерживает пакетные операции над несколькими inference-сервисами, такими как массовый запуск, остановка, обновление и удаление.
- Способен поддерживать создание, мониторинг и экспорт результатов пакетных inference-задач.
- Обеспечивает пакетное управление ресурсами, позволяя выделять и регулировать ресурсы inference-сервисов массово.
Опыт работы с inference-сервисом
- Предоставляет интерактивный интерфейс для удобного тестирования и взаимодействия с inference-сервисами.
- Поддерживает различные форматы ввода и вывода для удовлетворения потребностей разных сценариев.
- Предоставляет инструменты оценки производительности модели для помощи в оптимизации развертывания.
Поддержка inference runtime
- Интегрирует различные популярные inference-фреймворки, такие как vLLM, Seldon MLServer и др., а также поддерживает пользовательские inference runtime.
- vLLM: Оптимизирован для больших языковых моделей (LLMs) типа DeepSeek/Qwen, характеризуется высокой параллельной обработкой и улучшенной пропускной способностью при превосходной эффективности использования ресурсов.
- MLServer: Предназначен для традиционных ML-моделей (XGBoost/классификация изображений), обеспечивает совместимость с несколькими фреймворками и упрощенную отладку.
Методы доступа, логи, Swagger, мониторинг и др.
- Предоставляет несколько методов доступа, таких как HTTP API и gRPC.
- Поддерживает детальный сбор и анализ логов для облегчения устранения неполадок.
- Автоматически генерирует документацию Swagger для упрощения интеграции и вызова inference-сервисов.
- Обеспечивает мониторинг в реальном времени и функции оповещений для стабильной работы сервиса.
Преимущества функциональности
Преимущества по производительности:
- Поддержка GPU-ускорения для повышения скорости inference моделей.
- Поддержка пакетного inference для увеличения пропускной способности.
- Оптимизация inference runtime для снижения задержек.
Масштабируемость:
- Построено на Kubernetes с поддержкой эластичного масштабирования.
- Поддержка горизонтального масштабирования для обработки сценариев с высокой нагрузкой.
- Поддержка распределенного inference больших моделей.
- Поддержка параллельной обработки пакетных задач.
Безопасность:
- Предоставляет механизмы аутентификации и авторизации для обеспечения безопасности сервиса.
- Поддержка сетевой изоляции для предотвращения утечек данных.
- Поддержка безопасного развертывания и обновления моделей.
Стабильность:
- Предоставляет проверки здоровья и механизмы автоматического перезапуска для повышения доступности сервиса.
- Поддержка мониторинга логов и оповещений для своевременного обнаружения и устранения проблем.
Создание inference-сервиса
Шаг 1
Выберите Custom publishing
Публикация inference-сервиса через Custom publishing требует ручной настройки параметров. Также можно создать "шаблон", комбинируя входные параметры для быстрого развертывания inference-сервисов.
Шаг 2
Укажите детали inference-сервиса для публикации модели
Шаг 3
Нажмите кнопку Publish для создания inference-сервиса.
Опыт работы
Шаг 1
В списке сервисов Inference API нажмите на имя любого сервиса со статусом Running для просмотра его деталей.
Шаг 2
Нажмите Experience, чтобы открыть панель справа.
Шаг 3
Задайте вопрос
-
System Role
Определяет назначение, тон и рамки работы ИИ (например, "Вы — полезный ассистент, специализирующийся на медицинской информации").
-
Parameters
Выберите параметры в зависимости от типа задачи. Подробности см. в описаниях параметров ниже.
Описание параметров для разных типов задач
Генерация текста
Предустановленные параметры
Другие параметры
Для дополнительных параметров смотрите Text Generation Parameter Configuration.
Текст в изображение
Предустановленные параметры
Другие параметры
Для дополнительных параметров смотрите Text-to-Image Parameter Configuration.
Классификация текста
Предустановленные параметры
Для дополнительных параметров смотрите Text Classification Parameter Configuration
Дополнительные ссылки
Image Classification Parameter Configuration
Conversational Parameter Configuration
Summarization Parameter Configuration
Translation Parameter Configuration