logo
Alauda AI
English
Русский
English
Русский
logo
Alauda AI
Навигация

Обзор

Введение
Быстрый старт
Примечания к выпуску

Установка

Предварительная настройка
Установка Alauda AI Essentials
Установка Alauda AI

Обновление

Обновление с AI 1.3

Удаление

Удаление

Управление инфраструктурой

Управление устройствами

О Alauda Build of Hami
О плагине устройства NVIDIA GPU от Alauda Build

Мультиарендность

Руководства

Управление пространствами имён

Рабочее пространство

Обзор

Введение
Установка
Обновление

Как сделать

Создание WorkspaceKind
Создание Workbench

Развертывание модели и вывод

Обзор

Введение
Features

Сервис вывода

Введение

Руководства

Inference Service

Как сделать

Extend Inference Runtimes
Configure External Access for Inference Services
Configure Scaling for Inference Services

Устранение неполадок

Проблемы с таймаутами сервиса инференса при использовании MLServer Runtime
Служба инференса не переходит в состояние Running

Управление моделями

Введение

Руководства

Model Repository

Мониторинг и операции

Обзор

Введение
Features Overview

Ведение журналов и трассировка

Введение

Руководства

Логирование

Мониторинг ресурсов

Введение

Руководства

Мониторинг ресурсов

Справочник API

Введение

Kubernetes APIs

Inference Service APIs

ClusterServingRuntime [serving.kserve.io/v1alpha1]
InferenceService [serving.kserve.io/v1beta1]

Workbench APIs

Workspace Kind [kubeflow.org/v1beta1]
Workspace [kubeflow.org/v1beta1]

Manage APIs

AmlNamespace [manage.aml.dev/v1alpha1]

Operator APIs

AmlCluster [amlclusters.aml.dev/v1alpha1]
Глоссарий
Предыдущая страницаУстранение неполадок
Следующая страницаСлужба инференса не переходит в состояние Running

#Проблемы с таймаутами сервиса инференса при использовании MLServer Runtime

#Содержание

#Описание проблемы

При использовании функции сервиса инференса с runtime MLServer могут возникать ошибки таймаута по следующим двум причинам:

Недостаточная вычислительная мощность или чрезмерная длина токенов вывода инференса:

  • Симптом: Сервис инференса возвращает ошибку 502 Bad Gateway с сообщением "Http failure response for [inference service URL]: 502 OK".
  • Подробная информация об ошибке: Часто включает HTML-страницу с ошибкой "502 Bad Gateway".
  • Время отклика: Значительно превышает ожидаемое, может длиться несколько минут.

Нестриминговый возврат MLServer runtime: Текущая реализация MLServer ожидает завершения всего процесса инференса перед возвратом результата. Это означает, что при длительном времени инференса пользователь вынужден ждать долго, что может привести к таймауту.

#Анализ причин

  • Недостаточная вычислительная мощность: Вычислительные ресурсы, необходимые для инференса модели, превышают возможности сервера. Это может быть связано с большим размером модели, сложностью входных данных или низкой конфигурацией сервера.
  • Чрезмерная длина токенов вывода инференса: Длина текста, сгенерированного моделью, превышает возможности обработки сервера или установленный лимит таймаута.

#Решения

Для устранения вышеуказанных проблем можно применить следующие решения:

  1. Увеличение вычислительных ресурсов:

    • Обновление конфигурации сервера: Рассмотреть использование более производительных CPU, GPU или увеличение объёма памяти.
  2. Ограничение длины токенов вывода инференса:

    • Настройка параметров модели: При вызове сервиса инференса установить параметры, такие как max_new_tokens, чтобы ограничить максимальное количество токенов, генерируемых моделью.
  3. Оптимизация модели и входных данных:

    • Квантизация или обрезка модели: Уменьшить размер модели и вычислительную сложность, что сократит время инференса.
    • Предобработка данных: Предварительно обработать входные данные, например, удалить избыточную информацию и упростить структуру данных, чтобы снизить объём данных для обработки моделью.

#Итог

Ошибки таймаута MLServer обычно вызваны недостаточными вычислительными ресурсами, чрезмерной длиной токенов вывода инференса или нестриминговым возвратом runtime MLServer. Для решения таких проблем требуется комплексный подход с учётом аппаратных ресурсов, характеристик модели и конфигурации runtime, а также выбор соответствующих решений в зависимости от конкретной ситуации.