Введение

Содержание

Предисловие LLM Compressor поддерживает широкий спектр техник сжатия:LLM Compressor поддерживает несколько алгоритмов сжатия:

Предисловие

LLM Compressor, являющийся частью проекта vLLM для эффективного обслуживания LLM, интегрирует последние исследования в области сжатия моделей в единую open-source библиотеку, позволяющую с минимальными усилиями создавать эффективные, сжатые модели.

Фреймворк позволяет пользователям применять новейшие исследования по методам сжатия моделей для повышения эффективности, масштабируемости и производительности генеративных AI (gen AI) моделей при сохранении точности. С нативной поддержкой Hugging Face и vLLM сжатые модели могут быть интегрированы в конвейеры развертывания, обеспечивая более быструю и экономичную работу инференса в масштабах.

LLM Compressor позволяет выполнять оптимизацию моделей с помощью таких техник, как квантизация, разреженность и сжатие, чтобы уменьшить использование памяти, размер модели и улучшить инференс без потери точности ответов модели. LLM Compressor поддерживает следующие методы сжатия:

Квантизация: преобразует веса и активации модели в форматы с меньшим числом бит, например int8, снижая использование памяти.
Разреженность: обнуляет часть весов модели, часто по фиксированным шаблонам, что позволяет более эффективно выполнять вычисления.
Сжатие: уменьшает размер сохранённого файла модели, желательно с минимальным влиянием на производительность.

Используйте эти методы совместно для более эффективного развертывания моделей на оборудовании с ограниченными ресурсами.

LLM Compressor поддерживает широкий спектр техник сжатия:

Квантизация только весов (W4A16) сжимает веса модели до 4-битной точности, что полезно для AI-приложений с ограниченными аппаратными ресурсами или высокой чувствительностью к задержкам.
Квантизация весов и активаций (W8A8) сжимает как веса, так и активации до 8-битной точности, ориентируясь на общие серверные сценарии для целочисленных и с плавающей точкой форматов.

LLM Compressor поддерживает несколько алгоритмов сжатия:

AWQ: квантизация только весов INT4
GPTQ: квантизация только весов INT4
FP8: динамическая квантизация на уровне каждого токена
SparseGPT: посттренировочная разреженность
SmoothQuant: квантизация активаций

Для получения дополнительной информации о алгоритмах и форматах сжатия, пожалуйста, обратитесь к документации и примерам в репозитории llmcompressor. Каждый из этих методов сжатия вычисляет оптимальные масштабы и нулевые точки для весов и активаций. Оптимизированные масштабы могут задаваться на уровне тензора, канала, группы или токена. Итогом является сжатая модель, сохранённая со всеми применёнными параметрами квантизации.

#Введение

#Содержание

#Предисловие

#LLM Compressor поддерживает широкий спектр техник сжатия:

#LLM Compressor поддерживает несколько алгоритмов сжатия:

Введение

Содержание

Предисловие

LLM Compressor поддерживает широкий спектр техник сжатия:

LLM Compressor поддерживает несколько алгоритмов сжатия: