КПД@quant_prune_distill P.132

КПД

QMoE: Practical Sub-1-Bit Compression of Trillion-Parameter Models
[Статья] [Код]

Сегодняшний пост можно считать юбилейным. Мой скромный канал преодолел психологический рубеж в 100 подписчиков, за что большое спасибо Милане @milana_shhanukova)

Введение

Современные алгоритмы post-training-quantization вполне успешно квантуют большие языковые модели в 3-4 бита, благодаря чему многомиллиардные модели становится возможным помещать на одну видеокарту.

Но, что если поставить еще более амбициозную задачу - уместить на одном хосте модель с триллионом и более параметров, например, гугловский Switch Transformer c 1.6T весов. Сие чудище настолько огроменное, что при квантизации в 4 бита не поместится даже на целую стойку A100, что уж говорить о более скромном сервере из RTX3090.

Оказывается, что данные модели обладают замечательной сжимаемостью; без заметной просадки в качестве их можно квантовать менее чем в один бит, что позволяет поместить самый большой Switch Transformer на 8 RTX 3090 (24 Gb) или 4 A6000 (48 Gb).

Метод

Рассматриваемый в этой статье класс моделей - смеси экспертов (Mixture of Experts / MoE) - состоят из Attention блоков, которые используются для всех входов, и множества реплик (от 128 до 2048 в семействе Switch Transformer) полносвязных блоков (2-слойных сетей), называемых экспертами, каждый из которых обрабатывает только часть входных данных. Специальная сеть (роутер), предсказывает, к какому эксперту направить данный токен.

При обработке последовательности, для каждого ее элемента используется только часть параметров, что дает существенную экономию вычислений по сравнению с обычным трансформером эквивалентного размера, сохраняя при этом его выразительность.

Однако сама модель остается все еще очень большой и занимает много места в памяти. Деваться некуда - надо сжимать.

🔥7

www.tgoop.com/quant_prune_distill/132

415 viewsNov 4, 2023 at 16:44

tgoop.com/quant_prune_distill/132

Create: 2023-11-04
Last Update: 2025-08-27 16:26:52

BY КПД

Share with your friend now:
tgoop.com/quant_prune_distill/132

Telegram News

QMoE: Practical Sub-1-Bit Compression of Trillion-Parameter Models