tgoop.com/quant_prune_distill/132
Last Update:
QMoE: Practical Sub-1-Bit Compression of Trillion-Parameter Models
[Статья] [Код]
Сегодняшний пост можно считать юбилейным. Мой скромный канал преодолел психологический рубеж в 100 подписчиков, за что большое спасибо Милане @milana_shhanukova)
Введение
Современные алгоритмы post-training-quantization вполне успешно квантуют большие языковые модели в 3-4 бита, благодаря чему многомиллиардные модели становится возможным помещать на одну видеокарту.
Но, что если поставить еще более амбициозную задачу - уместить на одном хосте модель с триллионом и более параметров, например, гугловский Switch Transformer c 1.6T весов. Сие чудище настолько огроменное, что при квантизации в 4 бита не поместится даже на целую стойку A100, что уж говорить о более скромном сервере из RTX3090.
Оказывается, что данные модели обладают замечательной сжимаемостью; без заметной просадки в качестве их можно квантовать менее чем в один бит, что позволяет поместить самый большой Switch Transformer на 8 RTX 3090 (24 Gb) или 4 A6000 (48 Gb).
Метод
Рассматриваемый в этой статье класс моделей - смеси экспертов (Mixture of Experts / MoE) - состоят из Attention блоков, которые используются для всех входов, и множества реплик (от 128 до 2048 в семействе Switch Transformer) полносвязных блоков (2-слойных сетей), называемых экспертами, каждый из которых обрабатывает только часть входных данных. Специальная сеть (роутер), предсказывает, к какому эксперту направить данный токен.
При обработке последовательности, для каждого ее элемента используется только часть параметров, что дает существенную экономию вычислений по сравнению с обычным трансформером эквивалентного размера, сохраняя при этом его выразительность.
Однако сама модель остается все еще очень большой и занимает много места в памяти. Деваться некуда - надо сжимать.
BY КПД
Share with your friend now:
tgoop.com/quant_prune_distill/132