QUANT_PRUNE_DISTILL Telegram 132
QMoE: Practical Sub-1-Bit Compression of Trillion-Parameter Models
[Статья] [Код]

Сегодняшний пост можно считать юбилейным. Мой скромный канал преодолел психологический рубеж в 100 подписчиков, за что большое спасибо Милане @milana_shhanukova)

Введение

Современные алгоритмы post-training-quantization вполне успешно квантуют большие языковые модели в 3-4 бита, благодаря чему многомиллиардные модели становится возможным помещать на одну видеокарту.

Но, что если поставить еще более амбициозную задачу - уместить на одном хосте модель с триллионом и более параметров, например, гугловский Switch Transformer c 1.6T весов. Сие чудище настолько огроменное, что при квантизации в 4 бита не поместится даже на целую стойку A100, что уж говорить о более скромном сервере из RTX3090.

Оказывается, что данные модели обладают замечательной сжимаемостью; без заметной просадки в качестве их можно квантовать менее чем в один бит, что позволяет поместить самый большой Switch Transformer на 8 RTX 3090 (24 Gb) или 4 A6000 (48 Gb).

Метод

Рассматриваемый в этой статье класс моделей - смеси экспертов (Mixture of Experts / MoE) - состоят из Attention блоков, которые используются для всех входов, и множества реплик (от 128 до 2048 в семействе Switch Transformer) полносвязных блоков (2-слойных сетей), называемых экспертами, каждый из которых обрабатывает только часть входных данных. Специальная сеть (роутер), предсказывает, к какому эксперту направить данный токен.

При обработке последовательности, для каждого ее элемента используется только часть параметров, что дает существенную экономию вычислений по сравнению с обычным трансформером эквивалентного размера, сохраняя при этом его выразительность.

Однако сама модель остается все еще очень большой и занимает много места в памяти. Деваться некуда - надо сжимать.
🔥7



tgoop.com/quant_prune_distill/132
Create:
Last Update:

QMoE: Practical Sub-1-Bit Compression of Trillion-Parameter Models
[Статья] [Код]

Сегодняшний пост можно считать юбилейным. Мой скромный канал преодолел психологический рубеж в 100 подписчиков, за что большое спасибо Милане @milana_shhanukova)

Введение

Современные алгоритмы post-training-quantization вполне успешно квантуют большие языковые модели в 3-4 бита, благодаря чему многомиллиардные модели становится возможным помещать на одну видеокарту.

Но, что если поставить еще более амбициозную задачу - уместить на одном хосте модель с триллионом и более параметров, например, гугловский Switch Transformer c 1.6T весов. Сие чудище настолько огроменное, что при квантизации в 4 бита не поместится даже на целую стойку A100, что уж говорить о более скромном сервере из RTX3090.

Оказывается, что данные модели обладают замечательной сжимаемостью; без заметной просадки в качестве их можно квантовать менее чем в один бит, что позволяет поместить самый большой Switch Transformer на 8 RTX 3090 (24 Gb) или 4 A6000 (48 Gb).

Метод

Рассматриваемый в этой статье класс моделей - смеси экспертов (Mixture of Experts / MoE) - состоят из Attention блоков, которые используются для всех входов, и множества реплик (от 128 до 2048 в семействе Switch Transformer) полносвязных блоков (2-слойных сетей), называемых экспертами, каждый из которых обрабатывает только часть входных данных. Специальная сеть (роутер), предсказывает, к какому эксперту направить данный токен.

При обработке последовательности, для каждого ее элемента используется только часть параметров, что дает существенную экономию вычислений по сравнению с обычным трансформером эквивалентного размера, сохраняя при этом его выразительность.

Однако сама модель остается все еще очень большой и занимает много места в памяти. Деваться некуда - надо сжимать.

BY КПД


Share with your friend now:
tgoop.com/quant_prune_distill/132

View MORE
Open in Telegram


Telegram News

Date: |

Find your optimal posting schedule and stick to it. The peak posting times include 8 am, 6 pm, and 8 pm on social media. Try to publish serious stuff in the morning and leave less demanding content later in the day. While the character limit is 255, try to fit into 200 characters. This way, users will be able to take in your text fast and efficiently. Reveal the essence of your channel and provide contact information. For example, you can add a bot name, link to your pricing plans, etc. ZDNET RECOMMENDS Unlimited number of subscribers per channel Co-founder of NFT renting protocol Rentable World emiliano.eth shared the group Tuesday morning on Twitter, calling out the "degenerate" community, or crypto obsessives that engage in high-risk trading.
from us


Telegram КПД
FROM American