QUANT_PRUNE_DISTILL Telegram 134
Эксперименты

Авторы рассматривают семейство моделей Switch Transformer - 7B, 26B, 1.6T параметров. По существу это encoder-decoder T5-модель с параллельными feed-forward блоками.

Switch Transformer обучался на Masked LM на C4, потому метод тестируют на валидационной выборке из этого датасета, замеряя перплексию. Вдобавок, замеряют аналогичным образом качество на нескольких подмножествах из RedPajama (open-source версии датасета Llama).

Квантуются только эксперты, attention слои, занимающие крохотную долю общего числа параметров держатся в исходной точности.

Тернарная квантизация с энтропийным кодированием дает 0.8 бита на параметр, при этом полученная модель не сильно просаживается в качестве по сравнению с исходным представлением в bf16. Таким образом, имеем сжатие модели примерно в 20 раз. Удивительно, что и квантование к ближайшему соседу работает очень неплохо, хоть и заметно хуже GPTQ.

Прогонка алгоритма на одной A6000 занимает менее дня для самой большой модели.

Предложенная процедура кодирования весов дает небольшой оверхед к общему времени вычислений и итоговый прирост времени выполнения - всего 5% по сравнению с тем, что было бы у исходной модели, если ее можно было бы уместить на одну стойку (как я понимаю, оценивали скорость на основе одного блока attention + полносвязные эксперты).

Что же делает экспертов настолько легко квантуемыми? По всей видимости, сама процедура обучения и инференса, предполагает, что в большинстве вычислений данный эксперт не будет задействован, потому модель устойчива к отсутствию операций в большинстве слоев. Кроме того, накопление ошибки меньше, так как есть эффект от округления только части весов, а используемые во всех вычислениях attention слои неизменны. Обсуждение в GitHub issue.

Вывод

Крутой и практически полезный результат, мотивирующий дальнейшее развитие и большее широкое применение смесей экспертов. В то время как обычные языковые модели плохо сжимаются менее чем в 3 бита без значительной просадки в качестве, MoE допускают куда более агрессивное сжатие. Сама концепция MoE и условных вычислений кажется более чем естественной для foundation моделей - для решения задачи по алгебре, вряд ли полезно знать название всех персонажей в Сильмариллоне или формулу тринитротолуола. GPT-4 по слухам представляет собой смесь экспертов. Сдается мне, Llama-3 тоже будет MoE (запомните этот твит).



tgoop.com/quant_prune_distill/134
Create:
Last Update:

Эксперименты

Авторы рассматривают семейство моделей Switch Transformer - 7B, 26B, 1.6T параметров. По существу это encoder-decoder T5-модель с параллельными feed-forward блоками.

Switch Transformer обучался на Masked LM на C4, потому метод тестируют на валидационной выборке из этого датасета, замеряя перплексию. Вдобавок, замеряют аналогичным образом качество на нескольких подмножествах из RedPajama (open-source версии датасета Llama).

Квантуются только эксперты, attention слои, занимающие крохотную долю общего числа параметров держатся в исходной точности.

Тернарная квантизация с энтропийным кодированием дает 0.8 бита на параметр, при этом полученная модель не сильно просаживается в качестве по сравнению с исходным представлением в bf16. Таким образом, имеем сжатие модели примерно в 20 раз. Удивительно, что и квантование к ближайшему соседу работает очень неплохо, хоть и заметно хуже GPTQ.

Прогонка алгоритма на одной A6000 занимает менее дня для самой большой модели.

Предложенная процедура кодирования весов дает небольшой оверхед к общему времени вычислений и итоговый прирост времени выполнения - всего 5% по сравнению с тем, что было бы у исходной модели, если ее можно было бы уместить на одну стойку (как я понимаю, оценивали скорость на основе одного блока attention + полносвязные эксперты).

Что же делает экспертов настолько легко квантуемыми? По всей видимости, сама процедура обучения и инференса, предполагает, что в большинстве вычислений данный эксперт не будет задействован, потому модель устойчива к отсутствию операций в большинстве слоев. Кроме того, накопление ошибки меньше, так как есть эффект от округления только части весов, а используемые во всех вычислениях attention слои неизменны. Обсуждение в GitHub issue.

Вывод

Крутой и практически полезный результат, мотивирующий дальнейшее развитие и большее широкое применение смесей экспертов. В то время как обычные языковые модели плохо сжимаются менее чем в 3 бита без значительной просадки в качестве, MoE допускают куда более агрессивное сжатие. Сама концепция MoE и условных вычислений кажется более чем естественной для foundation моделей - для решения задачи по алгебре, вряд ли полезно знать название всех персонажей в Сильмариллоне или формулу тринитротолуола. GPT-4 по слухам представляет собой смесь экспертов. Сдается мне, Llama-3 тоже будет MoE (запомните этот твит).

BY КПД


Share with your friend now:
tgoop.com/quant_prune_distill/134

View MORE
Open in Telegram


Telegram News

Date: |

How to create a business channel on Telegram? (Tutorial) 3How to create a Telegram channel? Content is editable within two days of publishing "Doxxing content is forbidden on Telegram and our moderators routinely remove such content from around the world," said a spokesman for the messaging app, Remi Vaughn. Ng was convicted in April for conspiracy to incite a riot, public nuisance, arson, criminal damage, manufacturing of explosives, administering poison and wounding with intent to do grievous bodily harm between October 2019 and June 2020.
from us


Telegram КПД
FROM American