tgoop.com/quant_prune_distill/134
Last Update:
Эксперименты
Авторы рассматривают семейство моделей Switch Transformer - 7B, 26B, 1.6T параметров. По существу это encoder-decoder T5-модель с параллельными feed-forward блоками.
Switch Transformer обучался на Masked LM на C4, потому метод тестируют на валидационной выборке из этого датасета, замеряя перплексию. Вдобавок, замеряют аналогичным образом качество на нескольких подмножествах из RedPajama (open-source версии датасета Llama).
Квантуются только эксперты, attention слои, занимающие крохотную долю общего числа параметров держатся в исходной точности.
Тернарная квантизация с энтропийным кодированием дает 0.8 бита на параметр, при этом полученная модель не сильно просаживается в качестве по сравнению с исходным представлением в bf16. Таким образом, имеем сжатие модели примерно в 20 раз. Удивительно, что и квантование к ближайшему соседу работает очень неплохо, хоть и заметно хуже GPTQ.
Прогонка алгоритма на одной A6000 занимает менее дня для самой большой модели.
Предложенная процедура кодирования весов дает небольшой оверхед к общему времени вычислений и итоговый прирост времени выполнения - всего 5% по сравнению с тем, что было бы у исходной модели, если ее можно было бы уместить на одну стойку (как я понимаю, оценивали скорость на основе одного блока attention + полносвязные эксперты).
Что же делает экспертов настолько легко квантуемыми? По всей видимости, сама процедура обучения и инференса, предполагает, что в большинстве вычислений данный эксперт не будет задействован, потому модель устойчива к отсутствию операций в большинстве слоев. Кроме того, накопление ошибки меньше, так как есть эффект от округления только части весов, а используемые во всех вычислениях attention слои неизменны. Обсуждение в GitHub issue.
Вывод
Крутой и практически полезный результат, мотивирующий дальнейшее развитие и большее широкое применение смесей экспертов. В то время как обычные языковые модели плохо сжимаются менее чем в 3 бита без значительной просадки в качестве, MoE допускают куда более агрессивное сжатие. Сама концепция MoE и условных вычислений кажется более чем естественной для foundation моделей - для решения задачи по алгебре, вряд ли полезно знать название всех персонажей в Сильмариллоне или формулу тринитротолуола. GPT-4 по слухам представляет собой смесь экспертов. Сдается мне, Llama-3 тоже будет MoE (запомните этот твит).
BY КПД
Share with your friend now:
tgoop.com/quant_prune_distill/134