КПД@quant_prune_distill P.140

КПД

Exponentially Faster Language Modelling
[Статья][Код]

Только мы на днях разбирали contextual sparsity, как DL сообщество сотрясла статья, реализующая данную концепцию в экстремальном объеме.

Согласно аннотации, вариация BERT, предложенная в статье, которую без лишней скромности нарекли UltraFastBERT, выдает умопомрачительные показатели по эффективности:
⭐️ Прямой проход с использованием всего 0.3% параметров
⭐️️️️️️️ Ускорение в 78 раз по сравнению с оптимизированной реализацией прямого прохода

Ну все, значится. Теперь BERT можно гонять хоть на старой нокии или калькуляторе. AGI в кармане - теперь дело времени. Так ли все замечательно?

Ан нет.

Первый нюанс заключается в том, что оптимизируются только feedforward блоки, а attention блоки остаются без изменения. Авторы мотивируют это тем, что BERT обычно обрабатывает последовательности длины порядка 128, где основные вычисления происходят в feedforward. Это действительно так, тем не менее, attention занимает все равно нетривиальную долю вычислительного бюджета, потому всю модель в десятки раз ускорить не выйдет.

😱3👍2

www.tgoop.com/quant_prune_distill/140

466 viewsedited Nov 23, 2023 at 13:11

tgoop.com/quant_prune_distill/140

Create: 2023-11-23
Last Update: 2025-08-27 08:53:37

BY КПД

Share with your friend now:
tgoop.com/quant_prune_distill/140

Telegram News

Exponentially Faster Language Modelling