tgoop.com/quant_prune_distill/140
Last Update:
Exponentially Faster Language Modelling
[Статья][Код]
Только мы на днях разбирали contextual sparsity, как DL сообщество сотрясла статья, реализующая данную концепцию в экстремальном объеме.
Согласно аннотации, вариация BERT, предложенная в статье, которую без лишней скромности нарекли UltraFastBERT, выдает умопомрачительные показатели по эффективности:
⭐️ Прямой проход с использованием всего 0.3% параметров
⭐️️️️️️️ Ускорение в 78 раз по сравнению с оптимизированной реализацией прямого прохода
Ну все, значится. Теперь BERT можно гонять хоть на старой нокии или калькуляторе. AGI в кармане - теперь дело времени. Так ли все замечательно?
Ан нет.
Первый нюанс заключается в том, что оптимизируются только feedforward блоки, а attention блоки остаются без изменения. Авторы мотивируют это тем, что BERT обычно обрабатывает последовательности длины порядка 128, где основные вычисления происходят в feedforward. Это действительно так, тем не менее, attention занимает все равно нетривиальную долю вычислительного бюджета, потому всю модель в десятки раз ускорить не выйдет.
BY КПД
Share with your friend now:
tgoop.com/quant_prune_distill/140