QUANT_PRUNE_DISTILL Telegram 140
Exponentially Faster Language Modelling
[Статья][Код]

Только мы на днях разбирали contextual sparsity, как DL сообщество сотрясла статья, реализующая данную концепцию в экстремальном объеме.

Согласно аннотации, вариация BERT, предложенная в статье, которую без лишней скромности нарекли UltraFastBERT, выдает умопомрачительные показатели по эффективности:
⭐️ Прямой проход с использованием всего 0.3% параметров
⭐️️️️️️️ Ускорение в 78 раз по сравнению с оптимизированной реализацией прямого прохода

Ну все, значится. Теперь BERT можно гонять хоть на старой нокии или калькуляторе. AGI в кармане - теперь дело времени. Так ли все замечательно?

Ан нет.

Первый нюанс заключается в том, что оптимизируются только feedforward блоки, а attention блоки остаются без изменения. Авторы мотивируют это тем, что BERT обычно обрабатывает последовательности длины порядка 128, где основные вычисления происходят в feedforward. Это действительно так, тем не менее, attention занимает все равно нетривиальную долю вычислительного бюджета, потому всю модель в десятки раз ускорить не выйдет.
😱3👍2



tgoop.com/quant_prune_distill/140
Create:
Last Update:

Exponentially Faster Language Modelling
[Статья][Код]

Только мы на днях разбирали contextual sparsity, как DL сообщество сотрясла статья, реализующая данную концепцию в экстремальном объеме.

Согласно аннотации, вариация BERT, предложенная в статье, которую без лишней скромности нарекли UltraFastBERT, выдает умопомрачительные показатели по эффективности:
⭐️ Прямой проход с использованием всего 0.3% параметров
⭐️️️️️️️ Ускорение в 78 раз по сравнению с оптимизированной реализацией прямого прохода

Ну все, значится. Теперь BERT можно гонять хоть на старой нокии или калькуляторе. AGI в кармане - теперь дело времени. Так ли все замечательно?

Ан нет.

Первый нюанс заключается в том, что оптимизируются только feedforward блоки, а attention блоки остаются без изменения. Авторы мотивируют это тем, что BERT обычно обрабатывает последовательности длины порядка 128, где основные вычисления происходят в feedforward. Это действительно так, тем не менее, attention занимает все равно нетривиальную долю вычислительного бюджета, потому всю модель в десятки раз ускорить не выйдет.

BY КПД


Share with your friend now:
tgoop.com/quant_prune_distill/140

View MORE
Open in Telegram


Telegram News

Date: |

fire bomb molotov November 18 Dylan Hollingsworth yau ma tei Activate up to 20 bots Clear Choose quality over quantity. Remember that one high-quality post is better than five short publications of questionable value. So far, more than a dozen different members have contributed to the group, posting voice notes of themselves screaming, yelling, groaning, and wailing in various pitches and rhythms.
from us


Telegram КПД
FROM American