Notice: file_put_contents(): Write of 10204 bytes failed with errno=28 No space left on device in /var/www/tgoop/post.php on line 50

Warning: file_put_contents(): Only 8192 of 18396 bytes written, possibly out of free disk space in /var/www/tgoop/post.php on line 50
DL in NLP@dlinnlp P.1385
DLINNLP Telegram 1385
Simple Local Attentions Remain Competitive for Long-Context Tasks
arxiv.org/abs/2112.07210

За последние два года накопилась куча длинных трансформеров которые могут работать с последовательностями больше 512 токенов. Зачастую такую нейросеть инициализируют предобученным “коротким” трансформером например RoBERTa. В этой статье авторы сказали, “постойте, а что если тренировать всё с нуля и вообще сделать максимально одинаковый сетап для всех длинноформеров“. А ещё “надо взять пару тупых бейзлайнов типа скользящего окна или блочного аттеншена“. Ещё добавили несколько глобальных токенов, которые могут аттентиться ко всей последовательности.

Результат: на бенчмарке LRA все модели показывают одинаковое качество, при этом тупые бейзлайны зачастую быстрее остальных моделей. На более прикладных длиннотекстовых задачах (TriviaQA, Hyperpartisan) блочный аттеншн с глобальными токенами вообще всех рвёт. Выяснили что оверлап блоков улучает MLM, но для прикладных бесполезен. А вот глобальные токены очень важны для TriviaQA, без них модель теряет аж 10 пунктов. Инициализировать RoBERTa даёт заметный буст (78 против 73 F1 на TriviaQA).

Вывод: block-wise attention очень крут, несмотря на то что очень прост. Посыпьте его парой выучиваемых глобальных токенов и будет вам длинный трансформер.
Код доступен в виде библиотеки xFormers. Осторожно Triton.
🔥32👍7🤔2❤‍🔥1👎1



tgoop.com/dlinnlp/1385
Create:
Last Update:

Simple Local Attentions Remain Competitive for Long-Context Tasks
arxiv.org/abs/2112.07210

За последние два года накопилась куча длинных трансформеров которые могут работать с последовательностями больше 512 токенов. Зачастую такую нейросеть инициализируют предобученным “коротким” трансформером например RoBERTa. В этой статье авторы сказали, “постойте, а что если тренировать всё с нуля и вообще сделать максимально одинаковый сетап для всех длинноформеров“. А ещё “надо взять пару тупых бейзлайнов типа скользящего окна или блочного аттеншена“. Ещё добавили несколько глобальных токенов, которые могут аттентиться ко всей последовательности.

Результат: на бенчмарке LRA все модели показывают одинаковое качество, при этом тупые бейзлайны зачастую быстрее остальных моделей. На более прикладных длиннотекстовых задачах (TriviaQA, Hyperpartisan) блочный аттеншн с глобальными токенами вообще всех рвёт. Выяснили что оверлап блоков улучает MLM, но для прикладных бесполезен. А вот глобальные токены очень важны для TriviaQA, без них модель теряет аж 10 пунктов. Инициализировать RoBERTa даёт заметный буст (78 против 73 F1 на TriviaQA).

Вывод: block-wise attention очень крут, несмотря на то что очень прост. Посыпьте его парой выучиваемых глобальных токенов и будет вам длинный трансформер.
Код доступен в виде библиотеки xFormers. Осторожно Triton.

BY DL in NLP




Share with your friend now:
tgoop.com/dlinnlp/1385

View MORE
Open in Telegram


Telegram News

Date: |

SUCK Channel Telegram To view your bio, click the Menu icon and select “View channel info.” End-to-end encryption is an important feature in messaging, as it's the first step in protecting users from surveillance. Joined by Telegram's representative in Brazil, Alan Campos, Perekopsky noted the platform was unable to cater to some of the TSE requests due to the company's operational setup. But Perekopsky added that these requests could be studied for future implementation. Telegram Channels requirements & features
from us


Telegram DL in NLP
FROM American