Warning: mkdir(): No space left on device in /var/www/tgoop/post.php on line 37

Warning: file_put_contents(aCache/aDaily/post/def_model_train/-935-936-937-): Failed to open stream: No such file or directory in /var/www/tgoop/post.php on line 50
я обучала одну модель@def_model_train P.937
DEF_MODEL_TRAIN Telegram 937
Scaling Transformer to 1M tokens and beyond with
RMT

https://arxiv.org/pdf/2304.11062.pdf

Крутой резерч да еще и от DeepPavlov!
Статья Recurrent Memory Transformer вышла год назад, но завирусился сейчас именно этот технический репорт, где авторы применяют механизм конкретно к BERT

Схема может быть не очень понятная, но суть достаточно простая: длинный текст разбивают на отрывки, к началу первого отрывка добавляют обучаемый memory-вектор, он обрабатывается как часть входной последовательности. После форвард-пасса в этом векторе обновляется информация, его подают в начало следующего сегмента, и так реккурентно идут, пока не кончится исходный длинный текст. Во время тренировки, как синей линией показано, эти вектора обучаются через обычный бэкпроп

Проверяли способности модели на нескольких типах заданий: 1) в начале подается факт, который нужен для ответа на вопрос, а потом много нерелевантной информации 2) нужный факт замешан где-то в тексте и его нужно найти 3) нужно найти несколько фактов и исходя из них ответить на вопрос

При тренировке на 7 больших отрывках у модели получается accuracy в районе 100%. Авторы даже показывают, что размер текста можно до 2М токенов увеличить без существенной потери качества

Ограничений тут несколько:
- На инференсе вам все равно нужно прогнать через модель весь огромный текст в 1-2М токенов, а это долго, и ретривал пока для этого лучше работает
- В задачах, которые приводятся в статье, модели нужно вычленить один или несколько фактов, а не запомнить весь контекст. С этим относительно небольшой тренируемый вектор справляется, но нет уверенности, что этот подход сработает, если нужно запомнить сильно больше деталей

P.S. Шмидхубер опять был прав, когда сказал, что чем больше что-то похоже на RNN, тем лучше
🔥22👍5👌1



tgoop.com/def_model_train/937
Create:
Last Update:

Scaling Transformer to 1M tokens and beyond with
RMT

https://arxiv.org/pdf/2304.11062.pdf

Крутой резерч да еще и от DeepPavlov!
Статья Recurrent Memory Transformer вышла год назад, но завирусился сейчас именно этот технический репорт, где авторы применяют механизм конкретно к BERT

Схема может быть не очень понятная, но суть достаточно простая: длинный текст разбивают на отрывки, к началу первого отрывка добавляют обучаемый memory-вектор, он обрабатывается как часть входной последовательности. После форвард-пасса в этом векторе обновляется информация, его подают в начало следующего сегмента, и так реккурентно идут, пока не кончится исходный длинный текст. Во время тренировки, как синей линией показано, эти вектора обучаются через обычный бэкпроп

Проверяли способности модели на нескольких типах заданий: 1) в начале подается факт, который нужен для ответа на вопрос, а потом много нерелевантной информации 2) нужный факт замешан где-то в тексте и его нужно найти 3) нужно найти несколько фактов и исходя из них ответить на вопрос

При тренировке на 7 больших отрывках у модели получается accuracy в районе 100%. Авторы даже показывают, что размер текста можно до 2М токенов увеличить без существенной потери качества

Ограничений тут несколько:
- На инференсе вам все равно нужно прогнать через модель весь огромный текст в 1-2М токенов, а это долго, и ретривал пока для этого лучше работает
- В задачах, которые приводятся в статье, модели нужно вычленить один или несколько фактов, а не запомнить весь контекст. С этим относительно небольшой тренируемый вектор справляется, но нет уверенности, что этот подход сработает, если нужно запомнить сильно больше деталей

P.S. Шмидхубер опять был прав, когда сказал, что чем больше что-то похоже на RNN, тем лучше

BY я обучала одну модель






Share with your friend now:
tgoop.com/def_model_train/937

View MORE
Open in Telegram


Telegram News

Date: |

ZDNET RECOMMENDS The Standard Channel Activate up to 20 bots Your posting frequency depends on the topic of your channel. If you have a news channel, it’s OK to publish new content every day (or even every hour). For other industries, stick with 2-3 large posts a week. While the character limit is 255, try to fit into 200 characters. This way, users will be able to take in your text fast and efficiently. Reveal the essence of your channel and provide contact information. For example, you can add a bot name, link to your pricing plans, etc.
from us


Telegram я обучала одну модель
FROM American