NEURAL_CAT Telegram 18
Позиционные эмбединги не нужны 😱

Намедни обучали модель машинного перевода. Обучали 5 дней на 8GPU v100. Посмотрели метрики, потыкали и потестировали модель. Она нам понравилась (!).

Через некоторое время я через косвенные признаки заметил, что позиционные эмбединги отсутствуют — просто нет таких весов в чекпоинтах. Не поверил себе, — перепроверил. Действительно нет.

И тогда я подумал "так мы потеряли 10-20пп в метрике!", ведь отцы мультхэд атеншена учили нас, что в архитектуре transformer не учитывается порядок токенов, поэтому позиционные эмбединги must have. Пошел читать ablation study в оригинальной статье (там как раз перевод), но там сравнивается только "обучаемые эмбединги" vs. "синусоидные".

Пошел гуглить. Оказывается, механизм внимания сам выучивает позиционную информацию, так как в masked attention мы ограничваем количество токенов, которые attendable (типа на каждой позиции смотрим только на определенное количество токенов).

WARNING: такой трюк не прокатит с бертом, так как у него "полный" (bidirectional) attention.

В общем, поставили обучаться с позиционными, посмотрим, какой будет прирост.
😱8👍5



tgoop.com/neural_cat/18
Create:
Last Update:

Позиционные эмбединги не нужны 😱

Намедни обучали модель машинного перевода. Обучали 5 дней на 8GPU v100. Посмотрели метрики, потыкали и потестировали модель. Она нам понравилась (!).

Через некоторое время я через косвенные признаки заметил, что позиционные эмбединги отсутствуют — просто нет таких весов в чекпоинтах. Не поверил себе, — перепроверил. Действительно нет.

И тогда я подумал "так мы потеряли 10-20пп в метрике!", ведь отцы мультхэд атеншена учили нас, что в архитектуре transformer не учитывается порядок токенов, поэтому позиционные эмбединги must have. Пошел читать ablation study в оригинальной статье (там как раз перевод), но там сравнивается только "обучаемые эмбединги" vs. "синусоидные".

Пошел гуглить. Оказывается, механизм внимания сам выучивает позиционную информацию, так как в masked attention мы ограничваем количество токенов, которые attendable (типа на каждой позиции смотрим только на определенное количество токенов).

WARNING: такой трюк не прокатит с бертом, так как у него "полный" (bidirectional) attention.

В общем, поставили обучаться с позиционными, посмотрим, какой будет прирост.

BY Нейронный Кот


Share with your friend now:
tgoop.com/neural_cat/18

View MORE
Open in Telegram


Telegram News

Date: |

Invite up to 200 users from your contacts to join your channel Activate up to 20 bots Ng, who had pleaded not guilty to all charges, had been detained for more than 20 months. His channel was said to have contained around 120 messages and photos that incited others to vandalise pro-government shops and commit criminal damage targeting police stations. “Hey degen, are you stressed? Just let it all out,” he wrote, along with a link to join the group. The initiatives announced by Perekopsky include monitoring the content in groups. According to the executive, posts identified as lacking context or as containing false information will be flagged as a potential source of disinformation. The content is then forwarded to Telegram's fact-checking channels for analysis and subsequent publication of verified information.
from us


Telegram Нейронный Кот
FROM American