tgoop.com/neural_cat/18
Last Update:
Позиционные эмбединги не нужны 😱
Намедни обучали модель машинного перевода. Обучали 5 дней на 8GPU v100. Посмотрели метрики, потыкали и потестировали модель. Она нам понравилась (!).
Через некоторое время я через косвенные признаки заметил, что позиционные эмбединги отсутствуют — просто нет таких весов в чекпоинтах. Не поверил себе, — перепроверил. Действительно нет.
И тогда я подумал "так мы потеряли 10-20пп в метрике!", ведь отцы мультхэд атеншена учили нас, что в архитектуре transformer не учитывается порядок токенов, поэтому позиционные эмбединги must have. Пошел читать ablation study в оригинальной статье (там как раз перевод), но там сравнивается только "обучаемые эмбединги" vs. "синусоидные".
Пошел гуглить. Оказывается, механизм внимания сам выучивает позиционную информацию, так как в masked attention мы ограничваем количество токенов, которые attendable (типа на каждой позиции смотрим только на определенное количество токенов).
WARNING: такой трюк не прокатит с бертом, так как у него "полный" (bidirectional) attention.
В общем, поставили обучаться с позиционными, посмотрим, какой будет прирост.
BY Нейронный Кот
Share with your friend now:
tgoop.com/neural_cat/18
