tgoop.com/nn_for_science/2375
Last Update:
Трансформеры без нормализации
В свежей статье от марта 2025 года исследователи из Meta, MIT, NYU и Принстона предложили простой способ сделать трансформеры эффективнее, отказавшись от классических слоев нормализации.
Вместо привычных LayerNorm авторы предлагают использовать Dynamic Tanh (DyT): tanh(αx), где α — обучаемый параметр.
Почему это интересно
Обычно нормализация необходима, чтобы стабилизировать обучение нейросетей, однако она требует дополнительных вычислений. Оказалось, что DyT не только сохраняет качество трансформеров, но и немного ускоряет их инференс и обучение, примерно на 7%.
Что заметили авторы
Внимательно изучив работу слоев нормализации, исследователи увидели, что они ведут себя как S-образные (сигмоидные) функции, похожие на tanh. Оказывается, что важнее всего в нормализации оказалось именно нелинейное подавление экстремальных значений активаций (squashing).
Что это даёт на практике
DyT успешно заменяет нормализацию во многих типах трансформеров:
• Vision Transformers
• Языковые модели (включая модели с 70 млрд параметров)
• Диффузионные модели
• Распознавание речи
• Геномные модели
Исследование с кодом доступно на странице проекта и в статье
BY AI для Всех

Share with your friend now:
tgoop.com/nn_for_science/2375