NN_FOR_SCIENCE Telegram 2375
Трансформеры без нормализации

В свежей статье от марта 2025 года исследователи из Meta, MIT, NYU и Принстона предложили простой способ сделать трансформеры эффективнее, отказавшись от классических слоев нормализации.

Вместо привычных LayerNorm авторы предлагают использовать Dynamic Tanh (DyT): tanh(αx), где α — обучаемый параметр.

Почему это интересно

Обычно нормализация необходима, чтобы стабилизировать обучение нейросетей, однако она требует дополнительных вычислений. Оказалось, что DyT не только сохраняет качество трансформеров, но и немного ускоряет их инференс и обучение, примерно на 7%.

Что заметили авторы

Внимательно изучив работу слоев нормализации, исследователи увидели, что они ведут себя как S-образные (сигмоидные) функции, похожие на tanh. Оказывается, что важнее всего в нормализации оказалось именно нелинейное подавление экстремальных значений активаций (squashing).

Что это даёт на практике

DyT успешно заменяет нормализацию во многих типах трансформеров:
• Vision Transformers
• Языковые модели (включая модели с 70 млрд параметров)
• Диффузионные модели
• Распознавание речи
• Геномные модели

Исследование с кодом доступно на странице проекта и в статье
🔥44👍81😐1



tgoop.com/nn_for_science/2375
Create:
Last Update:

Трансформеры без нормализации

В свежей статье от марта 2025 года исследователи из Meta, MIT, NYU и Принстона предложили простой способ сделать трансформеры эффективнее, отказавшись от классических слоев нормализации.

Вместо привычных LayerNorm авторы предлагают использовать Dynamic Tanh (DyT): tanh(αx), где α — обучаемый параметр.

Почему это интересно

Обычно нормализация необходима, чтобы стабилизировать обучение нейросетей, однако она требует дополнительных вычислений. Оказалось, что DyT не только сохраняет качество трансформеров, но и немного ускоряет их инференс и обучение, примерно на 7%.

Что заметили авторы

Внимательно изучив работу слоев нормализации, исследователи увидели, что они ведут себя как S-образные (сигмоидные) функции, похожие на tanh. Оказывается, что важнее всего в нормализации оказалось именно нелинейное подавление экстремальных значений активаций (squashing).

Что это даёт на практике

DyT успешно заменяет нормализацию во многих типах трансформеров:
• Vision Transformers
• Языковые модели (включая модели с 70 млрд параметров)
• Диффузионные модели
• Распознавание речи
• Геномные модели

Исследование с кодом доступно на странице проекта и в статье

BY AI для Всех




Share with your friend now:
tgoop.com/nn_for_science/2375

View MORE
Open in Telegram


Telegram News

Date: |

The creator of the channel becomes its administrator by default. If you need help managing your channel, you can add more administrators from your subscriber base. You can provide each admin with limited or full rights to manage the channel. For example, you can allow an administrator to publish and edit content while withholding the right to add new subscribers. Content is editable within two days of publishing Invite up to 200 users from your contacts to join your channel Co-founder of NFT renting protocol Rentable World emiliano.eth shared the group Tuesday morning on Twitter, calling out the "degenerate" community, or crypto obsessives that engage in high-risk trading. Some Telegram Channels content management tips
from us


Telegram AI для Всех
FROM American