NN_FOR_SCIENCE Telegram 2464
Почему случается гроккинг?

Представьте: вы тренируете крошечный трансформер отличить кошку от ягуара.
После 100 000 шагов ‒ на трейне всё идеально, на тесте — худо-бедно 55 %.
Уже готовы махнуть рукой… и вдруг на 101 000-м шаге точность подпрыгивает до 99 %.
Это «внезапное прозрение» и называется grokking.


Grokking — момент, когда модель перестаёт тупо запоминать примеры и внезапно все понимает, из-за чего точность на тесте взлетает. Феномен был известен с 2021 года, но до сих пор было не до конца понятно почему так происходит.

Свежее исследование убедительно показывает, что гроккинг случается после того, как сеть забила всю свою память - «внутреннюю флешку» сырыми данными и вынуждена перейти к их сжатию.

Как оно работает
1. Копирование.
Пока энтропия данных меньше ≈ 3,5–4 бита на параметр, дешевле «запекать» каждый пример прямо в веса. Train-loss → 0, test-loss почти не падает.
2. Флешка переполнена.
Новые байты не влазят. Градиенту выгоднее искать закономерности, которые приведут к снижению ошибки сразу на нескольких примерах.
3. Озарение (grokking).
Сеть «сжимает» знания, выбрасывая случайные детали. Test-loss резко падает.

Сколько это «3,5–4 бита»?

Миллион параметров = ~0,5 МБ на диске.
Это меньше одной фотки с телефона — место заканчивается удивительно быстро, вот почему grokking ловят даже на игрушечных датасетах.

Что делать практику

Учите дольше, чем кажется нужным. Магический скачок может прийти после тысяч лишних шагов.

Добавьте данных. Если сеть забуксовала, удвойте датасет: ей надо «упереться в потолок памяти», прежде чем она начнёт обобщать.

Одна метафора, чтобы запомнить

Нейронка — ноут с крошечным SSD и автоматическим ZIP: пока место есть, хранит RAW-фото, а как забьётся — начинает архивировать зипом.

🤓 Полная статья

А вы уже сталкивались с grokking в своих проектах?
Расскажите в комментариях — интересно, после скольких шагов «прозрело» у вас 😉
Please open Telegram to view this post
VIEW IN TELEGRAM
254👍22🔥13🤯5



tgoop.com/nn_for_science/2464
Create:
Last Update:

Почему случается гроккинг?

Представьте: вы тренируете крошечный трансформер отличить кошку от ягуара.
После 100 000 шагов ‒ на трейне всё идеально, на тесте — худо-бедно 55 %.
Уже готовы махнуть рукой… и вдруг на 101 000-м шаге точность подпрыгивает до 99 %.
Это «внезапное прозрение» и называется grokking.


Grokking — момент, когда модель перестаёт тупо запоминать примеры и внезапно все понимает, из-за чего точность на тесте взлетает. Феномен был известен с 2021 года, но до сих пор было не до конца понятно почему так происходит.

Свежее исследование убедительно показывает, что гроккинг случается после того, как сеть забила всю свою память - «внутреннюю флешку» сырыми данными и вынуждена перейти к их сжатию.

Как оно работает
1. Копирование.
Пока энтропия данных меньше ≈ 3,5–4 бита на параметр, дешевле «запекать» каждый пример прямо в веса. Train-loss → 0, test-loss почти не падает.
2. Флешка переполнена.
Новые байты не влазят. Градиенту выгоднее искать закономерности, которые приведут к снижению ошибки сразу на нескольких примерах.
3. Озарение (grokking).
Сеть «сжимает» знания, выбрасывая случайные детали. Test-loss резко падает.

Сколько это «3,5–4 бита»?

Миллион параметров = ~0,5 МБ на диске.
Это меньше одной фотки с телефона — место заканчивается удивительно быстро, вот почему grokking ловят даже на игрушечных датасетах.

Что делать практику

Учите дольше, чем кажется нужным. Магический скачок может прийти после тысяч лишних шагов.

Добавьте данных. Если сеть забуксовала, удвойте датасет: ей надо «упереться в потолок памяти», прежде чем она начнёт обобщать.

Одна метафора, чтобы запомнить

Нейронка — ноут с крошечным SSD и автоматическим ZIP: пока место есть, хранит RAW-фото, а как забьётся — начинает архивировать зипом.

🤓 Полная статья

А вы уже сталкивались с grokking в своих проектах?
Расскажите в комментариях — интересно, после скольких шагов «прозрело» у вас 😉

BY AI для Всех




Share with your friend now:
tgoop.com/nn_for_science/2464

View MORE
Open in Telegram


Telegram News

Date: |

To view your bio, click the Menu icon and select “View channel info.” Hashtags are a fast way to find the correct information on social media. To put your content out there, be sure to add hashtags to each post. We have two intelligent tips to give you: End-to-end encryption is an important feature in messaging, as it's the first step in protecting users from surveillance. Add the logo from your device. Adjust the visible area of your image. Congratulations! Now your Telegram channel has a face Click “Save”.! It’s easy to create a Telegram channel via desktop app or mobile app (for Android and iOS):
from us


Telegram AI для Всех
FROM American