tgoop.com/nn_for_science/2452
Create:
Last Update:
Last Update:
🎫 Гипотеза Лотерейного билета
«Чтобы обучить огромную сеть, вовсе не нужно хранить все её связи. Внутри уже лежит выигрышный билет — нужно лишь его найти».
О чём вообще речь?
В 2019-м Джонатан Франкл и Майкл Карбин показали удивительное: если взять огромную нейросеть, обучить её, затем обрезать 90-95 % наименее значимых весов, вернуть оставшиеся веса к их исходным случайным значениям и обучить только их, модель всё равно выходит на ту же точность.
Оставшиеся связи они назвали «🎫 выигрышным лотерейным билетом» (Lottery Ticket).
Почему так происходит?
- Переизбыточность: Современные сети намеренно делают шире, чем нужно: много весов дублируют друг друга.
- Случайная инициализация — как мешок билетов. Каждый набор начальных весов — отдельный «билет». Чем больше параметров, тем больше шансов, что один билет окажется «удачным» для задачи.
- SGD — поисковик билетов. Градиентный спуск подсознательно «находит» и усиливает полезную подсеть, а остальное остаётся малоактивным.
Как «вытащить» выигрышный билет?
- Обучаем всю сеть до сходимости.
- Обрезаем X % наименьших по модулю весов (mask).
- Сбрасываем оставшиеся веса к их изначальным случайным значениям.
- Обучаем заново — если точность ≈ исходной, найден билет.
- Повторяем шаг 2–4, постепенно увеличивая sparsity.
Что из этого следует?
- Меньше параметров — не значит хуже: c LeNet на MNIST можно удалить 95 % весов без потери качества.
- Ранние эпохи важнее поздних: маска «выигрышного билета» формируется уже на ~20 % обучения (эффект early-bird).
- Знак веса важнее точного значения: для «билета» главное сохранить, какие связи положительные, а какие отрицательные.
Практическая интуиция
Думайте о каждой крупной сети как о лототроне: достаточно вытянуть правильный билет — и вы получите ту же точность за гораздо меньшие ресурсы.
Оригинальное исследование
BY AI для Всех

Share with your friend now:
tgoop.com/nn_for_science/2452