NN_FOR_SCIENCE Telegram 2452
🎫 Гипотеза Лотерейного билета

«Чтобы обучить огромную сеть, вовсе не нужно хранить все её связи. Внутри уже лежит выигрышный билет — нужно лишь его найти».


О чём вообще речь?

В 2019-м Джонатан Франкл и Майкл Карбин показали удивительное: если взять огромную нейросеть, обучить её, затем обрезать 90-95 % наименее значимых весов, вернуть оставшиеся веса к их исходным случайным значениям и обучить только их, модель всё равно выходит на ту же точность.

Оставшиеся связи они назвали «🎫 выигрышным лотерейным билетом» (Lottery Ticket).

Почему так происходит?

- Переизбыточность: Современные сети намеренно делают шире, чем нужно: много весов дублируют друг друга.

- Случайная инициализация — как мешок билетов. Каждый набор начальных весов — отдельный «билет». Чем больше параметров, тем больше шансов, что один билет окажется «удачным» для задачи.

- SGD — поисковик билетов. Градиентный спуск подсознательно «находит» и усиливает полезную подсеть, а остальное остаётся малоактивным.

Как «вытащить» выигрышный билет?

- Обучаем всю сеть до сходимости.
- Обрезаем X % наименьших по модулю весов (mask).
- Сбрасываем оставшиеся веса к их изначальным случайным значениям.
- Обучаем заново — если точность ≈ исходной, найден билет.
- Повторяем шаг 2–4, постепенно увеличивая sparsity.

Что из этого следует?

- Меньше параметров — не значит хуже: c LeNet на MNIST можно удалить 95 % весов без потери качества.
- Ранние эпохи важнее поздних: маска «выигрышного билета» формируется уже на ~20 % обучения (эффект early-bird).
- Знак веса важнее точного значения: для «билета» главное сохранить, какие связи положительные, а какие отрицательные.

Практическая интуиция

Думайте о каждой крупной сети как о лототроне: достаточно вытянуть правильный билет — и вы получите ту же точность за гораздо меньшие ресурсы.

Оригинальное исследование
18😱18🔥14👍7😐5



tgoop.com/nn_for_science/2452
Create:
Last Update:

🎫 Гипотеза Лотерейного билета


«Чтобы обучить огромную сеть, вовсе не нужно хранить все её связи. Внутри уже лежит выигрышный билет — нужно лишь его найти».


О чём вообще речь?

В 2019-м Джонатан Франкл и Майкл Карбин показали удивительное: если взять огромную нейросеть, обучить её, затем обрезать 90-95 % наименее значимых весов, вернуть оставшиеся веса к их исходным случайным значениям и обучить только их, модель всё равно выходит на ту же точность.

Оставшиеся связи они назвали «🎫 выигрышным лотерейным билетом» (Lottery Ticket).

Почему так происходит?

- Переизбыточность: Современные сети намеренно делают шире, чем нужно: много весов дублируют друг друга.

- Случайная инициализация — как мешок билетов. Каждый набор начальных весов — отдельный «билет». Чем больше параметров, тем больше шансов, что один билет окажется «удачным» для задачи.

- SGD — поисковик билетов. Градиентный спуск подсознательно «находит» и усиливает полезную подсеть, а остальное остаётся малоактивным.

Как «вытащить» выигрышный билет?

- Обучаем всю сеть до сходимости.
- Обрезаем X % наименьших по модулю весов (mask).
- Сбрасываем оставшиеся веса к их изначальным случайным значениям.
- Обучаем заново — если точность ≈ исходной, найден билет.
- Повторяем шаг 2–4, постепенно увеличивая sparsity.

Что из этого следует?

- Меньше параметров — не значит хуже: c LeNet на MNIST можно удалить 95 % весов без потери качества.
- Ранние эпохи важнее поздних: маска «выигрышного билета» формируется уже на ~20 % обучения (эффект early-bird).
- Знак веса важнее точного значения: для «билета» главное сохранить, какие связи положительные, а какие отрицательные.

Практическая интуиция

Думайте о каждой крупной сети как о лототроне: достаточно вытянуть правильный билет — и вы получите ту же точность за гораздо меньшие ресурсы.

Оригинальное исследование

BY AI для Всех




Share with your friend now:
tgoop.com/nn_for_science/2452

View MORE
Open in Telegram


Telegram News

Date: |

Hui said the messages, which included urging the disruption of airport operations, were attempts to incite followers to make use of poisonous, corrosive or flammable substances to vandalize police vehicles, and also called on others to make weapons to harm police. Users are more open to new information on workdays rather than weekends. Judge Hui described Ng as inciting others to “commit a massacre” with three posts teaching people to make “toxic chlorine gas bombs,” target police stations, police quarters and the city’s metro stations. This offence was “rather serious,” the court said. Select “New Channel” Telegram channels enable users to broadcast messages to multiple users simultaneously. Like on social media, users need to subscribe to your channel to get access to your content published by one or more administrators.
from us


Telegram AI для Всех
FROM American