WAIT_SHMULEV Telegram 83
Продолжаем серию про ML и детей

У нас пошла 6-ая эпоха обучения. Что нового?

Как никогда актуальна борьба с переобучением
Стараемся ломать устойчивые паттерны: «проснулся рано утром в субботу = смотрю мультики», «в примерочной, пока ждем маму, будем играть с папой в телефон».
Как то раз по дороге в садик мы уехали в парк аттракционов. Прямо посреди рабочей недели. Вот это был шок и взрыв градиентов 🤣

Бустрэпим
У нас конечно гора игрушек. Поэтому мы маскируем 75% игрушек на балконе, через пару месяцев повторяем)

Вообще обучение ребенка это конечно в чистом виде RL (Reinforcement Learning), поэтому вспомним Базу:
1. Exploration vs. Exploitation
Зачем мне пробовать пасту с креветками, если котлетки с пюре - это топ
Почему бы не подстричь себе волосы ножницами
Разрисуем стену в ванной папиной пеной для бритья и будем писать циферки
Запомни юный родитель-инженер, чтобы бороться с переобучением, не забываем поощрять exploration (исследования)!

2. Положительное и отрицательное подкрепления.
Наказания и поощрения очень коварный механизм.
Закрепляем связки «мне грустно / плачу --> хочу конфетку / сладенькое» и потом переносим это во взрослую жизнь.
Штрафуем policy, которая не учитывает родительские вводные)
Опытные инженеры знают, что самое сложное в RL – сбалансированная и понятная агенту функция вознаграждения!

3. Улучшаем reward и помогаем обучению
У детей часто sparse reward: «полностью оделся – молодец», «съел кашу – конфета». Долго, далеко, скучно.
А во взрослой жизни вообще reward еще и сильно отложен во времени: закончи универ, создай успешный бизнес.
Поэтому хвалим не только за результат, а за попытку действия: «попробовал - молодец» и растим внутреннюю мотивацию (intrinsic reward): интерес и любопытство.

В следующей серии LLM и attention!
🔥3117🤩9👍4



tgoop.com/wait_shmulev/83
Create:
Last Update:

Продолжаем серию про ML и детей

У нас пошла 6-ая эпоха обучения. Что нового?

Как никогда актуальна борьба с переобучением
Стараемся ломать устойчивые паттерны: «проснулся рано утром в субботу = смотрю мультики», «в примерочной, пока ждем маму, будем играть с папой в телефон».
Как то раз по дороге в садик мы уехали в парк аттракционов. Прямо посреди рабочей недели. Вот это был шок и взрыв градиентов 🤣

Бустрэпим
У нас конечно гора игрушек. Поэтому мы маскируем 75% игрушек на балконе, через пару месяцев повторяем)

Вообще обучение ребенка это конечно в чистом виде RL (Reinforcement Learning), поэтому вспомним Базу:
1. Exploration vs. Exploitation
Зачем мне пробовать пасту с креветками, если котлетки с пюре - это топ
Почему бы не подстричь себе волосы ножницами
Разрисуем стену в ванной папиной пеной для бритья и будем писать циферки
Запомни юный родитель-инженер, чтобы бороться с переобучением, не забываем поощрять exploration (исследования)!

2. Положительное и отрицательное подкрепления.
Наказания и поощрения очень коварный механизм.
Закрепляем связки «мне грустно / плачу --> хочу конфетку / сладенькое» и потом переносим это во взрослую жизнь.
Штрафуем policy, которая не учитывает родительские вводные)
Опытные инженеры знают, что самое сложное в RL – сбалансированная и понятная агенту функция вознаграждения!

3. Улучшаем reward и помогаем обучению
У детей часто sparse reward: «полностью оделся – молодец», «съел кашу – конфета». Долго, далеко, скучно.
А во взрослой жизни вообще reward еще и сильно отложен во времени: закончи универ, создай успешный бизнес.
Поэтому хвалим не только за результат, а за попытку действия: «попробовал - молодец» и растим внутреннюю мотивацию (intrinsic reward): интерес и любопытство.

В следующей серии LLM и attention!

BY Ну Шмулев, погоди!


Share with your friend now:
tgoop.com/wait_shmulev/83

View MORE
Open in Telegram


Telegram News

Date: |

According to media reports, the privacy watchdog was considering “blacklisting” some online platforms that have repeatedly posted doxxing information, with sources saying most messages were shared on Telegram. The main design elements of your Telegram channel include a name, bio (brief description), and avatar. Your bio should be: Select “New Channel” Members can post their voice notes of themselves screaming. Interestingly, the group doesn’t allow to post anything else which might lead to an instant ban. As of now, there are more than 330 members in the group. The administrator of a telegram group, "Suck Channel," was sentenced to six years and six months in prison for seven counts of incitement yesterday.
from us


Telegram Ну Шмулев, погоди!
FROM American