Ну Шмулев, погоди!@wait

Ну Шмулев, погоди!

Продолжаем серию про ML и детей

У нас пошла 6-ая эпоха обучения. Что нового?

Как никогда актуальна борьба с переобучением
Стараемся ломать устойчивые паттерны: «проснулся рано утром в субботу = смотрю мультики», «в примерочной, пока ждем маму, будем играть с папой в телефон».
Как то раз по дороге в садик мы уехали в парк аттракционов. Прямо посреди рабочей недели. Вот это был шок и взрыв градиентов 🤣

Бустрэпим
У нас конечно гора игрушек. Поэтому мы маскируем 75% игрушек на балконе, через пару месяцев повторяем)

Вообще обучение ребенка это конечно в чистом виде RL (Reinforcement Learning), поэтому вспомним Базу:
1. Exploration vs. Exploitation
Зачем мне пробовать пасту с креветками, если котлетки с пюре - это топ
Почему бы не подстричь себе волосы ножницами
Разрисуем стену в ванной папиной пеной для бритья и будем писать циферки
Запомни юный родитель-инженер, чтобы бороться с переобучением, не забываем поощрять exploration (исследования)!

2. Положительное и отрицательное подкрепления.
Наказания и поощрения очень коварный механизм.
Закрепляем связки «мне грустно / плачу --> хочу конфетку / сладенькое» и потом переносим это во взрослую жизнь.
Штрафуем policy, которая не учитывает родительские вводные)
Опытные инженеры знают, что самое сложное в RL – сбалансированная и понятная агенту функция вознаграждения!

3. Улучшаем reward и помогаем обучению
У детей часто sparse reward: «полностью оделся – молодец», «съел кашу – конфета». Долго, далеко, скучно.
А во взрослой жизни вообще reward еще и сильно отложен во времени: закончи универ, создай успешный бизнес.
Поэтому хвалим не только за результат, а за попытку действия: «попробовал - молодец» и растим внутреннюю мотивацию (intrinsic reward): интерес и любопытство.

В следующей серии LLM и attention!

🔥31❤17🤩9👍4

www.tgoop.com/wait_shmulev/83

1.31K viewsedited Aug 26 at 06:21

tgoop.com/wait_shmulev/83

Create: 2025-08-26
Last Update: 2025-10-22 03:17:00

BY Ну Шмулев, погоди!

Share with your friend now:
tgoop.com/wait_shmulev/83

Telegram News

Продолжаем серию про ML и детей