tgoop.com/wait_shmulev/83
Last Update:
Продолжаем серию про ML и детей
У нас пошла 6-ая эпоха обучения. Что нового?
Как никогда актуальна борьба с переобучением
Стараемся ломать устойчивые паттерны: «проснулся рано утром в субботу = смотрю мультики», «в примерочной, пока ждем маму, будем играть с папой в телефон».
Как то раз по дороге в садик мы уехали в парк аттракционов. Прямо посреди рабочей недели. Вот это был шок и взрыв градиентов 🤣
Бустрэпим
У нас конечно гора игрушек. Поэтому мы маскируем 75% игрушек на балконе, через пару месяцев повторяем)
Вообще обучение ребенка это конечно в чистом виде RL (Reinforcement Learning), поэтому вспомним Базу:
1. Exploration vs. Exploitation
Зачем мне пробовать пасту с креветками, если котлетки с пюре - это топ
Почему бы не подстричь себе волосы ножницами
Разрисуем стену в ванной папиной пеной для бритья и будем писать циферки
Запомни юный родитель-инженер, чтобы бороться с переобучением, не забываем поощрять exploration (исследования)!
2. Положительное и отрицательное подкрепления.
Наказания и поощрения очень коварный механизм.
Закрепляем связки «мне грустно / плачу --> хочу конфетку / сладенькое» и потом переносим это во взрослую жизнь.
Штрафуем policy, которая не учитывает родительские вводные)
Опытные инженеры знают, что самое сложное в RL – сбалансированная и понятная агенту функция вознаграждения!
3. Улучшаем reward и помогаем обучению
У детей часто sparse reward: «полностью оделся – молодец», «съел кашу – конфета». Долго, далеко, скучно.
А во взрослой жизни вообще reward еще и сильно отложен во времени: закончи универ, создай успешный бизнес.
Поэтому хвалим не только за результат, а за попытку действия: «попробовал - молодец» и растим внутреннюю мотивацию (intrinsic reward): интерес и любопытство.
В следующей серии LLM и attention!
BY Ну Шмулев, погоди!
Share with your friend now:
tgoop.com/wait_shmulev/83