tgoop.com/knowledge_accumulator/194
Last Update:
Bigger, Better, Faster: Human-level Atari with human-level efficiency [2023] - результат 10 лет тюнинга DQN
Сегодня мы наконец обсудим чемпиона в категории Atari100k (по версии paperswithcode) - алгоритм, относительно быстро (за 100к шагов) способный достигать качества выше человеческого. Развивались события так:
DQN [2013] (пост) - первое нашумевшее применение Q-learning с нейросетью под капотом
В течение нескольких следующих лет ресёрчеры искали слабые места в алгоритме и изобретали костыли для их починки - Dueling / Double / Prioritized / Distributional (статьи) DQN. Объединив их, получили:
Rainbow [2017] (статья) - улучшенная версия DQN, работающая в разы лучше оригинала.
К ней был добавлен хак под названием SPR [2020] (пост) , сильно увеличивающий эффективность использования данных.
При обучении DQN мы "параллельно" собираем данные и обучаем модель. То. сколько шагов обучения мы делаем на каждый шаг в среде, называется Sample Ratio (или Replay Ratio). Чем он больше, тем более "дата-эффективными" мы становимся, но при сильном повышении оптимизация начинает ломаться.
Оказалось, что она прежде всего начинает ломаться из-за потери пластичности, которая, как показано в статье The Primacy Bias in Deep RL [2022] (пост), чинится периодическим сбрасыванием весов. Авторы алгоритма SR-SPR [2022] (статья) обнаружили, что SR можно поднять с 1 до 16 при помощи "мягких сбросов" - каждые N шагов веса нейросети делали равными tau * w + (1 - tau) * w_random - смеси рандома и текущего значения.
Наконец, авторы сегодняшней статьи - BBF - взяли SR-SPR и добавили ряд небольших улучшений - динамический горизонт планирования (гамму), регуляризацию, увеличенную сетку и пару других мелочей, а также от души затюнили гиперпараметры. Суммарно их изменения дали очень большой буст по сравнению с SP-SPR. Больше всего мне нравится картинка из статьи, приложенная к посту - на ней мы можем видеть результат прогресса в Sample Efficiency за 10 предыдущих лет.
Нужно добавить, что рост Replay Ratio увеличивает почти линейно требуемый компьют на каждый шаг, поэтому для более-менее честного сравнения на картинке нарисована кривая для RR=2, тогда как лучшая версия это RR=8 (разница где-то 15%). Интересно, что версия RR=2 прожёвывает 100к шагов (~2 часа реального времени) около 2.5 часов на половине A100, то есть учится как бы "со скоростью реальной игры".
За 10 лет от DQN до BBF дата-эффективность выросла на 2 порядка. Будет очень интересно увидеть, сколько ещё смогут выжать RL-алхимики, собирая алгоритм в ручном режиме.
@knowledge_accumulator
BY Knowledge Accumulator

Share with your friend now:
tgoop.com/knowledge_accumulator/194
