KNOWLEDGE_ACCUMULATOR Telegram 194
Bigger, Better, Faster: Human-level Atari with human-level efficiency [2023] - результат 10 лет тюнинга DQN

Сегодня мы наконец обсудим чемпиона в категории Atari100k (по версии paperswithcode) - алгоритм, относительно быстро (за 100к шагов) способный достигать качества выше человеческого. Развивались события так:

DQN [2013] (пост) - первое нашумевшее применение Q-learning с нейросетью под капотом

В течение нескольких следующих лет ресёрчеры искали слабые места в алгоритме и изобретали костыли для их починки - Dueling / Double / Prioritized / Distributional (статьи) DQN. Объединив их, получили:

Rainbow [2017] (статья) - улучшенная версия DQN, работающая в разы лучше оригинала.

К ней был добавлен хак под названием SPR [2020] (пост) , сильно увеличивающий эффективность использования данных.

При обучении DQN мы "параллельно" собираем данные и обучаем модель. То. сколько шагов обучения мы делаем на каждый шаг в среде, называется Sample Ratio (или Replay Ratio). Чем он больше, тем более "дата-эффективными" мы становимся, но при сильном повышении оптимизация начинает ломаться.

Оказалось, что она прежде всего начинает ломаться из-за потери пластичности, которая, как показано в статье The Primacy Bias in Deep RL [2022] (пост), чинится периодическим сбрасыванием весов. Авторы алгоритма SR-SPR [2022] (статья) обнаружили, что SR можно поднять с 1 до 16 при помощи "мягких сбросов" - каждые N шагов веса нейросети делали равными tau * w + (1 - tau) * w_random - смеси рандома и текущего значения.

Наконец, авторы сегодняшней статьи - BBF - взяли SR-SPR и добавили ряд небольших улучшений - динамический горизонт планирования (гамму), регуляризацию, увеличенную сетку и пару других мелочей, а также от души затюнили гиперпараметры. Суммарно их изменения дали очень большой буст по сравнению с SP-SPR. Больше всего мне нравится картинка из статьи, приложенная к посту - на ней мы можем видеть результат прогресса в Sample Efficiency за 10 предыдущих лет.

Нужно добавить, что рост Replay Ratio увеличивает почти линейно требуемый компьют на каждый шаг, поэтому для более-менее честного сравнения на картинке нарисована кривая для RR=2, тогда как лучшая версия это RR=8 (разница где-то 15%). Интересно, что версия RR=2 прожёвывает 100к шагов (~2 часа реального времени) около 2.5 часов на половине A100, то есть учится как бы "со скоростью реальной игры".

За 10 лет от DQN до BBF дата-эффективность выросла на 2 порядка. Будет очень интересно увидеть, сколько ещё смогут выжать RL-алхимики, собирая алгоритм в ручном режиме.

@knowledge_accumulator
👍145🔥1🏆1



tgoop.com/knowledge_accumulator/194
Create:
Last Update:

Bigger, Better, Faster: Human-level Atari with human-level efficiency [2023] - результат 10 лет тюнинга DQN

Сегодня мы наконец обсудим чемпиона в категории Atari100k (по версии paperswithcode) - алгоритм, относительно быстро (за 100к шагов) способный достигать качества выше человеческого. Развивались события так:

DQN [2013] (пост) - первое нашумевшее применение Q-learning с нейросетью под капотом

В течение нескольких следующих лет ресёрчеры искали слабые места в алгоритме и изобретали костыли для их починки - Dueling / Double / Prioritized / Distributional (статьи) DQN. Объединив их, получили:

Rainbow [2017] (статья) - улучшенная версия DQN, работающая в разы лучше оригинала.

К ней был добавлен хак под названием SPR [2020] (пост) , сильно увеличивающий эффективность использования данных.

При обучении DQN мы "параллельно" собираем данные и обучаем модель. То. сколько шагов обучения мы делаем на каждый шаг в среде, называется Sample Ratio (или Replay Ratio). Чем он больше, тем более "дата-эффективными" мы становимся, но при сильном повышении оптимизация начинает ломаться.

Оказалось, что она прежде всего начинает ломаться из-за потери пластичности, которая, как показано в статье The Primacy Bias in Deep RL [2022] (пост), чинится периодическим сбрасыванием весов. Авторы алгоритма SR-SPR [2022] (статья) обнаружили, что SR можно поднять с 1 до 16 при помощи "мягких сбросов" - каждые N шагов веса нейросети делали равными tau * w + (1 - tau) * w_random - смеси рандома и текущего значения.

Наконец, авторы сегодняшней статьи - BBF - взяли SR-SPR и добавили ряд небольших улучшений - динамический горизонт планирования (гамму), регуляризацию, увеличенную сетку и пару других мелочей, а также от души затюнили гиперпараметры. Суммарно их изменения дали очень большой буст по сравнению с SP-SPR. Больше всего мне нравится картинка из статьи, приложенная к посту - на ней мы можем видеть результат прогресса в Sample Efficiency за 10 предыдущих лет.

Нужно добавить, что рост Replay Ratio увеличивает почти линейно требуемый компьют на каждый шаг, поэтому для более-менее честного сравнения на картинке нарисована кривая для RR=2, тогда как лучшая версия это RR=8 (разница где-то 15%). Интересно, что версия RR=2 прожёвывает 100к шагов (~2 часа реального времени) около 2.5 часов на половине A100, то есть учится как бы "со скоростью реальной игры".

За 10 лет от DQN до BBF дата-эффективность выросла на 2 порядка. Будет очень интересно увидеть, сколько ещё смогут выжать RL-алхимики, собирая алгоритм в ручном режиме.

@knowledge_accumulator

BY Knowledge Accumulator




Share with your friend now:
tgoop.com/knowledge_accumulator/194

View MORE
Open in Telegram


Telegram News

Date: |

Telegram is a leading cloud-based instant messages platform. It became popular in recent years for its privacy, speed, voice and video quality, and other unmatched features over its main competitor Whatsapp. The administrator of a telegram group, "Suck Channel," was sentenced to six years and six months in prison for seven counts of incitement yesterday. “[The defendant] could not shift his criminal liability,” Hui said. Add the logo from your device. Adjust the visible area of your image. Congratulations! Now your Telegram channel has a face Click “Save”.! According to media reports, the privacy watchdog was considering “blacklisting” some online platforms that have repeatedly posted doxxing information, with sources saying most messages were shared on Telegram.
from us


Telegram Knowledge Accumulator
FROM American