Knowledge Accumulator@knowledge

Knowledge Accumulator

The Primacy Bias in Deep Reinforcement Learning [2022] - нейросети тупеют?

Многие из нас обучают нейросеть на фиксированном датасете и всё работает неплохо. Но знаете ли вы, что если обучать нейросеть последовательно на разных задачах, то она со временем теряет свою "пластичность" и начинает сходиться гораздо хуже? Про это есть множество статей, но меня этот эффект заинтересовал в контексте обучения с подкреплением.

Во многих RL алгоритмах есть Replay Buffer - в него мы складываем недавние траектории агента, на которых потом обучаем нейросеть с какой-то RL-ной функцией ошибки. Авторы показали сценарий, в котором нейросеть демонстрирует своё отупение:

Случайным агентом собирают 100 шагов в среде и затем делают 100к шагов оптимизации на получившемся Replay Buffer. Нейросеть получает непоправимый ущерб и после возобновления стандартного обучения уже не может прогрессировать. При этом, дело не в том, что этот агент собирает плохие данные.

Если собрать травмированной нейросетью Replay Buffer, а затем обучать новую нейросеть на этих данных, то она сможет выкарабкаться, а вот травмированная уже нет.

Авторы сделали предположение - а что, если RL-нейросети даже в обычных ситуациях теряют свою способность к обучению, излишне фокусируясь на первых полученных данных? Как можно сделать агента более пластичным в процессе длительного обучения?

Гениально простой хак - давайте заново инициализировать нейросеть каждые N шагов алгоритма. Это не означает запуск с нуля, ведь мы сохраняем наш Replay Buffer, а качество большинства алгоритмов зависит именно от собранных данных.

Результаты на картинке: конечно, в моменты сброса весов наблюдается резкая просадка - но в большинстве задач и в среднем наша итоговая производительность в результате обучения возрастает. Нейросеть быстро восстанавливается, обучаясь на недавно собранных данных.

Я обожаю, когда контринтуитивные и простые решения ведут к большому росту метрик. В то же время, скорее всего, это означает, что существуют ещё в разы больше подобных улучшений, до которых мы не догадаемся.

@knowledge_accumulator

👍20🤔7🔥4❤2👏1🤯1🤩1🙏1💯1

www.tgoop.com/knowledge_accumulator/188

2.62K viewsJun 11, 2024 at 11:20

tgoop.com/knowledge_accumulator/188

Create: 2024-06-11
Last Update: 2025-10-18 14:55:07

BY Knowledge Accumulator

Share with your friend now:
tgoop.com/knowledge_accumulator/188

Telegram News

The Primacy Bias in Deep Reinforcement Learning [2022] - нейросети тупеют?