KNOWLEDGE_ACCUMULATOR Telegram 188
The Primacy Bias in Deep Reinforcement Learning [2022] - нейросети тупеют?

Многие из нас обучают нейросеть на фиксированном датасете и всё работает неплохо. Но знаете ли вы, что если обучать нейросеть последовательно на разных задачах, то она со временем теряет свою "пластичность" и начинает сходиться гораздо хуже? Про это есть множество статей, но меня этот эффект заинтересовал в контексте обучения с подкреплением.

Во многих RL алгоритмах есть Replay Buffer - в него мы складываем недавние траектории агента, на которых потом обучаем нейросеть с какой-то RL-ной функцией ошибки. Авторы показали сценарий, в котором нейросеть демонстрирует своё отупение:

Случайным агентом собирают 100 шагов в среде и затем делают 100к шагов оптимизации на получившемся Replay Buffer. Нейросеть получает непоправимый ущерб и после возобновления стандартного обучения уже не может прогрессировать. При этом, дело не в том, что этот агент собирает плохие данные.

Если собрать травмированной нейросетью Replay Buffer, а затем обучать новую нейросеть на этих данных, то она сможет выкарабкаться, а вот травмированная уже нет.

Авторы сделали предположение - а что, если RL-нейросети даже в обычных ситуациях теряют свою способность к обучению, излишне фокусируясь на первых полученных данных? Как можно сделать агента более пластичным в процессе длительного обучения?

Гениально простой хак - давайте заново инициализировать нейросеть каждые N шагов алгоритма. Это не означает запуск с нуля, ведь мы сохраняем наш Replay Buffer, а качество большинства алгоритмов зависит именно от собранных данных.

Результаты на картинке: конечно, в моменты сброса весов наблюдается резкая просадка - но в большинстве задач и в среднем наша итоговая производительность в результате обучения возрастает. Нейросеть быстро восстанавливается, обучаясь на недавно собранных данных.

Я обожаю, когда контринтуитивные и простые решения ведут к большому росту метрик. В то же время, скорее всего, это означает, что существуют ещё в разы больше подобных улучшений, до которых мы не догадаемся.

@knowledge_accumulator
👍20🤔7🔥42👏1🤯1🤩1🙏1💯1



tgoop.com/knowledge_accumulator/188
Create:
Last Update:

The Primacy Bias in Deep Reinforcement Learning [2022] - нейросети тупеют?

Многие из нас обучают нейросеть на фиксированном датасете и всё работает неплохо. Но знаете ли вы, что если обучать нейросеть последовательно на разных задачах, то она со временем теряет свою "пластичность" и начинает сходиться гораздо хуже? Про это есть множество статей, но меня этот эффект заинтересовал в контексте обучения с подкреплением.

Во многих RL алгоритмах есть Replay Buffer - в него мы складываем недавние траектории агента, на которых потом обучаем нейросеть с какой-то RL-ной функцией ошибки. Авторы показали сценарий, в котором нейросеть демонстрирует своё отупение:

Случайным агентом собирают 100 шагов в среде и затем делают 100к шагов оптимизации на получившемся Replay Buffer. Нейросеть получает непоправимый ущерб и после возобновления стандартного обучения уже не может прогрессировать. При этом, дело не в том, что этот агент собирает плохие данные.

Если собрать травмированной нейросетью Replay Buffer, а затем обучать новую нейросеть на этих данных, то она сможет выкарабкаться, а вот травмированная уже нет.

Авторы сделали предположение - а что, если RL-нейросети даже в обычных ситуациях теряют свою способность к обучению, излишне фокусируясь на первых полученных данных? Как можно сделать агента более пластичным в процессе длительного обучения?

Гениально простой хак - давайте заново инициализировать нейросеть каждые N шагов алгоритма. Это не означает запуск с нуля, ведь мы сохраняем наш Replay Buffer, а качество большинства алгоритмов зависит именно от собранных данных.

Результаты на картинке: конечно, в моменты сброса весов наблюдается резкая просадка - но в большинстве задач и в среднем наша итоговая производительность в результате обучения возрастает. Нейросеть быстро восстанавливается, обучаясь на недавно собранных данных.

Я обожаю, когда контринтуитивные и простые решения ведут к большому росту метрик. В то же время, скорее всего, это означает, что существуют ещё в разы больше подобных улучшений, до которых мы не догадаемся.

@knowledge_accumulator

BY Knowledge Accumulator




Share with your friend now:
tgoop.com/knowledge_accumulator/188

View MORE
Open in Telegram


Telegram News

Date: |

Hashtags Telegram channels enable users to broadcast messages to multiple users simultaneously. Like on social media, users need to subscribe to your channel to get access to your content published by one or more administrators. Among the requests, the Brazilian electoral Court wanted to know if they could obtain data on the origins of malicious content posted on the platform. According to the TSE, this would enable the authorities to track false content and identify the user responsible for publishing it in the first place. Ng, who had pleaded not guilty to all charges, had been detained for more than 20 months. His channel was said to have contained around 120 messages and photos that incited others to vandalise pro-government shops and commit criminal damage targeting police stations. Activate up to 20 bots
from us


Telegram Knowledge Accumulator
FROM American