tgoop.com/AGI_and_RL/680
Last Update:
Тут решили поисследовать роль "временных клеток" (time cells, клетки которые активируются в определенные моменты времени) и "нарастающих клеток" (ramping cells, клетки активность которых увеличивается/уменьшается с течением времени) в рекуррентных сетях обученных RLем.
Расскажу как я понял.
Считается, что эти виды нейронов связаны с распределением задач и действий во времени.
За рекуррентны слои брали LSTM, обучались через A3C.
Все исследование с большим количеством экспериментов идет вокруг 2х видов задач и их вариациями:
* Delayed Duration Comparison в котором нейронка получала 2 сигнала различной длины, разделенные на фиксированный промежуток времени, после чего нейронка должна была выбрать тот, что был длиннее. За правильную классификацию она получала положительный ревард.
* Delayed non-match-to-stimulus (DNMS) в котором нейронка получала уже один сигнал с определенной временной задержкой и потом ей нужно было выбрать тот сигнал, который она не получала.
Подобные эксперименты проводились ранее и на животных. Но "исследовать животных" в подобных экспериментах довольно трудно и поэтому решили воспользоваться услугами искусственных нейронок.
Активность рекуррентынх слоев записывалась после того как нейронки научились давать > 90% правильных ответов на своей задаче. Потом анализировали активность отдельных нейронов (хитмапы в статье есть) и так определяли временные и нарастающие клетки.
Некоторые выводы, как я их понял:
* в основном оба вида клеток кодируют информацию о динамике процесса а не напрямую информацию о времени;
* смогли воспроизвести паттерны активаций данных нейронов полученные ранее в тестах на крысах;
* time cells и ramping cells есть и в необученных рекуррентых сетях;
* видно, что оба вида нейронов в некоторых задачах специализируются на предсказании значений ценности (value в RLе);
* важно то, как нижестоящие слои используют информацию полученную из time cells и ramping cells;
Нюанс в том, что ИНС функционируют не так как биологические нейроны и напрямую их сравнивать нельзя, да и настоящий мозг сильноооо сложнее и выполняет очень много функций а не специализируется на одной простой задаче как здесь.
В результате ученые предостерегают нейробиологов от интерпретации временного кодирования в мозге только от наличия time cells и ramping cells.
В статье намного больше информации и все подробности, поэтому интересующимся надо читат.
Temporal encoding in deep reinforcement learning agents
https://www.nature.com/articles/s41598-023-49847-y
BY Агенты ИИ | AGI_and_RL

Share with your friend now:
tgoop.com/AGI_and_RL/680