Warning: mkdir(): No space left on device in /var/www/tgoop/post.php on line 37

Warning: file_put_contents(aCache/aDaily/post/knowledge_accumulator/--): Failed to open stream: No such file or directory in /var/www/tgoop/post.php on line 50
Knowledge Accumulator@knowledge_accumulator P.18
KNOWLEDGE_ACCUMULATOR Telegram 18
Playing Atari with Deep Reinforcement Learning [2013] - с чего начался хайп

Игры из набора Atari 2600 - это около 50 отлично вписывающихся в RL задач:
1) Каждый кадр мы получаем картинку из игры на входе
2) Мы можем нажать одну из 18 комбинаций кнопок в ответ
3) Каждый кадр среда нам отдаёт награду - изменение "очков" в игре.

Мысль о том, что играть в компьютерную игру система можно научиться сама с полного нуля, ускоряет сердцебиение и сводит с ума всех мечтающих о создании GLaDOS в реальной жизни.

В рамках научпопа могу дать такую интуицию принципа обучения:

Собирая траектории "<>-действие-состояние-награда-действие-состояние-награда-<>" мы можем пробрасывать информацию об отложенных наградах "назад во времени" с помощью хитрого способа обучения - таким образом можно научить систему совершать цепочку правильных действий, даже если положительная награда за них будет только в конце цепочки.

Метод в статье был использован достаточно базовый, но его хватило, чтобы обойти человека в ряде игр, требующих простой стратегии для победы - например, Pong или Breakout (первые 2 игры на картинке).
👍10👾4



tgoop.com/knowledge_accumulator/18
Create:
Last Update:

Playing Atari with Deep Reinforcement Learning [2013] - с чего начался хайп

Игры из набора Atari 2600 - это около 50 отлично вписывающихся в RL задач:
1) Каждый кадр мы получаем картинку из игры на входе
2) Мы можем нажать одну из 18 комбинаций кнопок в ответ
3) Каждый кадр среда нам отдаёт награду - изменение "очков" в игре.

Мысль о том, что играть в компьютерную игру система можно научиться сама с полного нуля, ускоряет сердцебиение и сводит с ума всех мечтающих о создании GLaDOS в реальной жизни.

В рамках научпопа могу дать такую интуицию принципа обучения:

Собирая траектории "<>-действие-состояние-награда-действие-состояние-награда-<>" мы можем пробрасывать информацию об отложенных наградах "назад во времени" с помощью хитрого способа обучения - таким образом можно научить систему совершать цепочку правильных действий, даже если положительная награда за них будет только в конце цепочки.

Метод в статье был использован достаточно базовый, но его хватило, чтобы обойти человека в ряде игр, требующих простой стратегии для победы - например, Pong или Breakout (первые 2 игры на картинке).

BY Knowledge Accumulator




Share with your friend now:
tgoop.com/knowledge_accumulator/18

View MORE
Open in Telegram


Telegram News

Date: |

While the character limit is 255, try to fit into 200 characters. This way, users will be able to take in your text fast and efficiently. Reveal the essence of your channel and provide contact information. For example, you can add a bot name, link to your pricing plans, etc. Although some crypto traders have moved toward screaming as a coping mechanism, several mental health experts call this therapy a pseudoscience. The crypto community finds its way to engage in one or the other way and share its feelings with other fellow members. When choosing the right name for your Telegram channel, use the language of your target audience. The name must sum up the essence of your channel in 1-3 words. If you’re planning to expand your Telegram audience, it makes sense to incorporate keywords into your name. Click “Save” ; Content is editable within two days of publishing
from us


Telegram Knowledge Accumulator
FROM American