KNOWLEDGE_ACCUMULATOR Telegram 202
Reward is Enough [2021] - манифест Дэвида Сильвера

Ключевой автор AlphaGo и соавтор многих прорывных RL-статей от Deepmind три года назад вместе с Ричардом Саттоном написал статью о том, каким он видит место награды в вопросах AI.

Главный посыл данной работы таков: наличие награды, как единственного вида сигнала, достаточно для получения любого типа поведения у системы.

Авторы в качестве примера рассматривают бЕлок. Можно считать, что у неё есть единственная награда и цель - это количество накопленных орехов. Для того, чтобы накапливать орехи, ей нужно выработать много вспомогательных навыков - замечать орехи (perception), отличать нужные орехи (knowledge), собирать орехи (motor control), сберегать орехи (планирование и память).

AlphaGo, чтобы получить простую награду в виде выигрыша, в ходе обучения сама приобретает все необходимые умения для игры в Го. Гипотетический робот, которого мы хотим научить убирать кухню, также, как и белка, может научиться всему необходимому самостоятельно, максимизируя свою финальную награду.

С тем, что этого хватит для решения более сложных задач, согласны не все. В своём собственном манифесте (про JEPA) Ян ЛеКун называет один из разделов Reward is not enough. Здесь он воюет с соломенным чучелом, говоря, что model-free RL слишком неэффективен в использовании данных, так как награда - это очень ограниченный поток информации, и нужно искать способ извлекать информацию о мире из траекторий (например, как в SPR).

Но Silver и не утверждает, что текущие типы методов приведут к AGI. Его поинт в том, что нам не нужно явно ставить перед моделью какие-либо другие задачи, кроме максимизации награды. Даже general intelligence можно получить, обучая агента задачам, отличающимся достаточно сильно, чтобы модели было выгоднее выучить обучаемость, что и есть general intelligence. Здесь его интуиция в точности совпадает с моей - если в модель не влезают все задачи, она должна выучить способ учиться на ходу.

При этом всё необходимое - планирование, обучение world model и т.д. не нужно запихивать в модель в явном виде. Она сама будет выжимать максимум из имеющейся информации для максимизации своей награды. Даже, наверное, выучит какую-нибудь ЖЕПУ в неявном виде.

Из этой логики сразу же вытекают идеи мета-обучения RL-алгоритма на максимизацию награды, но в тот момент таких работ ещё совсем не было. Надеюсь, Дэвида отпустят из плена Gemini заниматься полезным ресёрчем.

Становится наглядным разделение людей на 3 лагеря - "Просто отмасштабируем текущие методы" имени Суцкевера, "Текущие методы говно, давайте придумаем получше" имени ЛеКуна и "Давайте обучать end-to-end на награду" имени Сильвера, Саттона и, конечно же, меня. К сожалению, первые 2 лагеря ещё не выучили горький урок от нашего с Сильвером товарища.

@knowledge_accumulator



tgoop.com/knowledge_accumulator/202
Create:
Last Update:

Reward is Enough [2021] - манифест Дэвида Сильвера

Ключевой автор AlphaGo и соавтор многих прорывных RL-статей от Deepmind три года назад вместе с Ричардом Саттоном написал статью о том, каким он видит место награды в вопросах AI.

Главный посыл данной работы таков: наличие награды, как единственного вида сигнала, достаточно для получения любого типа поведения у системы.

Авторы в качестве примера рассматривают бЕлок. Можно считать, что у неё есть единственная награда и цель - это количество накопленных орехов. Для того, чтобы накапливать орехи, ей нужно выработать много вспомогательных навыков - замечать орехи (perception), отличать нужные орехи (knowledge), собирать орехи (motor control), сберегать орехи (планирование и память).

AlphaGo, чтобы получить простую награду в виде выигрыша, в ходе обучения сама приобретает все необходимые умения для игры в Го. Гипотетический робот, которого мы хотим научить убирать кухню, также, как и белка, может научиться всему необходимому самостоятельно, максимизируя свою финальную награду.

С тем, что этого хватит для решения более сложных задач, согласны не все. В своём собственном манифесте (про JEPA) Ян ЛеКун называет один из разделов Reward is not enough. Здесь он воюет с соломенным чучелом, говоря, что model-free RL слишком неэффективен в использовании данных, так как награда - это очень ограниченный поток информации, и нужно искать способ извлекать информацию о мире из траекторий (например, как в SPR).

Но Silver и не утверждает, что текущие типы методов приведут к AGI. Его поинт в том, что нам не нужно явно ставить перед моделью какие-либо другие задачи, кроме максимизации награды. Даже general intelligence можно получить, обучая агента задачам, отличающимся достаточно сильно, чтобы модели было выгоднее выучить обучаемость, что и есть general intelligence. Здесь его интуиция в точности совпадает с моей - если в модель не влезают все задачи, она должна выучить способ учиться на ходу.

При этом всё необходимое - планирование, обучение world model и т.д. не нужно запихивать в модель в явном виде. Она сама будет выжимать максимум из имеющейся информации для максимизации своей награды. Даже, наверное, выучит какую-нибудь ЖЕПУ в неявном виде.

Из этой логики сразу же вытекают идеи мета-обучения RL-алгоритма на максимизацию награды, но в тот момент таких работ ещё совсем не было. Надеюсь, Дэвида отпустят из плена Gemini заниматься полезным ресёрчем.

Становится наглядным разделение людей на 3 лагеря - "Просто отмасштабируем текущие методы" имени Суцкевера, "Текущие методы говно, давайте придумаем получше" имени ЛеКуна и "Давайте обучать end-to-end на награду" имени Сильвера, Саттона и, конечно же, меня. К сожалению, первые 2 лагеря ещё не выучили горький урок от нашего с Сильвером товарища.

@knowledge_accumulator

BY Knowledge Accumulator




Share with your friend now:
tgoop.com/knowledge_accumulator/202

View MORE
Open in Telegram


Telegram News

Date: |

How to Create a Private or Public Channel on Telegram? How to create a business channel on Telegram? (Tutorial) You can invite up to 200 people from your contacts to join your channel as the next step. Select the users you want to add and click “Invite.” You can skip this step altogether. The creator of the channel becomes its administrator by default. If you need help managing your channel, you can add more administrators from your subscriber base. You can provide each admin with limited or full rights to manage the channel. For example, you can allow an administrator to publish and edit content while withholding the right to add new subscribers. Members can post their voice notes of themselves screaming. Interestingly, the group doesn’t allow to post anything else which might lead to an instant ban. As of now, there are more than 330 members in the group.
from us


Telegram Knowledge Accumulator
FROM American