SANTRYBLOG Telegram 730
This media is not supported in your browser
VIEW IN TELEGRAM
От цифрового додзе к столу для пинг-понга

Алгоритмы DeepMind научились играть в го благодаря обучению с подкреплением и одному остроумному хаку. Одна версия нейросети играла против другой. После каждой партии победитель становился «учителем» для следующей итерации. Так AlphaGo шаг за шагом открывал стратегии, которые веками ускользали от человеческого внимания. Этот процесс называется self-play и напоминает мне бой с тенью и недавние спарринги роботов.

Теперь в DeepMind пытаются перенести подход в физический мир — точнее, за стол для пинг-понга. Эта игра невероятно сложна для робототехники: безумная динамика, хитрая физика мяча, плюс необходимость предугадывать действия противника.

Конечно, у исследователей начались проблемы. Роботы быстро зацикливались и находили простую, но эффективную тактику — спамили одним приемом, как геймеры в файтинге на приставке.

Ирония в том, что прорыв случился, когда в игру вернули людей. Играя против живых противников с их разнообразными стилями, роботы получили доступ к гораздо более широкому спектру ударов и ситуаций. Система наконец начала по-настоящему адаптироваться и теперь уверенно побеждает новичков, играет на равных со спортсменами среднего звена.

Исследователи пошли дальше и добавили в систему «тренера» — Vision-Language-Action модель Gemini Robotics. Она генерирует указания, наблюдает за роботом-игроком, оценивает его действия и определяет вознаграждение. Это уже не просто обучение методом проб и ошибок. Это рождение подхода, где один ИИ выступает наставником для другого и переносит абстрактные концепции в конкретные физические действия.

До роботов, способных безопасно работать в наших домах, еще далеко. Но четыре года назад я думал, что нам не видать машин, которые сами ставят диагнозы и проводят хирургические операции, а теперь вижу в новостях и то, и другое. Так что эти попытки навести мосты между цифровым и физическим мирами — уже совсем не игра.
5🔥4



tgoop.com/SantryBlog/730
Create:
Last Update:

От цифрового додзе к столу для пинг-понга

Алгоритмы DeepMind научились играть в го благодаря обучению с подкреплением и одному остроумному хаку. Одна версия нейросети играла против другой. После каждой партии победитель становился «учителем» для следующей итерации. Так AlphaGo шаг за шагом открывал стратегии, которые веками ускользали от человеческого внимания. Этот процесс называется self-play и напоминает мне бой с тенью и недавние спарринги роботов.

Теперь в DeepMind пытаются перенести подход в физический мир — точнее, за стол для пинг-понга. Эта игра невероятно сложна для робототехники: безумная динамика, хитрая физика мяча, плюс необходимость предугадывать действия противника.

Конечно, у исследователей начались проблемы. Роботы быстро зацикливались и находили простую, но эффективную тактику — спамили одним приемом, как геймеры в файтинге на приставке.

Ирония в том, что прорыв случился, когда в игру вернули людей. Играя против живых противников с их разнообразными стилями, роботы получили доступ к гораздо более широкому спектру ударов и ситуаций. Система наконец начала по-настоящему адаптироваться и теперь уверенно побеждает новичков, играет на равных со спортсменами среднего звена.

Исследователи пошли дальше и добавили в систему «тренера» — Vision-Language-Action модель Gemini Robotics. Она генерирует указания, наблюдает за роботом-игроком, оценивает его действия и определяет вознаграждение. Это уже не просто обучение методом проб и ошибок. Это рождение подхода, где один ИИ выступает наставником для другого и переносит абстрактные концепции в конкретные физические действия.

До роботов, способных безопасно работать в наших домах, еще далеко. Но четыре года назад я думал, что нам не видать машин, которые сами ставят диагнозы и проводят хирургические операции, а теперь вижу в новостях и то, и другое. Так что эти попытки навести мосты между цифровым и физическим мирами — уже совсем не игра.

BY Santry's Singularity blog


Share with your friend now:
tgoop.com/SantryBlog/730

View MORE
Open in Telegram


Telegram News

Date: |

Click “Save” ; The optimal dimension of the avatar on Telegram is 512px by 512px, and it’s recommended to use PNG format to deliver an unpixelated avatar. Users are more open to new information on workdays rather than weekends. Members can post their voice notes of themselves screaming. Interestingly, the group doesn’t allow to post anything else which might lead to an instant ban. As of now, there are more than 330 members in the group. Ng, who had pleaded not guilty to all charges, had been detained for more than 20 months. His channel was said to have contained around 120 messages and photos that incited others to vandalise pro-government shops and commit criminal damage targeting police stations.
from us


Telegram Santry's Singularity blog
FROM American