tgoop.com/SantryBlog/730
Last Update:
От цифрового додзе к столу для пинг-понга
Алгоритмы DeepMind научились играть в го благодаря обучению с подкреплением и одному остроумному хаку. Одна версия нейросети играла против другой. После каждой партии победитель становился «учителем» для следующей итерации. Так AlphaGo шаг за шагом открывал стратегии, которые веками ускользали от человеческого внимания. Этот процесс называется self-play и напоминает мне бой с тенью и недавние спарринги роботов.
Теперь в DeepMind пытаются перенести подход в физический мир — точнее, за стол для пинг-понга. Эта игра невероятно сложна для робототехники: безумная динамика, хитрая физика мяча, плюс необходимость предугадывать действия противника.
Конечно, у исследователей начались проблемы. Роботы быстро зацикливались и находили простую, но эффективную тактику — спамили одним приемом, как геймеры в файтинге на приставке.
Ирония в том, что прорыв случился, когда в игру вернули людей. Играя против живых противников с их разнообразными стилями, роботы получили доступ к гораздо более широкому спектру ударов и ситуаций. Система наконец начала по-настоящему адаптироваться и теперь уверенно побеждает новичков, играет на равных со спортсменами среднего звена.
Исследователи пошли дальше и добавили в систему «тренера» — Vision-Language-Action модель Gemini Robotics. Она генерирует указания, наблюдает за роботом-игроком, оценивает его действия и определяет вознаграждение. Это уже не просто обучение методом проб и ошибок. Это рождение подхода, где один ИИ выступает наставником для другого и переносит абстрактные концепции в конкретные физические действия.
До роботов, способных безопасно работать в наших домах, еще далеко. Но четыре года назад я думал, что нам не видать машин, которые сами ставят диагнозы и проводят хирургические операции, а теперь вижу в новостях и то, и другое. Так что эти попытки навести мосты между цифровым и физическим мирами — уже совсем не игра.
BY Santry's Singularity blog
Share with your friend now:
tgoop.com/SantryBlog/730