ROBOTSILIKE Telegram 41
Forwarded from rizzearch
π0.5: a VLA with Open-World Generalization

so, физикал интеллиженс сделал следующую версию своей general-purpose роботик модели

в качестве модификаций над первой версией авторы объединили свои идеи в плане токенизации пространства действий и добавления иерархичности над текстовыми описаниями комманд и действий (задача “приготовить омлет” разбивается на более мелкие задачи по типу “взять прибор”, “включить плиту” и тд)

для данных они взяли еще больше материала для претрена - чтобы расшириться до адекватного перформанса в неизвестных ситуациях (новых кухнях или спальнях) - включая предикшн подтасок на основе более общей задачи, детекцию и задачи с интернета как QA & img captioning . по размеру тяжело судить, ибо авторы не раскрывают ни датасета, ни хотя бы примерные числа в некоторых местах. разве что прибавляют к открытым датасетам и свои данные (которых больше 400 часов), как это может соотноситься со скейлом от, например, нвидиа или стэнфорда - неизвестно (либо просто я невнимательный)

важный момент еще есть в комбинации обучения между действиями на уровне токенов (1) и через флоу матчинг (2) - фаст (1) позволяет модели сойтись заметно быстрее и в принципе легче тренируется, в то время как (2) на инференсе в данном сетапе авторов будет быстрее. решили это довольно прямолинейно - через гиперпараметр, который контролирует значимость флоу матчинг лосса во время обучения. начинается с 0, и затем постепенно увеличивается → мульти-модальный трансформер в начале обучения фиттится на маппинг из токена в токены, а затем и постепенно вливается консерн на непосредственное предсказание непрерывных действий. может выглядеть довольно топорно, but it works for them though

демки как обычно залипательные и прикольные, особенно момент, когда все не ломается если посреди процесса встрянет человек и что-то изменит в окружении

пока авторы назвали это версией 0.5 → можно предположить судя по размышлениям авторов, что версия 1.0 будет решать задачи о помощи во время выполнения задачи (хотя что-то такое уже было решено в Hi Robot но видимо не до конца) или большей агентности в плане меньшего количества супервайзд данных, as an example

или это будет версия 0.7 если им нравятся нейминги от антропиков

👀 link, demo, код отсутствует
3



tgoop.com/robotsilike/41
Create:
Last Update:

π0.5: a VLA with Open-World Generalization

so, физикал интеллиженс сделал следующую версию своей general-purpose роботик модели

в качестве модификаций над первой версией авторы объединили свои идеи в плане токенизации пространства действий и добавления иерархичности над текстовыми описаниями комманд и действий (задача “приготовить омлет” разбивается на более мелкие задачи по типу “взять прибор”, “включить плиту” и тд)

для данных они взяли еще больше материала для претрена - чтобы расшириться до адекватного перформанса в неизвестных ситуациях (новых кухнях или спальнях) - включая предикшн подтасок на основе более общей задачи, детекцию и задачи с интернета как QA & img captioning . по размеру тяжело судить, ибо авторы не раскрывают ни датасета, ни хотя бы примерные числа в некоторых местах. разве что прибавляют к открытым датасетам и свои данные (которых больше 400 часов), как это может соотноситься со скейлом от, например, нвидиа или стэнфорда - неизвестно (либо просто я невнимательный)

важный момент еще есть в комбинации обучения между действиями на уровне токенов (1) и через флоу матчинг (2) - фаст (1) позволяет модели сойтись заметно быстрее и в принципе легче тренируется, в то время как (2) на инференсе в данном сетапе авторов будет быстрее. решили это довольно прямолинейно - через гиперпараметр, который контролирует значимость флоу матчинг лосса во время обучения. начинается с 0, и затем постепенно увеличивается → мульти-модальный трансформер в начале обучения фиттится на маппинг из токена в токены, а затем и постепенно вливается консерн на непосредственное предсказание непрерывных действий. может выглядеть довольно топорно, but it works for them though

демки как обычно залипательные и прикольные, особенно момент, когда все не ломается если посреди процесса встрянет человек и что-то изменит в окружении

пока авторы назвали это версией 0.5 → можно предположить судя по размышлениям авторов, что версия 1.0 будет решать задачи о помощи во время выполнения задачи (хотя что-то такое уже было решено в Hi Robot но видимо не до конца) или большей агентности в плане меньшего количества супервайзд данных, as an example

или это будет версия 0.7 если им нравятся нейминги от антропиков

👀 link, demo, код отсутствует

BY Universal Autonomy Initiative









Share with your friend now:
tgoop.com/robotsilike/41

View MORE
Open in Telegram


Telegram News

Date: |

The channel also called on people to turn out for illegal assemblies and listed the things that participants should bring along with them, showing prior planning was in the works for riots. The messages also incited people to hurl toxic gas bombs at police and MTR stations, he added. While the character limit is 255, try to fit into 200 characters. This way, users will be able to take in your text fast and efficiently. Reveal the essence of your channel and provide contact information. For example, you can add a bot name, link to your pricing plans, etc. The optimal dimension of the avatar on Telegram is 512px by 512px, and it’s recommended to use PNG format to deliver an unpixelated avatar. Hashtags How to Create a Private or Public Channel on Telegram?
from us


Telegram Universal Autonomy Initiative
FROM American