DATA_SECRETS Telegram 7961
Google DeepMind выпустили занятную статью, в которой проверили, насколько хорошо Veo 3 понимает мир

Google уже долгое время говорят, что их Veo – это не просто моделька для генерации прикольных видосиков, а (потенциально) полноценная world modeling система, которую хотят использовать для обучения следующего поколения моделей, агентов и роботов.

А еще, возможно, такие модели как Veo сами по себе могут стать следующим шагом в развитии ИИ. Ведь ученые вроде Лекуна очень любят повторять, что именно отсутствие понимания материального мира – основная проблема современных LLM, которая отделяет нас от AGI.

Так вот. В Google решили проверить, насколько уже сейчас текущая версия Veo понимает физику и логику нашего мира. Ее прогнали по большому сету задач, среди которых были: лабиринты, моделирование физики, визуальные задачки на ризонинг, распознавание свойств объектов и тд и тп.

Все задачки и как с ними справилась Veo можно посмотреть тут. Если кратко:

– Модель действительно способна решать широкий набор задач, для которых ее не обучали. Пример: детекция, которой напрямую не было в трейне.

Veo 3 решает задачи, требующие пошагового визуального мышления (которое авторы называют Chain-of-Frames (CoF), аналог Chain-of-Thought в LLM). Например, на лабиринтах 5 на 5 точность достигает 78% на pass@10. Для такой модельки это прямо неплохо.

– Хорошо понимает физику и может смоделировать сложные штуки типа плавучести, трения, отражений, преломлений и другого.

Вывод такой: подобные модели точно можно рассматривать как альтернативу обучению на тексте. Пока, конечно, их развитие все еще в зачатке. Но кто знает, что будет через год, два или три.

Статья
👍77🔥37125😁2🤔1



tgoop.com/data_secrets/7961
Create:
Last Update:

Google DeepMind выпустили занятную статью, в которой проверили, насколько хорошо Veo 3 понимает мир

Google уже долгое время говорят, что их Veo – это не просто моделька для генерации прикольных видосиков, а (потенциально) полноценная world modeling система, которую хотят использовать для обучения следующего поколения моделей, агентов и роботов.

А еще, возможно, такие модели как Veo сами по себе могут стать следующим шагом в развитии ИИ. Ведь ученые вроде Лекуна очень любят повторять, что именно отсутствие понимания материального мира – основная проблема современных LLM, которая отделяет нас от AGI.

Так вот. В Google решили проверить, насколько уже сейчас текущая версия Veo понимает физику и логику нашего мира. Ее прогнали по большому сету задач, среди которых были: лабиринты, моделирование физики, визуальные задачки на ризонинг, распознавание свойств объектов и тд и тп.

Все задачки и как с ними справилась Veo можно посмотреть тут. Если кратко:

– Модель действительно способна решать широкий набор задач, для которых ее не обучали. Пример: детекция, которой напрямую не было в трейне.

Veo 3 решает задачи, требующие пошагового визуального мышления (которое авторы называют Chain-of-Frames (CoF), аналог Chain-of-Thought в LLM). Например, на лабиринтах 5 на 5 точность достигает 78% на pass@10. Для такой модельки это прямо неплохо.

– Хорошо понимает физику и может смоделировать сложные штуки типа плавучести, трения, отражений, преломлений и другого.

Вывод такой: подобные модели точно можно рассматривать как альтернативу обучению на тексте. Пока, конечно, их развитие все еще в зачатке. Но кто знает, что будет через год, два или три.

Статья

BY Data Secrets






Share with your friend now:
tgoop.com/data_secrets/7961

View MORE
Open in Telegram


Telegram News

Date: |

There have been several contributions to the group with members posting voice notes of screaming, yelling, groaning, and wailing in different rhythms and pitches. Calling out the “degenerate” community or the crypto obsessives that engage in high-risk trading, Co-founder of NFT renting protocol Rentable World emiliano.eth shared this group on his Twitter. He wrote: “hey degen, are you stressed? Just let it out all out. Voice only tg channel for screaming”. When choosing the right name for your Telegram channel, use the language of your target audience. The name must sum up the essence of your channel in 1-3 words. If you’re planning to expand your Telegram audience, it makes sense to incorporate keywords into your name. With the “Bear Market Screaming Therapy Group,” we’ve now transcended language. Telegram users themselves will be able to flag and report potentially false content. A vandalised bank during the 2019 protest. File photo: May James/HKFP.
from us


Telegram Data Secrets
FROM American