Data Secrets@data_secrets P.7961

Data Secrets

Google DeepMind выпустили занятную статью, в которой проверили, насколько хорошо Veo 3 понимает мир

Google уже долгое время говорят, что их Veo – это не просто моделька для генерации прикольных видосиков, а (потенциально) полноценная world modeling система, которую хотят использовать для обучения следующего поколения моделей, агентов и роботов.

А еще, возможно, такие модели как Veo сами по себе могут стать следующим шагом в развитии ИИ. Ведь ученые вроде Лекуна очень любят повторять, что именно отсутствие понимания материального мира – основная проблема современных LLM, которая отделяет нас от AGI.

Так вот. В Google решили проверить, насколько уже сейчас текущая версия Veo понимает физику и логику нашего мира. Ее прогнали по большому сету задач, среди которых были: лабиринты, моделирование физики, визуальные задачки на ризонинг, распознавание свойств объектов и тд и тп.

Все задачки и как с ними справилась Veo можно посмотреть тут. Если кратко:

– Модель действительно способна решать широкий набор задач, для которых ее не обучали. Пример: детекция, которой напрямую не было в трейне.

– Veo 3 решает задачи, требующие пошагового визуального мышления (которое авторы называют Chain-of-Frames (CoF), аналог Chain-of-Thought в LLM). Например, на лабиринтах 5 на 5 точность достигает 78% на pass@10. Для такой модельки это прямо неплохо.

– Хорошо понимает физику и может смоделировать сложные штуки типа плавучести, трения, отражений, преломлений и другого.

Вывод такой: подобные модели точно можно рассматривать как альтернативу обучению на тексте. Пока, конечно, их развитие все еще в зачатке. Но кто знает, что будет через год, два или три.

Статья

👍77🔥37❤125😁2🤔1

www.tgoop.com/data_secrets/7961

13.6K viewsOct 6 at 16:57

tgoop.com/data_secrets/7961

Create: 2025-10-06
Last Update: 2025-10-09 00:28:05

BY Data Secrets

Share with your friend now:
tgoop.com/data_secrets/7961

Telegram News

Google DeepMind выпустили занятную статью