Google DeepMind выпустили занятную статью, в которой проверили, насколько хорошо Veo 3 понимает мир
Google уже долгое время говорят, что их Veo – это не просто моделька для генерации прикольных видосиков, а (потенциально) полноценная world modeling система, которую хотят использовать для обучения следующего поколения моделей, агентов и роботов.
А еще, возможно, такие модели как Veo сами по себе могут стать следующим шагом в развитии ИИ. Ведь ученые вроде Лекуна очень любят повторять, что именно отсутствие понимания материального мира – основная проблема современных LLM, которая отделяет нас от AGI.
Так вот. В Google решили проверить, насколько уже сейчас текущая версия Veo понимает физику и логику нашего мира. Ее прогнали по большому сету задач, среди которых были: лабиринты, моделирование физики, визуальные задачки на ризонинг, распознавание свойств объектов и тд и тп.
Все задачки и как с ними справилась Veo можно посмотреть тут. Если кратко:
– Модель действительно способна решать широкий набор задач, для которых ее не обучали. Пример: детекция, которой напрямую не было в трейне.
– Veo 3 решает задачи, требующие пошагового визуального мышления (которое авторы называют Chain-of-Frames (CoF), аналог Chain-of-Thought в LLM). Например, на лабиринтах 5 на 5 точность достигает 78% на pass@10. Для такой модельки это прямо неплохо.
– Хорошо понимает физику и может смоделировать сложные штуки типа плавучести, трения, отражений, преломлений и другого.
Вывод такой: подобные модели точно можно рассматривать как альтернативу обучению на тексте. Пока, конечно, их развитие все еще в зачатке. Но кто знает, что будет через год, два или три.
Статья
Google уже долгое время говорят, что их Veo – это не просто моделька для генерации прикольных видосиков, а (потенциально) полноценная world modeling система, которую хотят использовать для обучения следующего поколения моделей, агентов и роботов.
А еще, возможно, такие модели как Veo сами по себе могут стать следующим шагом в развитии ИИ. Ведь ученые вроде Лекуна очень любят повторять, что именно отсутствие понимания материального мира – основная проблема современных LLM, которая отделяет нас от AGI.
Так вот. В Google решили проверить, насколько уже сейчас текущая версия Veo понимает физику и логику нашего мира. Ее прогнали по большому сету задач, среди которых были: лабиринты, моделирование физики, визуальные задачки на ризонинг, распознавание свойств объектов и тд и тп.
Все задачки и как с ними справилась Veo можно посмотреть тут. Если кратко:
– Модель действительно способна решать широкий набор задач, для которых ее не обучали. Пример: детекция, которой напрямую не было в трейне.
– Veo 3 решает задачи, требующие пошагового визуального мышления (которое авторы называют Chain-of-Frames (CoF), аналог Chain-of-Thought в LLM). Например, на лабиринтах 5 на 5 точность достигает 78% на pass@10. Для такой модельки это прямо неплохо.
– Хорошо понимает физику и может смоделировать сложные штуки типа плавучести, трения, отражений, преломлений и другого.
Вывод такой: подобные модели точно можно рассматривать как альтернативу обучению на тексте. Пока, конечно, их развитие все еще в зачатке. Но кто знает, что будет через год, два или три.
Статья
👍77🔥37❤12 5😁2🤔1
tgoop.com/data_secrets/7961
Create:
Last Update:
Last Update:
Google DeepMind выпустили занятную статью, в которой проверили, насколько хорошо Veo 3 понимает мир
Google уже долгое время говорят, что их Veo – это не просто моделька для генерации прикольных видосиков, а (потенциально) полноценная world modeling система, которую хотят использовать для обучения следующего поколения моделей, агентов и роботов.
А еще, возможно, такие модели как Veo сами по себе могут стать следующим шагом в развитии ИИ. Ведь ученые вроде Лекуна очень любят повторять, что именно отсутствие понимания материального мира – основная проблема современных LLM, которая отделяет нас от AGI.
Так вот. В Google решили проверить, насколько уже сейчас текущая версия Veo понимает физику и логику нашего мира. Ее прогнали по большому сету задач, среди которых были: лабиринты, моделирование физики, визуальные задачки на ризонинг, распознавание свойств объектов и тд и тп.
Все задачки и как с ними справилась Veo можно посмотреть тут. Если кратко:
– Модель действительно способна решать широкий набор задач, для которых ее не обучали. Пример: детекция, которой напрямую не было в трейне.
– Veo 3 решает задачи, требующие пошагового визуального мышления (которое авторы называют Chain-of-Frames (CoF), аналог Chain-of-Thought в LLM). Например, на лабиринтах 5 на 5 точность достигает 78% на pass@10. Для такой модельки это прямо неплохо.
– Хорошо понимает физику и может смоделировать сложные штуки типа плавучести, трения, отражений, преломлений и другого.
Вывод такой: подобные модели точно можно рассматривать как альтернативу обучению на тексте. Пока, конечно, их развитие все еще в зачатке. Но кто знает, что будет через год, два или три.
Статья
Google уже долгое время говорят, что их Veo – это не просто моделька для генерации прикольных видосиков, а (потенциально) полноценная world modeling система, которую хотят использовать для обучения следующего поколения моделей, агентов и роботов.
А еще, возможно, такие модели как Veo сами по себе могут стать следующим шагом в развитии ИИ. Ведь ученые вроде Лекуна очень любят повторять, что именно отсутствие понимания материального мира – основная проблема современных LLM, которая отделяет нас от AGI.
Так вот. В Google решили проверить, насколько уже сейчас текущая версия Veo понимает физику и логику нашего мира. Ее прогнали по большому сету задач, среди которых были: лабиринты, моделирование физики, визуальные задачки на ризонинг, распознавание свойств объектов и тд и тп.
Все задачки и как с ними справилась Veo можно посмотреть тут. Если кратко:
– Модель действительно способна решать широкий набор задач, для которых ее не обучали. Пример: детекция, которой напрямую не было в трейне.
– Veo 3 решает задачи, требующие пошагового визуального мышления (которое авторы называют Chain-of-Frames (CoF), аналог Chain-of-Thought в LLM). Например, на лабиринтах 5 на 5 точность достигает 78% на pass@10. Для такой модельки это прямо неплохо.
– Хорошо понимает физику и может смоделировать сложные штуки типа плавучести, трения, отражений, преломлений и другого.
Вывод такой: подобные модели точно можно рассматривать как альтернативу обучению на тексте. Пока, конечно, их развитие все еще в зачатке. Но кто знает, что будет через год, два или три.
Статья
BY Data Secrets



Share with your friend now:
tgoop.com/data_secrets/7961