NN_FOR_SCIENCE Telegram 2536
🎥🧠 Видео-модели способны к Chain-of-Frames размышлениям

Крупные генеративные видео-модели (например Veo 3) уже решают базовые задачи CV и простые визуальные головоломки без дообучения, если правильно задать роль и попросить рисовать ответ прямо поверх кадров.

В новом исследовании авторы проверили, может ли одна крупная генеративная видеомодель без дообучения решать разные задачи - от классической перцепции (границы, сегментация, улучшение кадра) до простых визуальных головоломок (лабиринты, симметрия). Вместо отдельной модели под каждую задачу они давали только инструкции в промпте - буквально «реши и нарисуй вот так» - и смотрели, появится ли ответ в кадрах. Оказалось, что на десятках задач и тысячах примеров модель часто справляется zero-shot.

Как «программировать» модель ролями

Ключ - задать и задачу, и формат вывода. Это превращает генерацию в визуальную аналитику: вы получаете не описание, а аннотированный видеоряд.

Мини-шпаргалка промптов (скопируйте)

You are a video analyst. Solve the task and DRAW the answer ON TOP of frames.

Maze: draw the shortest valid path in RED, thickness 3 px, unbroken line from START to GOAL.

Segmentation: fill ONLY the person with a semi-transparent overlay; keep everything else unchanged.

Background removal: keep the subject; replace background with uniform gray; avoid halos around hair.

Physics: render two variants side-by-side labeled “Earth (9.81 m/s^2)” and “Moon (1.62 m/s^2)”; show motion difference.

Deblur/denoise: increase sharpness while preserving faces; avoid over-smoothing and ringing artifacts.


Итог

Видео-модели научились отвечать кадрами, попросите не решить задачу, а решить и нарисовать ответ вот так. На сайте куча крутых примеров, которые позволяют поверить в то, что генеративные видео модели можно использовать как LLM для решения задач в режиме zero-shot.

Сайт статьи
🔥236



tgoop.com/nn_for_science/2536
Create:
Last Update:

🎥🧠 Видео-модели способны к Chain-of-Frames размышлениям

Крупные генеративные видео-модели (например Veo 3) уже решают базовые задачи CV и простые визуальные головоломки без дообучения, если правильно задать роль и попросить рисовать ответ прямо поверх кадров.

В новом исследовании авторы проверили, может ли одна крупная генеративная видеомодель без дообучения решать разные задачи - от классической перцепции (границы, сегментация, улучшение кадра) до простых визуальных головоломок (лабиринты, симметрия). Вместо отдельной модели под каждую задачу они давали только инструкции в промпте - буквально «реши и нарисуй вот так» - и смотрели, появится ли ответ в кадрах. Оказалось, что на десятках задач и тысячах примеров модель часто справляется zero-shot.

Как «программировать» модель ролями

Ключ - задать и задачу, и формат вывода. Это превращает генерацию в визуальную аналитику: вы получаете не описание, а аннотированный видеоряд.

Мини-шпаргалка промптов (скопируйте)

You are a video analyst. Solve the task and DRAW the answer ON TOP of frames.

Maze: draw the shortest valid path in RED, thickness 3 px, unbroken line from START to GOAL.

Segmentation: fill ONLY the person with a semi-transparent overlay; keep everything else unchanged.

Background removal: keep the subject; replace background with uniform gray; avoid halos around hair.

Physics: render two variants side-by-side labeled “Earth (9.81 m/s^2)” and “Moon (1.62 m/s^2)”; show motion difference.

Deblur/denoise: increase sharpness while preserving faces; avoid over-smoothing and ringing artifacts.


Итог

Видео-модели научились отвечать кадрами, попросите не решить задачу, а решить и нарисовать ответ вот так. На сайте куча крутых примеров, которые позволяют поверить в то, что генеративные видео модели можно использовать как LLM для решения задач в режиме zero-shot.

Сайт статьи

BY AI для Всех




Share with your friend now:
tgoop.com/nn_for_science/2536

View MORE
Open in Telegram


Telegram News

Date: |

Public channels are public to the internet, regardless of whether or not they are subscribed. A public channel is displayed in search results and has a short address (link). How to create a business channel on Telegram? (Tutorial) As five out of seven counts were serious, Hui sentenced Ng to six years and six months in jail. Hui said the time period and nature of some offences “overlapped” and thus their prison terms could be served concurrently. The judge ordered Ng to be jailed for a total of six years and six months. Add the logo from your device. Adjust the visible area of your image. Congratulations! Now your Telegram channel has a face Click “Save”.!
from us


Telegram AI для Всех
FROM American