AI для Всех@nn_for

AI для Всех

🎥🧠 Видео-модели способны к Chain-of-Frames размышлениям

Крупные генеративные видео-модели (например Veo 3) уже решают базовые задачи CV и простые визуальные головоломки без дообучения, если правильно задать роль и попросить рисовать ответ прямо поверх кадров.

В новом исследовании авторы проверили, может ли одна крупная генеративная видеомодель без дообучения решать разные задачи - от классической перцепции (границы, сегментация, улучшение кадра) до простых визуальных головоломок (лабиринты, симметрия). Вместо отдельной модели под каждую задачу они давали только инструкции в промпте - буквально «реши и нарисуй вот так» - и смотрели, появится ли ответ в кадрах. Оказалось, что на десятках задач и тысячах примеров модель часто справляется zero-shot.

Как «программировать» модель ролями

Ключ - задать и задачу, и формат вывода. Это превращает генерацию в визуальную аналитику: вы получаете не описание, а аннотированный видеоряд.

Мини-шпаргалка промптов (скопируйте)

You are a video analyst. Solve the task and DRAW the answer ON TOP of frames.
Maze: draw the shortest valid path in RED, thickness 3 px, unbroken line from START to GOAL.

Segmentation: fill ONLY the person with a semi-transparent overlay; keep everything else unchanged.

Background removal: keep the subject; replace background with uniform gray; avoid halos around hair.

Physics: render two variants side-by-side labeled “Earth (9.81 m/s^2)” and “Moon (1.62 m/s^2)”; show motion difference.

Deblur/denoise: increase sharpness while preserving faces; avoid over-smoothing and ringing artifacts.

Итог

Видео-модели научились отвечать кадрами, попросите не решить задачу, а решить и нарисовать ответ вот так. На сайте куча крутых примеров, которые позволяют поверить в то, что генеративные видео модели можно использовать как LLM для решения задач в режиме zero-shot.

Сайт статьи

🔥23❤6

www.tgoop.com/nn_for_science/2536

4.23K viewsedited Sep 28 at 10:08

tgoop.com/nn_for_science/2536

Create: 2025-09-28
Last Update: 2025-10-10 22:46:56

You are a video analyst. Solve the task and DRAW the answer ON TOP of frames.
Maze: draw the shortest valid path in RED, thickness 3 px, unbroken line from START to GOAL.

Segmentation: fill ONLY the person with a semi-transparent overlay; keep everything else unchanged.

Background removal: keep the subject; replace background with uniform gray; avoid halos around hair.

Physics: render two variants side-by-side labeled “Earth (9.81 m/s^2)” and “Moon (1.62 m/s^2)”; show motion difference.

Deblur/denoise: increase sharpness while preserving faces; avoid over-smoothing and ringing artifacts.

BY AI для Всех

Share with your friend now:
tgoop.com/nn_for_science/2536

Telegram News

🎥🧠 Видео-модели способны к Chain-of-Frames размышлениям