tgoop.com/nn_for_science/2536
Last Update:
🎥🧠 Видео-модели способны к Chain-of-Frames размышлениям
Крупные генеративные видео-модели (например Veo 3) уже решают базовые задачи CV и простые визуальные головоломки без дообучения, если правильно задать роль и попросить рисовать ответ прямо поверх кадров.
В новом исследовании авторы проверили, может ли одна крупная генеративная видеомодель без дообучения решать разные задачи - от классической перцепции (границы, сегментация, улучшение кадра) до простых визуальных головоломок (лабиринты, симметрия). Вместо отдельной модели под каждую задачу они давали только инструкции в промпте - буквально «реши и нарисуй вот так» - и смотрели, появится ли ответ в кадрах. Оказалось, что на десятках задач и тысячах примеров модель часто справляется zero-shot.
Как «программировать» модель ролями
Ключ - задать и задачу, и формат вывода. Это превращает генерацию в визуальную аналитику: вы получаете не описание, а аннотированный видеоряд.
Мини-шпаргалка промптов (скопируйте)
You are a video analyst. Solve the task and DRAW the answer ON TOP of frames.
Maze: draw the shortest valid path in RED, thickness 3 px, unbroken line from START to GOAL.
Segmentation: fill ONLY the person with a semi-transparent overlay; keep everything else unchanged.
Background removal: keep the subject; replace background with uniform gray; avoid halos around hair.
Physics: render two variants side-by-side labeled “Earth (9.81 m/s^2)” and “Moon (1.62 m/s^2)”; show motion difference.
Deblur/denoise: increase sharpness while preserving faces; avoid over-smoothing and ringing artifacts.
ИтогВидео-модели научились отвечать кадрами, попросите не решить задачу, а решить и нарисовать ответ вот так. На сайте куча крутых примеров, которые позволяют поверить в то, что генеративные видео модели можно использовать как LLM для решения задач в режиме zero-shot.
Сайт статьи
BY AI для Всех

Share with your friend now:
tgoop.com/nn_for_science/2536