tgoop.com/tensorbanana/1234
Last Update:
Нейро-Эмма - Моя любовь чат джипити (infiniteTalk)
слова: tensorbanana & gemini-2.5-pro
песня: udio-1.5-allegro
картинки: wan2.2 t2i
анимация: wan2.2 i2v
липсинк: infiniteTalk video2video
консистентность: лора+детальное описание
gemini-2.5-pro, наверное, лучше всех пишет стихи на русском. На самые жирные бэнгеры пришлось самому придумывать.
udio-1.5-allegro (бесплатный) - удивил, он намного лучше бесплатного suno. Платные модели suno я не тестил, но те что стоят в бесплатном режиме - это просто прошлый век по сравнению с udio.
Сгенерировал одну стартовую картинку с гитарой, далее просто продолжал ее через image2video и движение камеры.
Лоры на движение камеры:
зум вперед: https://civitai.com/models/1784288/motion-lora-camera-push-in-wan-14b-720p-i2v
вправо-влево: https://civitai.com/models/1892318/whip-pan
Еще пробовал через первый-последний кадр в vace, но выходило плохо с движением камеры, забил на это. Надо попробовать в wan-fun, но мне было лень качать. Также просил gemini-image (nano-banana) скомпоновать новый кадр со старыми персонажами, но тот отказался (скорее всего, ему топик не понравился).
Робот танцует через vace video2video с dwpose.
infiniteTalk video2video от kijai жрет кучу врам. При 720p со скользящим окном в 49 кадров - 34 GB (уходит в виртуальную vram). Все видео делится на куски по 49 кадров с перехлестом в 9 кадров и отправляется на липсинк. Чем больше окно, тем лучше консистеность, при 49 будут видны склейки. Окно в 65 и 81 кадр в 720p у меня падают по OOM ошибке. Если мало vram - пробуйте побольше blockswap, поменьше окно и 480p. Предположу, что на 12 GB должно запуститься, но это не точно.
Скорость infiniteTalk: 28 секунд 720p видео генерируется за 40 минут на 3090.
infiniteTalk работает на 2-х шагах с фиксированным деноизом 50%, а значит мелкие детали в исходном видео будут изменены. Например, в одном прогоне он сожрал барабанные палочки, Эмма просто махала руками. Поэтому нужно прописывать такие мелкие детали в промпт: Emma Watson woman is singing and playing at drum kit with 2 drum sticks in her hands, rock music, energetic music, fast movements
wan-s2v пока не тестил, но он и не поддерживает режим video2video (там только одна говорящая картинка). А с infiniteTalk можно делать динамичные сцены.
Сделал все за 3 вечера.
Воркфлоу infiniteTalk video2video: https://github.com/Mozer/comfy_stuff/blob/main/workflows/wan_infinitetalk_video2video_720p_49f.json
BY Tensor Banana
Share with your friend now:
tgoop.com/tensorbanana/1234