TENSORBANANA Telegram 1234
Media is too big
VIEW IN TELEGRAM
Нейро-Эмма - Моя любовь чат джипити (infiniteTalk)

слова: tensorbanana & gemini-2.5-pro
песня: udio-1.5-allegro
картинки: wan2.2 t2i
анимация: wan2.2 i2v
липсинк: infiniteTalk video2video
консистентность: лора+детальное описание

gemini-2.5-pro, наверное, лучше всех пишет стихи на русском. На самые жирные бэнгеры пришлось самому придумывать.
udio-1.5-allegro (бесплатный) - удивил, он намного лучше бесплатного suno. Платные модели suno я не тестил, но те что стоят в бесплатном режиме - это просто прошлый век по сравнению с udio.

Сгенерировал одну стартовую картинку с гитарой, далее просто продолжал ее через image2video и движение камеры.

Лоры на движение камеры:
зум вперед: https://civitai.com/models/1784288/motion-lora-camera-push-in-wan-14b-720p-i2v
вправо-влево: https://civitai.com/models/1892318/whip-pan

Еще пробовал через первый-последний кадр в vace, но выходило плохо с движением камеры, забил на это. Надо попробовать в wan-fun, но мне было лень качать. Также просил gemini-image (nano-banana) скомпоновать новый кадр со старыми персонажами, но тот отказался (скорее всего, ему топик не понравился).

Робот танцует через vace video2video с dwpose.

infiniteTalk video2video от kijai жрет кучу врам. При 720p со скользящим окном в 49 кадров - 34 GB (уходит в виртуальную vram). Все видео делится на куски по 49 кадров с перехлестом в 9 кадров и отправляется на липсинк. Чем больше окно, тем лучше консистеность, при 49 будут видны склейки. Окно в 65 и 81 кадр в 720p у меня падают по OOM ошибке. Если мало vram - пробуйте побольше blockswap, поменьше окно и 480p. Предположу, что на 12 GB должно запуститься, но это не точно.

Скорость infiniteTalk: 28 секунд 720p видео генерируется за 40 минут на 3090.

infiniteTalk работает на 2-х шагах с фиксированным деноизом 50%, а значит мелкие детали в исходном видео будут изменены. Например, в одном прогоне он сожрал барабанные палочки, Эмма просто махала руками. Поэтому нужно прописывать такие мелкие детали в промпт: Emma Watson woman is singing and playing at drum kit with 2 drum sticks in her hands, rock music, energetic music, fast movements

wan-s2v пока не тестил, но он и не поддерживает режим video2video (там только одна говорящая картинка). А с infiniteTalk можно делать динамичные сцены.

Сделал все за 3 вечера.

Воркфлоу infiniteTalk video2video: https://github.com/Mozer/comfy_stuff/blob/main/workflows/wan_infinitetalk_video2video_720p_49f.json
41🔥59👍11👎653😁2💔1



tgoop.com/tensorbanana/1234
Create:
Last Update:

Нейро-Эмма - Моя любовь чат джипити (infiniteTalk)

слова: tensorbanana & gemini-2.5-pro
песня: udio-1.5-allegro
картинки: wan2.2 t2i
анимация: wan2.2 i2v
липсинк: infiniteTalk video2video
консистентность: лора+детальное описание

gemini-2.5-pro, наверное, лучше всех пишет стихи на русском. На самые жирные бэнгеры пришлось самому придумывать.
udio-1.5-allegro (бесплатный) - удивил, он намного лучше бесплатного suno. Платные модели suno я не тестил, но те что стоят в бесплатном режиме - это просто прошлый век по сравнению с udio.

Сгенерировал одну стартовую картинку с гитарой, далее просто продолжал ее через image2video и движение камеры.

Лоры на движение камеры:
зум вперед: https://civitai.com/models/1784288/motion-lora-camera-push-in-wan-14b-720p-i2v
вправо-влево: https://civitai.com/models/1892318/whip-pan

Еще пробовал через первый-последний кадр в vace, но выходило плохо с движением камеры, забил на это. Надо попробовать в wan-fun, но мне было лень качать. Также просил gemini-image (nano-banana) скомпоновать новый кадр со старыми персонажами, но тот отказался (скорее всего, ему топик не понравился).

Робот танцует через vace video2video с dwpose.

infiniteTalk video2video от kijai жрет кучу врам. При 720p со скользящим окном в 49 кадров - 34 GB (уходит в виртуальную vram). Все видео делится на куски по 49 кадров с перехлестом в 9 кадров и отправляется на липсинк. Чем больше окно, тем лучше консистеность, при 49 будут видны склейки. Окно в 65 и 81 кадр в 720p у меня падают по OOM ошибке. Если мало vram - пробуйте побольше blockswap, поменьше окно и 480p. Предположу, что на 12 GB должно запуститься, но это не точно.

Скорость infiniteTalk: 28 секунд 720p видео генерируется за 40 минут на 3090.

infiniteTalk работает на 2-х шагах с фиксированным деноизом 50%, а значит мелкие детали в исходном видео будут изменены. Например, в одном прогоне он сожрал барабанные палочки, Эмма просто махала руками. Поэтому нужно прописывать такие мелкие детали в промпт: Emma Watson woman is singing and playing at drum kit with 2 drum sticks in her hands, rock music, energetic music, fast movements

wan-s2v пока не тестил, но он и не поддерживает режим video2video (там только одна говорящая картинка). А с infiniteTalk можно делать динамичные сцены.

Сделал все за 3 вечера.

Воркфлоу infiniteTalk video2video: https://github.com/Mozer/comfy_stuff/blob/main/workflows/wan_infinitetalk_video2video_720p_49f.json

BY Tensor Banana


Share with your friend now:
tgoop.com/tensorbanana/1234

View MORE
Open in Telegram


Telegram News

Date: |

How to Create a Private or Public Channel on Telegram? During a meeting with the president of the Supreme Electoral Court (TSE) on June 6, Telegram's Vice President Ilya Perekopsky announced the initiatives. According to the executive, Brazil is the first country in the world where Telegram is introducing the features, which could be expanded to other countries facing threats to democracy through the dissemination of false content. How to create a business channel on Telegram? (Tutorial) To delete a channel with over 1,000 subscribers, you need to contact user support Healing through screaming therapy
from us


Telegram Tensor Banana
FROM American