Telegram Web
This media is not supported in your browser
VIEW IN TELEGRAM
Когда появляется какая-то новая технология или обновление какого-то инструмента, сразу хочется переделать все старые работы

Вот, например, этот сниппет я делал полгода назад. Тут совмещение генерации и live-action сцен. Интересно, как бы это сейчас смотрелось, если пропустить генерации через Luma?!

Наверное, не буду этого делать. Просто пойду дальше. И помните, клиент оценивает ваш уровень по самой худшей работе в портфолио

Трек Милу — Эго
Моушен Runway Gen 2
Image Midjourney
Ключевые кадры у Luma волшебны. Открылись новые возможности для управления сюжетом

Технология AnimationDiff, ToonCrafter на движке Dream Machine — что может быть еще круче? Какие же вещи можно из этого делать?! Провел несколько тестов из кадров в MJ.
Если у Krea это больше морфинг от AnimationDiff с определенным стилем, что тоже круто, можно встраивать в креативные проекты. А у Luma — это гладкое встраивание пространства из одного изображения в другое, учитывая контекст. Не говорю уже, какие неожиданные вещи можно получать, совмещая разные по контексту изображения. Например, совместить все мемы подряд или сцены из разных фильмов

Пока только 2 ключевых кадра можно подгружать. Было бы круто, если можно было бы 4-5 изображений использовать, что даст очень четкое и продолжительное управление происходящим в сцене. А пока старый добрый ручной монтаж

Короче, кайф!
This media is not supported in your browser
VIEW IN TELEGRAM
У Runway настолько хреновая модель генерации изображений, что свой Gen 3 они начали только с text-to-video. Вот так они не любят Midjourney и завидуют, что все генерируют изображения там и идут в runway только за моушеном этих изображений

От Gen 3 пока смешанное чувство. В целом сгенерировал около 30 шотов, из них только 3 получились удачными

Тут есть их внутренний гайд по структуре подсказок и примеры описания камеры, света, движения и стиля

Попробовать могут все у кого тариф стандарт — https://runwayml.com/
Но лучше, пока эти деньги отдайте Luma =) Я конечно буду дальше Gen 3 исследовать и разбираться
Над чем сейчас работаете?

Кидайте свои работы, проекты, портфолио. Просто расскажите какие вы творческие и креативные

Короче, это нетворкинг в комментариях
This media is not supported in your browser
VIEW IN TELEGRAM
Создал эту сцену в Gen3, и вот что я понял

Gen-3 Alpha — самая маленькая из будущих моделей. Я верю, что это будет крутой подконтрольный инструмент, но пока это дорогой «игровой автомат». Лучше не играться в него. Пока сложно контролировать стиль и согласованность. Ситуацию изменит появление Image to video и покупка безлимита за 95$

Полёты, лица людей, появление английских слов, POV — получаются хорошо. С помощью фиксирования seed можно добиться повторяемости персонажа, но опять же получается через раз. Можно генерировать любые анимации на зелёном фоне, например спецэффект огня или струи дыма

Когда те, у кого был ранний доступ (участники креативной программы), выкладывали свои генерации, все были в восторге, а у них у всех бесплатный безлимит. Конечно же, все генерации, которые попадали в сеть, были вау, ведь мы не знаем, какая там была выборка из неудачных генераций

__
Video — Gen3
Music — Udio
SVX — Elevenlabs
Kling is king?

Я месяц тестирую китайскую видео нейросеть Kling и собрал несколько шотов в одно демо видео, без какой либо обработки. Пока это лучший image-to-video по динамике и пониманию контекста (посмотрим на i2v от Gen3)

Модель хорошо контролируется при прописывании дополнительного промпта к изображению. При продолжении видео, хорошо понимает контекст и динамику предыдущих 5 секунд генерации и очень плавно и органично продлевает, хоть до нескольких минут непрерывного видео с управляемым действием с помощью промпта

Kling очень хорош в понимании физики — мясо разрезается ножом, огурец откусывается, а спагетти действительно съедаются. Управляемые эмоции на лице. Управляемые естественные движения — снять очки или надеть шляпу

Вчера стала доступна веб-версия и добавилось много нового:
— Выбор 5 или 10 секунд
— Интерфейс управления камерой
— Кейфреймы между двумя ключевыми изображиями (прям как у Luma)
— Улучшенное HD качество, чего иногда прям не хватает (тут на выбор и ограничено по количеству таких HD генераций)
— Управление «температурой», то есть на сколько нейросети можно быть «креативной»

Ну и самое интересное — вот как я получил доступ к #Kling:
Установил WeChat (любой номер телефона).
Скачал приложение Kuaishou, авторизовался через WeChat (сохранил ID Kuaishou).
Скачал приложение Kwaicut, авторизовался через WeChat или AppleID. Разобрал китайские иероглифы (скрин в chatgpt) и заполнил анкету для доступа к генерации видео, куда вставил ID Kuaishou, подождал чуть больше недели

А теперь, когда стала доступна веб-версия, чтобы авторизоваться на сайте, можно навести QR-код в приложении Kuaishou. Тут тоже не сразу вам дадут доступ к генерации видео. Нужно подождать, так как наплыв пользователей огромный (в приложении например пишут, что около 700к пользователей очередь)
This media is not supported in your browser
VIEW IN TELEGRAM
LivePortrait — это потрясающе!

Технология может анимировать изображение из видео, довольно точно повторяя мимику, открытие рта, положение глаз и движения головы. Есть некоторые дергания, но это точно решаемая задача. Технология открытая (придумали её, кстати, в Kuaishou, те, кто выпустил Kling), хоть бери и делай свой сервис

Вижу, что это можно применять в своих проектах, там, где нужны эмоции в кадре, или для хорошего липсинка (есть ещё Hedra, тоже классно это делает). Или генерировать персонажа на зеленке анимировать мимику и на этапе монтажа собирать

Демо можно пробовать тут на Replicate и тут на Huggingface. А кто юзает ComfyUI, вот узел с нодой

В демо, видео должно быть 512х512, а изображение без разницы. Анимируются первые 5 секунд из видео, опять же, это в демо режиме. Результат будет лучше, если головы наклонены одинаково на видео и изображении

Пофантазирую, что будет дальше?
Думаю, что появится live-режим, чтобы в прямом эфире можно было это использовать, совместят это с голосовой генерацией через elevenlabs. И конечно же вместо исходного изображения можно будет подавать видео (примеры уже есть, приложил в комментариях)
«Закладки» — это рубрика, в которой я делюсь самыми полезными и интересными на мой взгляд находками за неделю. Кино, инструменты ИИ, креативные рабочие процессы, книги, мои инсайты

На этой неделе вот что меня порадовало и вдохновило:

— Эстетически вдохновляющий фильм Фуриоса про постапокалиптический мир из вселенной «Безумный макс»

— Трейлер второго сезона сериала «Разделение» — если вы не смотрели первый сезон, очень рекомендую. Мир, в котором у людей разделяется жизнь на рабочую, где они не знают, кто они такие в нерабочее время, и жизнь в нерабочее время, где они не знают, кто они такие в рабочее время

— Удобный конструктор для промптинга нейросети Runway Gen 3

— Как использовать LivePortrait для видео

— Видео про концепцию стиля от Чернобаева Николая,

— Статья-размышление на тему — «а искуство ли, исскуство ИИ»

— Киношный промпт для Midjourney, который сжег все мои быстрые часы генерации

Смотреть весь материал

Пишите в комменты, как вам находки? И в целом, как рубрика?
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Первые тесты image to video Gen3

Сначала расстроился, потому что обещают одно, а по факту опять другое. А потом нащупал, как надо общаться с нейронкой, чтобы хотя бы половину генераций получались с предсказуемым результатом. В целом хорошо выдерживает контекст и динамичность

Даже не пробуйте без безлимитного тарифа

Китайский Клинг, пока для меня на первом месте
Выйдешь? Vidu!

Китайская нейросеть Vidu теперь в доступе

Тут всё по классике генераций — из текста/изображений. Есть enhance prompt, который улучшает промпт, добавляя детали (вот бы видеть, какие). Можно делать апскейл (свои видео в этом посте я апскейлил)

И что-то новенькое — character reference. То есть на входе изображение с одним человеком и промпт с описанием, где находится и что должен делать этот человек. И нейросеть генерирует с ним видео. И действительно, схожесть хорошая получается

Генерурует 4-8 секунд. Пока нет Extend, чтобы продолжить предыдущую генерацию

Нравится динамичность, но иногда она слишком. Очень хорошее понимание действия, которое пишешь в промпте. По качеству и детализации не скажу, что хорошо, даже после внутреннего апскейла. У Gen3 и Kling+ с этим лучше, но это дело мощностей и времени, поэтому поправимо

Ценник со скидкой в 50% (не понятно сколько по времени такая щедрость):
10$ — 80 генераций по 4 сек
30$ — 220 генераций по 4 секунды

Буду продолжать это исследовать
2025/07/01 18:31:38
Back to Top
HTML Embed Code: