This media is not supported in your browser
VIEW IN TELEGRAM
Создал эту сцену в Gen3, и вот что я понял
Gen-3 Alpha — самая маленькая из будущих моделей. Я верю, что это будет крутой подконтрольный инструмент, но пока это дорогой «игровой автомат». Лучше не играться в него. Пока сложно контролировать стиль и согласованность. Ситуацию изменит появление Image to video и покупка безлимита за 95$
Полёты, лица людей, появление английских слов, POV — получаются хорошо. С помощью фиксирования seed можно добиться повторяемости персонажа, но опять же получается через раз. Можно генерировать любые анимации на зелёном фоне, например спецэффект огня или струи дыма
Когда те, у кого был ранний доступ (участники креативной программы), выкладывали свои генерации, все были в восторге, а у них у всех бесплатный безлимит. Конечно же, все генерации, которые попадали в сеть, были вау, ведь мы не знаем, какая там была выборка из неудачных генераций
__
Video — Gen3
Music — Udio
SVX — Elevenlabs
Gen-3 Alpha — самая маленькая из будущих моделей. Я верю, что это будет крутой подконтрольный инструмент, но пока это дорогой «игровой автомат». Лучше не играться в него. Пока сложно контролировать стиль и согласованность. Ситуацию изменит появление Image to video и покупка безлимита за 95$
Полёты, лица людей, появление английских слов, POV — получаются хорошо. С помощью фиксирования seed можно добиться повторяемости персонажа, но опять же получается через раз. Можно генерировать любые анимации на зелёном фоне, например спецэффект огня или струи дыма
Когда те, у кого был ранний доступ (участники креативной программы), выкладывали свои генерации, все были в восторге, а у них у всех бесплатный безлимит. Конечно же, все генерации, которые попадали в сеть, были вау, ведь мы не знаем, какая там была выборка из неудачных генераций
__
Video — Gen3
Music — Udio
SVX — Elevenlabs
Kling is king?
Я месяц тестирую китайскую видео нейросеть Kling и собрал несколько шотов в одно демо видео, без какой либо обработки. Пока это лучший image-to-video по динамике и пониманию контекста (посмотрим на i2v от Gen3)
Модель хорошо контролируется при прописывании дополнительного промпта к изображению. При продолжении видео, хорошо понимает контекст и динамику предыдущих 5 секунд генерации и очень плавно и органично продлевает, хоть до нескольких минут непрерывного видео с управляемым действием с помощью промпта
Kling очень хорош в понимании физики — мясо разрезается ножом, огурец откусывается, а спагетти действительно съедаются. Управляемые эмоции на лице. Управляемые естественные движения — снять очки или надеть шляпу
Вчера стала доступна веб-версия и добавилось много нового:
— Выбор 5 или 10 секунд
— Интерфейс управления камерой
— Кейфреймы между двумя ключевыми изображиями (прям как у Luma)
— Улучшенное HD качество, чего иногда прям не хватает (тут на выбор и ограничено по количеству таких HD генераций)
— Управление «температурой», то есть на сколько нейросети можно быть «креативной»
Ну и самое интересное — вот как я получил доступ к #Kling:
Установил WeChat (любой номер телефона).
Скачал приложение Kuaishou, авторизовался через WeChat (сохранил ID Kuaishou).
Скачал приложение Kwaicut, авторизовался через WeChat или AppleID. Разобрал китайские иероглифы (скрин в chatgpt) и заполнил анкету для доступа к генерации видео, куда вставил ID Kuaishou, подождал чуть больше недели
А теперь, когда стала доступна веб-версия, чтобы авторизоваться на сайте, можно навести QR-код в приложении Kuaishou. Тут тоже не сразу вам дадут доступ к генерации видео. Нужно подождать, так как наплыв пользователей огромный (в приложении например пишут, что около 700к пользователей очередь)
Я месяц тестирую китайскую видео нейросеть Kling и собрал несколько шотов в одно демо видео, без какой либо обработки. Пока это лучший image-to-video по динамике и пониманию контекста (посмотрим на i2v от Gen3)
Модель хорошо контролируется при прописывании дополнительного промпта к изображению. При продолжении видео, хорошо понимает контекст и динамику предыдущих 5 секунд генерации и очень плавно и органично продлевает, хоть до нескольких минут непрерывного видео с управляемым действием с помощью промпта
Kling очень хорош в понимании физики — мясо разрезается ножом, огурец откусывается, а спагетти действительно съедаются. Управляемые эмоции на лице. Управляемые естественные движения — снять очки или надеть шляпу
Вчера стала доступна веб-версия и добавилось много нового:
— Выбор 5 или 10 секунд
— Интерфейс управления камерой
— Кейфреймы между двумя ключевыми изображиями (прям как у Luma)
— Улучшенное HD качество, чего иногда прям не хватает (тут на выбор и ограничено по количеству таких HD генераций)
— Управление «температурой», то есть на сколько нейросети можно быть «креативной»
Ну и самое интересное — вот как я получил доступ к #Kling:
Установил WeChat (любой номер телефона).
Скачал приложение Kuaishou, авторизовался через WeChat (сохранил ID Kuaishou).
Скачал приложение Kwaicut, авторизовался через WeChat или AppleID. Разобрал китайские иероглифы (скрин в chatgpt) и заполнил анкету для доступа к генерации видео, куда вставил ID Kuaishou, подождал чуть больше недели
А теперь, когда стала доступна веб-версия, чтобы авторизоваться на сайте, можно навести QR-код в приложении Kuaishou. Тут тоже не сразу вам дадут доступ к генерации видео. Нужно подождать, так как наплыв пользователей огромный (в приложении например пишут, что около 700к пользователей очередь)
YouTube
Kling is king?
This media is not supported in your browser
VIEW IN TELEGRAM
LivePortrait — это потрясающе!
Технология может анимировать изображение из видео, довольно точно повторяя мимику, открытие рта, положение глаз и движения головы. Есть некоторые дергания, но это точно решаемая задача. Технология открытая (придумали её, кстати, в Kuaishou, те, кто выпустил Kling), хоть бери и делай свой сервис
Вижу, что это можно применять в своих проектах, там, где нужны эмоции в кадре, или для хорошего липсинка (есть ещё Hedra, тоже классно это делает). Или генерировать персонажа на зеленке анимировать мимику и на этапе монтажа собирать
Демо можно пробовать тут на Replicate и тут на Huggingface. А кто юзает ComfyUI, вот узел с нодой
В демо, видео должно быть 512х512, а изображение без разницы. Анимируются первые 5 секунд из видео, опять же, это в демо режиме. Результат будет лучше, если головы наклонены одинаково на видео и изображении
Пофантазирую, что будет дальше?
Думаю, что появится live-режим, чтобы в прямом эфире можно было это использовать, совместят это с голосовой генерацией через elevenlabs. И конечно же вместо исходного изображения можно будет подавать видео (примеры уже есть, приложил в комментариях)
Технология может анимировать изображение из видео, довольно точно повторяя мимику, открытие рта, положение глаз и движения головы. Есть некоторые дергания, но это точно решаемая задача. Технология открытая (придумали её, кстати, в Kuaishou, те, кто выпустил Kling), хоть бери и делай свой сервис
Вижу, что это можно применять в своих проектах, там, где нужны эмоции в кадре, или для хорошего липсинка (есть ещё Hedra, тоже классно это делает). Или генерировать персонажа на зеленке анимировать мимику и на этапе монтажа собирать
Демо можно пробовать тут на Replicate и тут на Huggingface. А кто юзает ComfyUI, вот узел с нодой
В демо, видео должно быть 512х512, а изображение без разницы. Анимируются первые 5 секунд из видео, опять же, это в демо режиме. Результат будет лучше, если головы наклонены одинаково на видео и изображении
Пофантазирую, что будет дальше?
Думаю, что появится live-режим, чтобы в прямом эфире можно было это использовать, совместят это с голосовой генерацией через elevenlabs. И конечно же вместо исходного изображения можно будет подавать видео (примеры уже есть, приложил в комментариях)
«Закладки» — это рубрика, в которой я делюсь самыми полезными и интересными на мой взгляд находками за неделю. Кино, инструменты ИИ, креативные рабочие процессы, книги, мои инсайты
На этой неделе вот что меня порадовало и вдохновило:
— Эстетически вдохновляющий фильм Фуриоса про постапокалиптический мир из вселенной «Безумный макс»
— Трейлер второго сезона сериала «Разделение» — если вы не смотрели первый сезон, очень рекомендую. Мир, в котором у людей разделяется жизнь на рабочую, где они не знают, кто они такие в нерабочее время, и жизнь в нерабочее время, где они не знают, кто они такие в рабочее время
— Удобный конструктор для промптинга нейросети Runway Gen 3
— Как использовать LivePortrait для видео
— Видео про концепцию стиля от Чернобаева Николая,
— Статья-размышление на тему — «а искуство ли, исскуство ИИ»
— Киношный промпт для Midjourney, который сжег все мои быстрые часы генерации
Смотреть весь материал
Пишите в комменты, как вам находки? И в целом, как рубрика?
На этой неделе вот что меня порадовало и вдохновило:
— Эстетически вдохновляющий фильм Фуриоса про постапокалиптический мир из вселенной «Безумный макс»
— Трейлер второго сезона сериала «Разделение» — если вы не смотрели первый сезон, очень рекомендую. Мир, в котором у людей разделяется жизнь на рабочую, где они не знают, кто они такие в нерабочее время, и жизнь в нерабочее время, где они не знают, кто они такие в рабочее время
— Удобный конструктор для промптинга нейросети Runway Gen 3
— Как использовать LivePortrait для видео
— Видео про концепцию стиля от Чернобаева Николая,
— Статья-размышление на тему — «а искуство ли, исскуство ИИ»
— Киношный промпт для Midjourney, который сжег все мои быстрые часы генерации
Смотреть весь материал
Пишите в комменты, как вам находки? И в целом, как рубрика?
This media is not supported in your browser
VIEW IN TELEGRAM
Первые тесты image to video Gen3
Сначала расстроился, потому что обещают одно, а по факту опять другое. А потом нащупал, как надо общаться с нейронкой, чтобы хотя бы половину генераций получались с предсказуемым результатом. В целом хорошо выдерживает контекст и динамичность
Даже не пробуйте без безлимитного тарифа
Китайский Клинг, пока для меня на первом месте
Сначала расстроился, потому что обещают одно, а по факту опять другое. А потом нащупал, как надо общаться с нейронкой, чтобы хотя бы половину генераций получались с предсказуемым результатом. В целом хорошо выдерживает контекст и динамичность
Даже не пробуйте без безлимитного тарифа
Китайский Клинг, пока для меня на первом месте
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Выйдешь? Vidu!
Китайская нейросеть Vidu теперь в доступе
Тут всё по классике генераций — из текста/изображений. Есть enhance prompt, который улучшает промпт, добавляя детали (вот бы видеть, какие). Можно делать апскейл (свои видео в этом посте я апскейлил)
И что-то новенькое — character reference. То есть на входе изображение с одним человеком и промпт с описанием, где находится и что должен делать этот человек. И нейросеть генерирует с ним видео. И действительно, схожесть хорошая получается
Генерурует 4-8 секунд. Пока нет Extend, чтобы продолжить предыдущую генерацию
Нравится динамичность, но иногда она слишком. Очень хорошее понимание действия, которое пишешь в промпте. По качеству и детализации не скажу, что хорошо, даже после внутреннего апскейла. У Gen3 и Kling+ с этим лучше, но это дело мощностей и времени, поэтому поправимо
Ценник со скидкой в 50% (не понятно сколько по времени такая щедрость):
10$ — 80 генераций по 4 сек
30$ — 220 генераций по 4 секунды
Буду продолжать это исследовать
Китайская нейросеть Vidu теперь в доступе
Тут всё по классике генераций — из текста/изображений. Есть enhance prompt, который улучшает промпт, добавляя детали (вот бы видеть, какие). Можно делать апскейл (свои видео в этом посте я апскейлил)
И что-то новенькое — character reference. То есть на входе изображение с одним человеком и промпт с описанием, где находится и что должен делать этот человек. И нейросеть генерирует с ним видео. И действительно, схожесть хорошая получается
Генерурует 4-8 секунд. Пока нет Extend, чтобы продолжить предыдущую генерацию
Нравится динамичность, но иногда она слишком. Очень хорошее понимание действия, которое пишешь в промпте. По качеству и детализации не скажу, что хорошо, даже после внутреннего апскейла. У Gen3 и Kling+ с этим лучше, но это дело мощностей и времени, поэтому поправимо
Ценник со скидкой в 50% (не понятно сколько по времени такая щедрость):
10$ — 80 генераций по 4 сек
30$ — 220 генераций по 4 секунды
Буду продолжать это исследовать
This media is not supported in your browser
VIEW IN TELEGRAM
Цветовая палитра как референс стиля
Цветовые палитры в фильмах создают общее настроение, влияют на восприятие и его эмоциональное состояние зрителя
Вот интересный прием для Midjourney, суть которого заключается в использовании цветовых палитр в качестве референса стиля
Любые палитры можно создавать в этом Cloud Artifacts (это аналог нейросети ChatGPT, в котором можно создавать любые приложения и, в отличие от ChatGPT, сразу же видеть функционирующий результат)
Ну или поищите «цветовые палитры из фильмов»
Цветовые палитры в фильмах создают общее настроение, влияют на восприятие и его эмоциональное состояние зрителя
Вот интересный прием для Midjourney, суть которого заключается в использовании цветовых палитр в качестве референса стиля
Любые палитры можно создавать в этом Cloud Artifacts (это аналог нейросети ChatGPT, в котором можно создавать любые приложения и, в отличие от ChatGPT, сразу же видеть функционирующий результат)
Ну или поищите «цветовые палитры из фильмов»
This media is not supported in your browser
VIEW IN TELEGRAM
Хотите себе в портфолио кейс для S7 Airlines?
Меня позвали помочь участникам нейрохакатона с применением нейросетей в работе над рекламными видео для авиакомпании S7 Airlines
Это конкурс с реальной задачей от реального клиента. Участие бесплатное. Общий призовой фонд — 500 тыс. рублей
Задание придёт всем на почту в день старта.
А старт уже 9 августа. То есть подача заявки до 15:00 9 августа.
Сейчас нужно зарегистрироваться на сайте и ждать письма с заданием
Участвовать можно одному или с командой. Участвовать могут все, кто работает в классических инструментах и хочет попробовать применить видео нейросети, и те, кто работает только в нейросетях
Работы нужно сдать до 22 августа. Конкурс проходит онлайн, а итоговые видео участников будем смотреть на мероприятии «Slёt Аниматоров 2024 x ITSALIVE» в Москве 24 - 25 августа
Меня позвали помочь участникам нейрохакатона с применением нейросетей в работе над рекламными видео для авиакомпании S7 Airlines
Это конкурс с реальной задачей от реального клиента. Участие бесплатное. Общий призовой фонд — 500 тыс. рублей
Задание придёт всем на почту в день старта.
А старт уже 9 августа. То есть подача заявки до 15:00 9 августа.
Сейчас нужно зарегистрироваться на сайте и ждать письма с заданием
Участвовать можно одному или с командой. Участвовать могут все, кто работает в классических инструментах и хочет попробовать применить видео нейросети, и те, кто работает только в нейросетях
Работы нужно сдать до 22 августа. Конкурс проходит онлайн, а итоговые видео участников будем смотреть на мероприятии «Slёt Аниматоров 2024 x ITSALIVE» в Москве 24 - 25 августа
This media is not supported in your browser
VIEW IN TELEGRAM
«Безлимитный» Runway GEN 3 на 2 дня
С 14 по 16 сентября будет проходить конкурс создания историй GEN48, и всем участникам дадут очень много кредитов для генерации видео. Если не хотите участвовать, то можете просто зарегистрироваться и 2 дня генерировать видео для себя (правила диктуют, что участники из России не допускаются)
В этот раз очень интересно, что придумают люди. Когда я больше года назад участвовал, было несколько десятков участников, а сейчас, думаю, их будет ближе к тысяче
В первых двух конкурсах первые места всегда доставались оригинальной идее и подаче. В первом случае это была стилизация под реальную съёмку, где люди из будущего нашли старую камеру и записали, что у них происходит, а во второй раз — имитация интерфейса из древней игры, где персонаж видеоигры Элли учится жить самостоятельно, когда игрок забросил игру
48 часов на создание — это очень мало. Важно не идти сложным путём, не выдумывать закрученные сюжеты, а уделить больше времени концепции, идее и форме
Регистрацияскоро закроется уже закрылась
https://runwayml.com/gen48
С 14 по 16 сентября будет проходить конкурс создания историй GEN48, и всем участникам дадут очень много кредитов для генерации видео. Если не хотите участвовать, то можете просто зарегистрироваться и 2 дня генерировать видео для себя (правила диктуют, что участники из России не допускаются)
В этот раз очень интересно, что придумают люди. Когда я больше года назад участвовал, было несколько десятков участников, а сейчас, думаю, их будет ближе к тысяче
В первых двух конкурсах первые места всегда доставались оригинальной идее и подаче. В первом случае это была стилизация под реальную съёмку, где люди из будущего нашли старую камеру и записали, что у них происходит, а во второй раз — имитация интерфейса из древней игры, где персонаж видеоигры Элли учится жить самостоятельно, когда игрок забросил игру
48 часов на создание — это очень мало. Важно не идти сложным путём, не выдумывать закрученные сюжеты, а уделить больше времени концепции, идее и форме
Регистрация
https://runwayml.com/gen48
This media is not supported in your browser
VIEW IN TELEGRAM
У них с этого всё началось
Помню ранний доступ к GEN 1. Тогда казалось безумием, что можно просто взять видео с примитивами, какими-то коробками, и стилизовать его под космический корабль или еще чего
Теперь video-to-video появилось на движке нейросети GEN3, и это просто ВАУ! Мы знаем, что Runway как будто бы изобрели GVFX (генеративные эффекты). А теперь это можно делать со своим видео: стилизовать его под любой стиль, делать цветокоррекцию, да хоть управлять погодой
Очень хорошо сохраняется структура исходного видео. Главное — найти свой параметр Structure Transformation. У меня самые лучшие результаты получались на 0,20. Например, если нужно изменить день на ночь в видео, может подойти даже значение 0,05. В общем, количество генераций и выбор лучшего варианта — решает
Это пока только первый релиз. Ещё нет возможности указывать изображение в качестве референса стиля или загружать видео в формате 9:16. Но есть хитрость, которой я пользуюсь: делаю видео в формате 9:16, оставляя чёрные полосы по бокам в формате 16:9
А вообще, этот инструмент идеально работает в связке — создание мокапа с движениями и «рендеринг стиля» в GEN3
Стилизация 10 секунд видео стоит около 2$, поэтому без безлимитного тарифа в Runway делать не-че-го
Промпт на видео очень прост:
[color] Porsche standing in a [variable] warehouse
Помню ранний доступ к GEN 1. Тогда казалось безумием, что можно просто взять видео с примитивами, какими-то коробками, и стилизовать его под космический корабль или еще чего
Теперь video-to-video появилось на движке нейросети GEN3, и это просто ВАУ! Мы знаем, что Runway как будто бы изобрели GVFX (генеративные эффекты). А теперь это можно делать со своим видео: стилизовать его под любой стиль, делать цветокоррекцию, да хоть управлять погодой
Очень хорошо сохраняется структура исходного видео. Главное — найти свой параметр Structure Transformation. У меня самые лучшие результаты получались на 0,20. Например, если нужно изменить день на ночь в видео, может подойти даже значение 0,05. В общем, количество генераций и выбор лучшего варианта — решает
Это пока только первый релиз. Ещё нет возможности указывать изображение в качестве референса стиля или загружать видео в формате 9:16. Но есть хитрость, которой я пользуюсь: делаю видео в формате 9:16, оставляя чёрные полосы по бокам в формате 16:9
А вообще, этот инструмент идеально работает в связке — создание мокапа с движениями и «рендеринг стиля» в GEN3
Стилизация 10 секунд видео стоит около 2$, поэтому без безлимитного тарифа в Runway делать не-че-го
Промпт на видео очень прост:
[color] Porsche standing in a [variable] warehouse
Что по образам?.
Думаю, тот, кто говорит, что ему не нравится результат, просто не понял, как этим пользоваться
Очень хочется добавления референса эстетики из изображения. А пока его нет, можно закинуть в чатгпт изображение с нужной эстетикой, попросить детально описать его и уже использовать это в качестве промпта в GEN3
Думаю, тот, кто говорит, что ему не нравится результат, просто не понял, как этим пользоваться
Очень хочется добавления референса эстетики из изображения. А пока его нет, можно закинуть в чатгпт изображение с нужной эстетикой, попросить детально описать его и уже использовать это в качестве промпта в GEN3