Дообучение видеомодели Kling на своих данных
Как известно, генерация видео из текста всегда качественнее, чем генерация видео из изображений
В Kling решили сделать Custom Face Video Model, чтобы можно было загрузить видеоданные с самим собой и обучить собственную видеомодель для полной согласованности персонажа. Это позволит генерировать качественные видео из текста, погружая себя в любые локации и действия. То есть, в результате будет не просто человек с вашим лицом, который ведёт себя, как это предустановлено в модели, а точное повторение ваших жестов и мимики (если они будут в вашем датасете)
Для дообучения модели нужно до 30 горизонтальных видео с собой по 15 секунд, в разных ракурсах. Видео должно быть хорошего качества, с хорошим освещением, без людей на заднем плане. За дообучение берут 999 кредитов (то есть где-то $20)
Далее просто пишем промпт с выбранной моделью лица, описываем, во что одет персонаж и что он делает, а также обстановку, в которой он находится, и т. д.
Думаю, это имеет место быть, особенно если дальше будет возможность совмещать несколько обученных моделей. НО, опять же, при генерации из изображений у нас есть полный контроль над композицией кадра
Обновление скоро появится у всех пользователей
_
А::Й /ВИДЕО — Образовательный проект для нового поколения создателей визуального видео контента. Стартуем 15 ноября. В боте есть скидка @whatisitaivideo_bot
Как известно, генерация видео из текста всегда качественнее, чем генерация видео из изображений
В Kling решили сделать Custom Face Video Model, чтобы можно было загрузить видеоданные с самим собой и обучить собственную видеомодель для полной согласованности персонажа. Это позволит генерировать качественные видео из текста, погружая себя в любые локации и действия. То есть, в результате будет не просто человек с вашим лицом, который ведёт себя, как это предустановлено в модели, а точное повторение ваших жестов и мимики (если они будут в вашем датасете)
Для дообучения модели нужно до 30 горизонтальных видео с собой по 15 секунд, в разных ракурсах. Видео должно быть хорошего качества, с хорошим освещением, без людей на заднем плане. За дообучение берут 999 кредитов (то есть где-то $20)
Далее просто пишем промпт с выбранной моделью лица, описываем, во что одет персонаж и что он делает, а также обстановку, в которой он находится, и т. д.
Думаю, это имеет место быть, особенно если дальше будет возможность совмещать несколько обученных моделей. НО, опять же, при генерации из изображений у нас есть полный контроль над композицией кадра
Обновление скоро появится у всех пользователей
_
А::Й /ВИДЕО — Образовательный проект для нового поколения создателей визуального видео контента. Стартуем 15 ноября. В боте есть скидка @whatisitaivideo_bot
This media is not supported in your browser
VIEW IN TELEGRAM
Интересную вещь сделали в Blendbox
Есть генерация в реальном времени, где рисуешь «что-то», и это «что-то» превращается в то, что напишешь в промпте. В Blendbox пошли чуть-чуть дальше добавив генерацию отдельных предметов и редактор со слоями — и всё это с генерацией в реальном времени
По сути, можно создать каждую деталь изображения отдельно и из этого составить любую композицию, исключая случайности в результате
Можно смешивать сложные идеи, перетаскивая их друг на друга, исследовать новые художественные стили и видеть, как они по-новому влияют на всё изображение
Это нужно, когда хочется именно творить и визуализировать, задействуя своё воображение и управляя каждой деталью. Такой себе «фотошоп нового времени»
Бесплатно попробовать не получится (почему-то?!), нужна подписка от $3,5
Есть генерация в реальном времени, где рисуешь «что-то», и это «что-то» превращается в то, что напишешь в промпте. В Blendbox пошли чуть-чуть дальше добавив генерацию отдельных предметов и редактор со слоями — и всё это с генерацией в реальном времени
По сути, можно создать каждую деталь изображения отдельно и из этого составить любую композицию, исключая случайности в результате
Можно смешивать сложные идеи, перетаскивая их друг на друга, исследовать новые художественные стили и видеть, как они по-новому влияют на всё изображение
Это нужно, когда хочется именно творить и визуализировать, задействуя своё воображение и управляя каждой деталью. Такой себе «фотошоп нового времени»
Бесплатно попробовать не получится (почему-то?!), нужна подписка от $3,5
This media is not supported in your browser
VIEW IN TELEGRAM
Наше видение человека, который прошел образовательный проект А::Й / Видео — это специалист (ИИ-режиссер), который не просто создает визуальный контент с помощью нейросетей, а делает это осознанно, ориентируясь на идею и смысл
Он понимает основы драматургии, умеет превратить любой замысел в продуманный визуал и точно знает, как выразить задуманное через кадр и визуальную подачу
Он ежедневно развивает свой визуальный вкус и насмотренность, что помогает ему чувствовать эстетику и использовать ее в своих проектах
Этот специалист умеет управлять процессом генерации, получает предсказуемые результаты и контролирует их качество
Он понимает, какие кинематографические приемы можно применить в создании видео и как использовать монтаж так, чтобы поддерживать драматургическое напряжение, динамику и ритм
В своих работах он ставит на первое место смысл, идею и посыл, благодаря чему зритель ощущает эмоции и погружается в суть истории
Мы уже во всю готовимся к старту А::Й / Видео, а оно уже 15 ноября.
Еще 2 дня будет действовать промокод на 7% — АЙВИДЕО7
Вот сайт с подробностями — byai.ru
Он понимает основы драматургии, умеет превратить любой замысел в продуманный визуал и точно знает, как выразить задуманное через кадр и визуальную подачу
Он ежедневно развивает свой визуальный вкус и насмотренность, что помогает ему чувствовать эстетику и использовать ее в своих проектах
Этот специалист умеет управлять процессом генерации, получает предсказуемые результаты и контролирует их качество
Он понимает, какие кинематографические приемы можно применить в создании видео и как использовать монтаж так, чтобы поддерживать драматургическое напряжение, динамику и ритм
В своих работах он ставит на первое место смысл, идею и посыл, благодаря чему зритель ощущает эмоции и погружается в суть истории
Мы уже во всю готовимся к старту А::Й / Видео, а оно уже 15 ноября.
Еще 2 дня будет действовать промокод на 7% — АЙВИДЕО7
Вот сайт с подробностями — byai.ru
ИИ в 3D
Инструмент Meshcapade из текста создает болванку тела с любыми движениями. Инструмент из загруженного реального видео с человеком фиксирует его движения создавая мокап. А если к этому сверху добавить рендер video-to-video от gen3, то какие творческие штуки можно делать, кто мне скажет?
Пока это самая недооцененная связка и мало кто понимает, как это внедрять в свои проекты, возможно, когда можно будет video-to-video делать из референса изображения, чтобы сохранялся нужный стиль — к этому будет больше внимания
Учитывая, что у Runway скоро появится act two, где можно будет не только голову анимировать но и задействовать туловище — к этому будет еще больше внимания
Инструмент Meshcapade из текста создает болванку тела с любыми движениями. Инструмент из загруженного реального видео с человеком фиксирует его движения создавая мокап. А если к этому сверху добавить рендер video-to-video от gen3, то какие творческие штуки можно делать, кто мне скажет?
Пока это самая недооцененная связка и мало кто понимает, как это внедрять в свои проекты, возможно, когда можно будет video-to-video делать из референса изображения, чтобы сохранялся нужный стиль — к этому будет больше внимания
Учитывая, что у Runway скоро появится act two, где можно будет не только голову анимировать но и задействовать туловище — к этому будет еще больше внимания
Потестил обучение Lora в KREA на примере стиля мультфильма про обезьяну Бу ютуб-канала амоБлог
Обучал именно стилю рисовки и сгенерировал пачку изображений по моему любимому промпту для исследований — «a film that no one has ever done before»
В моем датасете было много скринов с самой обезьяной, поэтому при генерациях нейросеть пыталась добавить её тоже, но поскольку я обучал именно на стиле, а не на персонаже, Бу не получился похожим сам на себя. В следующий раз попробую обучить модель именно на обезьяне Бу
Я понял, что чем разнообразнее будет датасет, тем больше разнообразия в результатах генерации. Хотя промпт у меня абстрактный, в композиции кадра заметна схожесть с датасетом и многодетальность, кроме самого стиля, конечно. При генерации я ставил силу стиля на 90% (примерно на глаз), чтобы немного подмешивались стили из оригинального датасета. Очень не хватает функции инпейнта, чтобы исправлять мелкие косяки в удачных генерациях прямо в одном интерфейсе, как в Midjourney. Ну и я предполагаю из за «киношного промпта», большинство генераций у меня получились темными
Lora обучается на модели Flux. Нужно минимум 3 изображения, я загрузил 25 шт. Обучение проходит быстро, за минут 7. Нужна подписка за $10
При генерации можно миксовать модели, например, стиль + персонаж или объект
Короче, штука не новая, и в Midjourney можно легко такое генерить, указывая ссылки на стиль, персонажа и композицию.
Вот сайт https://www.krea.ai/train , код для входа EARLYBIRD
Обучал именно стилю рисовки и сгенерировал пачку изображений по моему любимому промпту для исследований — «a film that no one has ever done before»
В моем датасете было много скринов с самой обезьяной, поэтому при генерациях нейросеть пыталась добавить её тоже, но поскольку я обучал именно на стиле, а не на персонаже, Бу не получился похожим сам на себя. В следующий раз попробую обучить модель именно на обезьяне Бу
Я понял, что чем разнообразнее будет датасет, тем больше разнообразия в результатах генерации. Хотя промпт у меня абстрактный, в композиции кадра заметна схожесть с датасетом и многодетальность, кроме самого стиля, конечно. При генерации я ставил силу стиля на 90% (примерно на глаз), чтобы немного подмешивались стили из оригинального датасета. Очень не хватает функции инпейнта, чтобы исправлять мелкие косяки в удачных генерациях прямо в одном интерфейсе, как в Midjourney. Ну и я предполагаю из за «киношного промпта», большинство генераций у меня получились темными
Lora обучается на модели Flux. Нужно минимум 3 изображения, я загрузил 25 шт. Обучение проходит быстро, за минут 7. Нужна подписка за $10
При генерации можно миксовать модели, например, стиль + персонаж или объект
Короче, штука не новая, и в Midjourney можно легко такое генерить, указывая ссылки на стиль, персонажа и композицию.
Вот сайт https://www.krea.ai/train , код для входа EARLYBIRD
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
На каждую «лучшую технологию» найдется еще лучше
У Runway's Act-One и у Live Portrаit есть несколько проблем, они не могут передавать быстрые движения головы и резкие повороты, незначительные изменения выражения лица и более сильные эмоции
А китайская модель X-Portrait 2 может! Китайцы первые во всем мире всего, что касается видео технологий. Потому что с генерацией текста и изображений они опоздали, а вот с генерацией видео решили уже не тупить. Они буквально ждут, пока какой нибудь Runway выпустит новую функцию, а затем делают ее лучше, намного лучше на «следующий день»
И так, у X-Portrait 2 получается более выразительная эмоция, плавная анимация с выражением лица, синхронизация губ реального фото и анимационного персонажа. Никаких проблем с быстрым разговором и боковым профилем
Очень интересно! Пока есть только рабочий док по технологии, но есть первая версия X-Portrait, которую уже можно попробовать
У Runway's Act-One и у Live Portrаit есть несколько проблем, они не могут передавать быстрые движения головы и резкие повороты, незначительные изменения выражения лица и более сильные эмоции
А китайская модель X-Portrait 2 может! Китайцы первые во всем мире всего, что касается видео технологий. Потому что с генерацией текста и изображений они опоздали, а вот с генерацией видео решили уже не тупить. Они буквально ждут, пока какой нибудь Runway выпустит новую функцию, а затем делают ее лучше, намного лучше на «следующий день»
И так, у X-Portrait 2 получается более выразительная эмоция, плавная анимация с выражением лица, синхронизация губ реального фото и анимационного персонажа. Никаких проблем с быстрым разговором и боковым профилем
Очень интересно! Пока есть только рабочий док по технологии, но есть первая версия X-Portrait, которую уже можно попробовать