Telegram Web
Дообучение видеомодели Kling на своих данных

Как известно, генерация видео из текста всегда качественнее, чем генерация видео из изображений

В Kling решили сделать Custom Face Video Model, чтобы можно было загрузить видеоданные с самим собой и обучить собственную видеомодель для полной согласованности персонажа. Это позволит генерировать качественные видео из текста, погружая себя в любые локации и действия. То есть, в результате будет не просто человек с вашим лицом, который ведёт себя, как это предустановлено в модели, а точное повторение ваших жестов и мимики (если они будут в вашем датасете)

Для дообучения модели нужно до 30 горизонтальных видео с собой по 15 секунд, в разных ракурсах. Видео должно быть хорошего качества, с хорошим освещением, без людей на заднем плане. За дообучение берут 999 кредитов (то есть где-то $20)

Далее просто пишем промпт с выбранной моделью лица, описываем, во что одет персонаж и что он делает, а также обстановку, в которой он находится, и т. д.

Думаю, это имеет место быть, особенно если дальше будет возможность совмещать несколько обученных моделей. НО, опять же, при генерации из изображений у нас есть полный контроль над композицией кадра

Обновление скоро появится у всех пользователей

_
А::Й /ВИДЕО — Образовательный проект для нового поколения создателей визуального видео контента. Стартуем 15 ноября. В боте есть скидка @whatisitaivideo_bot
This media is not supported in your browser
VIEW IN TELEGRAM
Интересную вещь сделали в Blendbox

Есть генерация в реальном времени, где рисуешь «что-то», и это «что-то» превращается в то, что напишешь в промпте. В Blendbox пошли чуть-чуть дальше добавив генерацию отдельных предметов и редактор со слоями — и всё это с генерацией в реальном времени

По сути, можно создать каждую деталь изображения отдельно и из этого составить любую композицию, исключая случайности в результате

Можно смешивать сложные идеи, перетаскивая их друг на друга, исследовать новые художественные стили и видеть, как они по-новому влияют на всё изображение

Это нужно, когда хочется именно творить и визуализировать, задействуя своё воображение и управляя каждой деталью. Такой себе «фотошоп нового времени»

Бесплатно попробовать не получится (почему-то?!), нужна подписка от $3,5
This media is not supported in your browser
VIEW IN TELEGRAM
Наше видение человека, который прошел образовательный проект А::Й / Видео — это специалист (ИИ-режиссер), который не просто создает визуальный контент с помощью нейросетей, а делает это осознанно, ориентируясь на идею и смысл

Он понимает основы драматургии, умеет превратить любой замысел в продуманный визуал и точно знает, как выразить задуманное через кадр и визуальную подачу

Он ежедневно развивает свой визуальный вкус и насмотренность, что помогает ему чувствовать эстетику и использовать ее в своих проектах

Этот специалист умеет управлять процессом генерации, получает предсказуемые результаты и контролирует их качество

Он понимает, какие кинематографические приемы можно применить в создании видео и как использовать монтаж так, чтобы поддерживать драматургическое напряжение, динамику и ритм

В своих работах он ставит на первое место смысл, идею и посыл, благодаря чему зритель ощущает эмоции и погружается в суть истории

Мы уже во всю готовимся к старту А::Й / Видео, а оно уже 15 ноября.
Еще 2 дня будет действовать промокод на 7% — АЙВИДЕО7


Вот сайт с подробностями — byai.ru
ИИ в 3D

Инструмент Meshcapade из текста создает болванку тела с любыми движениями. Инструмент из загруженного реального видео с человеком фиксирует его движения создавая мокап. А если к этому сверху добавить рендер video-to-video от gen3, то какие творческие штуки можно делать, кто мне скажет?

Пока это самая недооцененная связка и мало кто понимает, как это внедрять в свои проекты, возможно, когда можно будет video-to-video делать из референса изображения, чтобы сохранялся нужный стиль — к этому будет больше внимания

Учитывая, что у Runway скоро появится act two, где можно будет не только голову анимировать но и задействовать туловище — к этому будет еще больше внимания
Потестил обучение Lora в KREA на примере стиля мультфильма про обезьяну Бу ютуб-канала амоБлог

Обучал именно стилю рисовки и сгенерировал пачку изображений по моему любимому промпту для исследований — «a film that no one has ever done before»

В моем датасете было много скринов с самой обезьяной, поэтому при генерациях нейросеть пыталась добавить её тоже, но поскольку я обучал именно на стиле, а не на персонаже, Бу не получился похожим сам на себя. В следующий раз попробую обучить модель именно на обезьяне Бу

Я понял, что чем разнообразнее будет датасет, тем больше разнообразия в результатах генерации. Хотя промпт у меня абстрактный, в композиции кадра заметна схожесть с датасетом и многодетальность, кроме самого стиля, конечно. При генерации я ставил силу стиля на 90% (примерно на глаз), чтобы немного подмешивались стили из оригинального датасета. Очень не хватает функции инпейнта, чтобы исправлять мелкие косяки в удачных генерациях прямо в одном интерфейсе, как в Midjourney. Ну и я предполагаю из за «киношного промпта», большинство генераций у меня получились темными

Lora обучается на модели Flux. Нужно минимум 3 изображения, я загрузил 25 шт. Обучение проходит быстро, за минут 7. Нужна подписка за $10

При генерации можно миксовать модели, например, стиль + персонаж или объект

Короче, штука не новая, и в Midjourney можно легко такое генерить, указывая ссылки на стиль, персонажа и композицию.

Вот сайт https://www.krea.ai/train , код для входа EARLYBIRD
На каждую «лучшую технологию» найдется еще лучше

У Runway's Act-One и у Live Portrаit есть несколько проблем, они не могут передавать быстрые движения головы и резкие повороты, незначительные изменения выражения лица и более сильные эмоции

А китайская модель X-Portrait 2 может! Китайцы первые во всем мире всего, что касается видео технологий. Потому что с генерацией текста и изображений они опоздали, а вот с генерацией видео решили уже не тупить. Они буквально ждут, пока какой нибудь Runway выпустит новую функцию, а затем делают ее лучше, намного лучше на «следующий день»

И так, у X-Portrait 2 получается более выразительная эмоция, плавная анимация с выражением лица, синхронизация губ реального фото и анимационного персонажа. Никаких проблем с быстрым разговором и боковым профилем

Очень интересно! Пока есть только рабочий док по технологии, но есть первая версия X-Portrait, которую уже можно попробовать
2025/07/03 14:02:03
Back to Top
HTML Embed Code: