- Telegram Web

Dendi Math&AI

🥳 GHOST 2.0 — первая open source модель переноса головы от Sber AI 🥳

Мы с командой давно занимаемся задачей переноса лиц. Так, ещё в январе 2022 года выпускали свою faceswap-модель GHOST (habr, github), которая умела делать трансфер лиц ровно с одного фото на другое фото или даже видео. Однако в логике, где мы заменяем лишь область лица, есть несколько существенных ограничений — самое главное из них состоит в том, что для качественного переноса source (фото, откуда переносим лицо) и target (фото или видео, куда переносим лицо) должны быть очень похожи. Если это условие не соблюдается (а в реальности так и происходит), то это сильно влияет в негативную сторону на восприятие лица после переноса. Именно поэтому тогда мы не остановили исследования и начали смотреть в сторону создания технологии переноса головы целиком.

Сегодня рад рассказать, что мы выпустили первую open source модель переноса головы (headswap) GHOST 2.0 (и теперь GHOST как и Kandinsky стал семейством моделей! 🎉)

Архитектура GHOST 2.0 включает две составляющих:

🫥

Aligner для реконструкции положения головы и трансфера выражения лица с головы-источника (это по факту GAN, см. картинку во вложении)

🫥

Blender для органичной "вставки" головы в target (целевое) изображение с сохранением свойств окружения (чтобы освещение и контраст совпадали, а также дорисовались области-лакуны, которые возникли при переносе)

Мы проделали большой объём работы, исследуя механизмы блендинга и аугментации данных при обучении (и самые разные другие вопросы). И в итоге, как и водится, наша модель смогла превзойти по ряду метрик основные проприетарные модели в разных разрешениях, например, HeSer (см. таблички со сравнениями).

Для более глубокого погружения и использования модели GHOST 2.0 советую изучить следующие материалы:
👉 Habr (почитать научно-популярно на русском): https://habr.com/ru/companies/sberbank/articles/884780/
👉 Project page (посмотреть примеры генераций и узнать кратко про архитектуру): https://ai-forever.github.io/ghost-2.0/
👉 Technical report (почитать на английском в более научном ключе, с метриками и подробным сетапом экспериментов): https://arxiv.org/abs/2502.18417
👉 Demo (протестировать модель): https://huggingface.co/spaces/ai-forever/GHOST-2.0
👉 Github (код модели): https://github.com/ai-forever/ghost-2.0

@dendi_math_ai

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥21👍5❤3☃3❤‍🔥1

3.82K viewsДенис Димитров, 10:25

Dendi Math&AI

🥳 GHOST 2.0 — первая open source модель переноса головы от Sber AI 🥳 Мы с командой давно занимаемся задачей переноса лиц. Так, ещё в январе 2022 года выпускали свою faceswap-модель GHOST (habr, github), которая умела делать трансфер лиц ровно с одного фото…

🤗 Кстати говоря, сегодня номинировали статью на Paper of the day на Hugging Face — буду благодарен за ваши upvote голоса (тем более осталось уже совсем немного до #1):
https://huggingface.co/papers/2502.18417

UPD: Спасибо всем большое, теперь стали #1! 💪

❤‍🔥8❤3🔥3👍2

3.77K viewsДенис Димитров, edited 16:36

Dendi Math&AI

Forwarded from RnD CV Team

🙋‍♀️ Всем привет! В предыдущем посте мы уже рассказывали, как наш датасет EasyPortrait помог коллегам при создании модели GHOST 2.0.

⚡️ А на прошлой неделе наша команда приезжала в Португалию на конференцию VISIGRAPP '25, где представляла статью EasyPortrait — Face Parsing and Portrait Segmentation Dataset.

🚀 Конференция прошла 26-28 февраля в городе Порту, и за 3 дня на ней было представлено больше 200 статей. На конференции мы услышали обратную связь от сообщества, пообщались с коллегами из других стран, а также послушали множество докладов других участников.

📖

ArXiv: https://arxiv.org/abs/2304.13509

👩‍💻

GitHub: https://github.com/hukenovs/easyportrait

🔑

kaggle: https://www.kaggle.com/datasets/kapitanov/easyportrait

#news

Please open Telegram to view this post

VIEW IN TELEGRAM

❤10👍6👌1🫡1

4.3K viewsДенис Димитров, 11:02

Dendi Math&AI

⚡Мы с командой опубликовали статью "NABLA: Neighborhood Adaptive Block-Level Attention"

Модели генерации видео сейчас развиваются стремительно — например, Veo 3, Seedance 1.0, Kling 2.1 показывают феноменальное качество следования запросу, визуала и динамики (а иногда даже поражают тем, как воспроизводят «физику» сложных движений и сцен). Однако как и во всех трансформерных архитектурах (а почти все серьёзные модели генерации видео сейчас являются диффузионными трансформерами), квадратичная сложность full attention остаётся узким местом, особенно при работе с видео высокого разрешения (HD, Full HD и выше) и большой продолжительности (10+ секунд). А ведь только такие видео сейчас хочет видеть искушённый пользователь 😁

Наша статья предлагает новый механизм блочно-разреженного внимания для диффузионных трансформеров: вместо вычисления всей маски внимания (Full Attention) можно эффективно обнаружить только наиболее важные её блоки — и после этого вычисления производить только для них (при этом почти не «просадив», а на некоторых доменах даже улучшив качество всей модели). Алгоритм — на картинке в первом комментарии к этому посту (а подробности можно изучить в самой статье)

Экспериментально проверили, что метод позволяет ускорить инференс модели Wan2.1-T2V-14B (на текущий момент это одна из лучших открытых моделей генерации видео) почти в 3 раза при сопоставимых показателях качества (благодаря спарсификации 80-90%, практически без просадки по качеству). Также NABLA сильно бустит и обучение/инференс новой модели Kandinsky на высоких разрешениях — о чём напишу немного позже 😉

Что ещё важно: наш метод не требует написания специальных CUDA-ядер и полностью совместим с Flex Attention из PyTorch

Статью можно изучить на Hugging Face: https://huggingface.co/papers/2507.13546. А также сделать upvote, если статья показалась полезной — буду очень благодарен :)

@dendi_math_ai

🔥44👍9👏8❤5😁1

6.58K viewsДенис Димитров, edited 21:25

Dendi Math&AI

Всем привет!

Сегодня в 11:30 буду выступать на AI R&D Day с докладом про одну из самых горячих (и красивых) тем в области Generative AI последнего времени – генерацию изображений и видео 🔥

Модели синтеза визуального контента развиваются с бешеной скоростью: они становятся умнее, их генерации реалистичнее и «физичнее», но при этом ещё остается много исследовательских вопросов и инженерных сложностей, связанных, например, с процессом обучения такого рода моделей.

В докладе:
👉 обсудим разные аспекты диффузионного процесса, его преимущества и недостатки;
👉 разберёмся с задачей генерации изображений/видео по текстовому описанию, затронем основные трудности обучения и сложности оценивания качества генеративных моделей такого рода;
👉 расскажу о последних архитектурах Kandinsky, особенностях их обучения, нюансах сбора и фильтрации данных;
👉 поговорим немного о моделях мира и о их связи с text-to-video моделями;
👉 обсудим применения моделей генерации изображений/видео и их потенциал в настоящем и будущем.

В общем, будет максимально по делу, с живыми примерами и возможностью задать вопросы лично 🙂

📅 24 сентября 11:30
📍 AI R&D Day (оффлайн и онлайн)
👉 Регистрируйтесь по ссылке и увидимся на конференции!

@dendi_math_ai

👍11🔥10❤3👌3

1.23K viewsДенис Димитров, edited 01:14

Dendi Math&AI