Warning: Undefined array key 0 in /var/www/tgoop/function.php on line 65

Warning: Trying to access array offset on value of type null in /var/www/tgoop/function.php on line 65
- Telegram Web
Telegram Web
🥳 GHOST 2.0 — первая open source модель переноса головы от Sber AI 🥳

Мы с командой давно занимаемся задачей переноса лиц. Так, ещё в январе 2022 года выпускали свою faceswap-модель GHOST (habr, github), которая умела делать трансфер лиц ровно с одного фото на другое фото или даже видео. Однако в логике, где мы заменяем лишь область лица, есть несколько существенных ограничений — самое главное из них состоит в том, что для качественного переноса source (фото, откуда переносим лицо) и target (фото или видео, куда переносим лицо) должны быть очень похожи. Если это условие не соблюдается (а в реальности так и происходит), то это сильно влияет в негативную сторону на восприятие лица после переноса. Именно поэтому тогда мы не остановили исследования и начали смотреть в сторону создания технологии переноса головы целиком.

Сегодня рад рассказать, что мы выпустили первую open source модель переноса головы (headswap) GHOST 2.0 (и теперь GHOST как и Kandinsky стал семейством моделей! 🎉)

Архитектура GHOST 2.0 включает две составляющих:
🫥 Aligner для реконструкции положения головы и трансфера выражения лица с головы-источника (это по факту GAN, см. картинку во вложении)
🫥 Blender для органичной "вставки" головы в target (целевое) изображение с сохранением свойств окружения (чтобы освещение и контраст совпадали, а также дорисовались области-лакуны, которые возникли при переносе)

Мы проделали большой объём работы, исследуя механизмы блендинга и аугментации данных при обучении (и самые разные другие вопросы). И в итоге, как и водится, наша модель смогла превзойти по ряду метрик основные проприетарные модели в разных разрешениях, например, HeSer (см. таблички со сравнениями).

Для более глубокого погружения и использования модели GHOST 2.0 советую изучить следующие материалы:
👉 Habr (почитать научно-популярно на русском): https://habr.com/ru/companies/sberbank/articles/884780/
👉 Project page (посмотреть примеры генераций и узнать кратко про архитектуру): https://ai-forever.github.io/ghost-2.0/
👉 Technical report (почитать на английском в более научном ключе, с метриками и подробным сетапом экспериментов): https://arxiv.org/abs/2502.18417
👉 Demo (протестировать модель): https://huggingface.co/spaces/ai-forever/GHOST-2.0
👉 Github (код модели): https://github.com/ai-forever/ghost-2.0

@dendi_math_ai
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥21👍533❤‍🔥1
Dendi Math&AI
🥳 GHOST 2.0 — первая open source модель переноса головы от Sber AI 🥳 Мы с командой давно занимаемся задачей переноса лиц. Так, ещё в январе 2022 года выпускали свою faceswap-модель GHOST (habr, github), которая умела делать трансфер лиц ровно с одного фото…
🤗 Кстати говоря, сегодня номинировали статью на Paper of the day на Hugging Face — буду благодарен за ваши upvote голоса (тем более осталось уже совсем немного до #1):
https://huggingface.co/papers/2502.18417

UPD: Спасибо всем большое, теперь стали #1!
💪
❤‍🔥83🔥3👍2
Forwarded from RnD CV Team
🙋‍♀️ Всем привет! В предыдущем посте мы уже рассказывали, как наш датасет EasyPortrait помог коллегам при создании модели GHOST 2.0.

⚡️ А на прошлой неделе наша команда приезжала в Португалию на конференцию VISIGRAPP '25, где представляла статью EasyPortrait — Face Parsing and Portrait Segmentation Dataset.

🚀 Конференция прошла 26-28 февраля в городе Порту, и за 3 дня на ней было представлено больше 200 статей. На конференции мы услышали обратную связь от сообщества, пообщались с коллегами из других стран, а также послушали множество докладов других участников.

📖 ArXiv: https://arxiv.org/abs/2304.13509
👩‍💻 GitHub: https://github.com/hukenovs/easyportrait
🔑 kaggle: https://www.kaggle.com/datasets/kapitanov/easyportrait

#news
Please open Telegram to view this post
VIEW IN TELEGRAM
10👍6👌1🫡1
Мы с командой опубликовали статью "NABLA: Neighborhood Adaptive Block-Level Attention"

Модели генерации видео сейчас развиваются стремительно — например, Veo 3, Seedance 1.0, Kling 2.1 показывают феноменальное качество следования запросу, визуала и динамики (а иногда даже поражают тем, как воспроизводят «физику» сложных движений и сцен). Однако как и во всех трансформерных архитектурах (а почти все серьёзные модели генерации видео сейчас являются диффузионными трансформерами), квадратичная сложность full attention остаётся узким местом, особенно при работе с видео высокого разрешения (HD, Full HD и выше) и большой продолжительности (10+ секунд). А ведь только такие видео сейчас хочет видеть искушённый пользователь 😁

Наша статья предлагает новый механизм блочно-разреженного внимания для диффузионных трансформеров: вместо вычисления всей маски внимания (Full Attention) можно эффективно обнаружить только наиболее важные её блоки — и после этого вычисления производить только для них (при этом почти не «просадив», а на некоторых доменах даже улучшив качество всей модели). Алгоритм — на картинке в первом комментарии к этому посту (а подробности можно изучить в самой статье)

Экспериментально проверили, что метод позволяет ускорить инференс модели Wan2.1-T2V-14B (на текущий момент это одна из лучших открытых моделей генерации видео) почти в 3 раза при сопоставимых показателях качества (благодаря спарсификации 80-90%, практически без просадки по качеству). Также NABLA сильно бустит и обучение/инференс новой модели Kandinsky на высоких разрешениях — о чём напишу немного позже 😉

Что ещё важно: наш метод не требует написания специальных CUDA-ядер и полностью совместим с Flex Attention из PyTorch

Статью можно изучить на Hugging Face: https://huggingface.co/papers/2507.13546. А также сделать upvote, если статья показалась полезной — буду очень благодарен :)

@dendi_math_ai
🔥44👍9👏85😁1
Всем привет!

Сегодня в 11:30 буду выступать на AI R&D Day с докладом про одну из самых горячих (и красивых) тем в области Generative AI последнего времени – генерацию изображений и видео 🔥

Модели синтеза визуального контента развиваются с бешеной скоростью: они становятся умнее, их генерации реалистичнее и «физичнее», но при этом ещё остается много исследовательских вопросов и инженерных сложностей, связанных, например, с процессом обучения такого рода моделей.

В докладе:
👉 обсудим разные аспекты диффузионного процесса, его преимущества и недостатки;
👉 разберёмся с задачей генерации изображений/видео по текстовому описанию, затронем основные трудности обучения и сложности оценивания качества генеративных моделей такого рода;
👉 расскажу о последних архитектурах Kandinsky, особенностях их обучения, нюансах сбора и фильтрации данных;
👉 поговорим немного о моделях мира и о их связи с text-to-video моделями;
👉 обсудим применения моделей генерации изображений/видео и их потенциал в настоящем и будущем.

В общем, будет максимально по делу, с живыми примерами и возможностью задать вопросы лично 🙂

📅 24 сентября 11:30
📍 AI R&D Day (оффлайн и онлайн)
👉 Регистрируйтесь по ссылке и увидимся на конференции!

@dendi_math_ai
👍11🔥103👌3
🎬 Kandinsky 5.0 Video Lite — новая open source модель генерации видео 🎬

Мы выпускаем Kandinsky 5.0 Video Lite — первую модель новой линейки Kandinsky-5. Модель работает в разрешении 768×512 и при небольшом размере всего в 2B параметров демонстрирует качество, превосходящее предыдущие версии Kandinsky и большую часть актуальных открытых open source решений

Генерация видео до сих пор остаётся одной из самых сложных инженерных задач в Generative AI. Причём и как с точки зрения подготовки данных для обучения и распределённого обучения моделей, а затем масштабирования, так и с точки зрения инференса такого рода архитектур. Если картинки уже можно делать фотореалистичными даже на «бытовом» железе, то качественные видео в высоких разрешениях до сих пор можно сгенерировать только большими моделями, которые запускаются на топовых GPU

Мы решили это изменить и при разработке сделать ключевой акцент на эффективности: модель Lite компактна, требует меньше ресурсов и генерирует быстрее. Такой результат стал возможен благодаря комплексной работе — от сбора и подготовки данных до инженерных оптимизаций pre-train и сбора качественных данных для SFT. Мы исследовали современные методы оптимизации архитектур и применили собственные наработки для балансировки качества и скорости

⚡️В открытый доступ мы выкладываем следующие чекпоинты (для генерации 5 сек и 10 сек видео):
💡 SFT: максимальное качество (она же основная Kandinsky 5.0 Video Lite)
💡 CFG-distilled: x2 быстрее
💡 Diffusion-distilled: x6 быстрее при минимальной потере качества
💡 Pretrain: для исследований и дообучения

⚡️Некоторые технические детали:
💡Архитектура основана на Diffusion Transformer (DiT) с flow matching (подробнее см. Хабр)
💡Pre-train модели осуществлялся примерно на 520 млн изображений и 125 млн видео-сцен
💡Делали упор на Alignment (в частности, SFT) на качественных визуальных данных, предварительно отобранных большой командой профессиональных художников и дизайнеров. Этот этап дал самый большой прирост по визуальному качеству
💡Для 10-секундной генерации используется разработанный нами метод разреженного внимания NABLA

⚡️По внутренним замерам SFT версия (5 сек) превосходит по общему качеству (которое включает в себя оценку качества следования промпту, визуала и динамики) гораздо более громоздкие модели, такие как Wan 2.1 14B, Wan 2.2 5B и оригинальную Sora, и сравнима по визуальному качеству с моделью Wan 2.2 A14B, которая больше Kandinsky в 13-14 раз. При этом генерации 10 сек версий также демонстрируют высокое качество и стабильность

⚡️Где и как можно потестить:
💡Моделями можно воспользоваться, записавшись в вайтлист бота (к сожалению, только для ограниченного количества пользователей)
💡Все материалы есть на HuggingFace, GitHub и GitVerse, также есть ComfyUI
💡Модели распространяются по открытой лицензии с поддержкой коммерческого использования

И ещё раз все полезные ссылки в одном месте:

👉 Хабр (технические подробности)
👉 Project Page (демо)
👉 Github (код)
👉 Hugging Face (чекпоинты)
👉 GitVerse (код)
👉 NABLA (paper)
👉 Бот для записи в вайтлист

@dendi_math_ai
🔥36👍97👏3🕊1
2025/10/11 23:09:39
Back to Top
HTML Embed Code: