🥳 GHOST 2.0 — первая open source модель переноса головы от Sber AI 🥳
Мы с командой давно занимаемся задачей переноса лиц. Так, ещё в январе 2022 года выпускали свою faceswap-модель GHOST (habr, github), которая умела делать трансфер лиц ровно с одного фото на другое фото или даже видео. Однако в логике, где мы заменяем лишь область лица, есть несколько существенных ограничений — самое главное из них состоит в том, что для качественного переноса source (фото, откуда переносим лицо) и target (фото или видео, куда переносим лицо) должны быть очень похожи. Если это условие не соблюдается (а в реальности так и происходит), то это сильно влияет в негативную сторону на восприятие лица после переноса. Именно поэтому тогда мы не остановили исследования и начали смотреть в сторону создания технологии переноса головы целиком.
Сегодня рад рассказать, что мы выпустили первую open source модель переноса головы (headswap) GHOST 2.0 (и теперь GHOST как и Kandinsky стал семейством моделей! 🎉)
Архитектура GHOST 2.0 включает две составляющих:
🫥 Aligner для реконструкции положения головы и трансфера выражения лица с головы-источника (это по факту GAN, см. картинку во вложении)
🫥 Blender для органичной "вставки" головы в target (целевое) изображение с сохранением свойств окружения (чтобы освещение и контраст совпадали, а также дорисовались области-лакуны, которые возникли при переносе)
Мы проделали большой объём работы, исследуя механизмы блендинга и аугментации данных при обучении (и самые разные другие вопросы). И в итоге, как и водится, наша модель смогла превзойти по ряду метрик основные проприетарные модели в разных разрешениях, например, HeSer (см. таблички со сравнениями).
Для более глубокого погружения и использования модели GHOST 2.0 советую изучить следующие материалы:
👉 Habr (почитать научно-популярно на русском): https://habr.com/ru/companies/sberbank/articles/884780/
👉 Project page (посмотреть примеры генераций и узнать кратко про архитектуру): https://ai-forever.github.io/ghost-2.0/
👉 Technical report (почитать на английском в более научном ключе, с метриками и подробным сетапом экспериментов): https://arxiv.org/abs/2502.18417
👉 Demo (протестировать модель): https://huggingface.co/spaces/ai-forever/GHOST-2.0
👉 Github (код модели): https://github.com/ai-forever/ghost-2.0
@dendi_math_ai
Мы с командой давно занимаемся задачей переноса лиц. Так, ещё в январе 2022 года выпускали свою faceswap-модель GHOST (habr, github), которая умела делать трансфер лиц ровно с одного фото на другое фото или даже видео. Однако в логике, где мы заменяем лишь область лица, есть несколько существенных ограничений — самое главное из них состоит в том, что для качественного переноса source (фото, откуда переносим лицо) и target (фото или видео, куда переносим лицо) должны быть очень похожи. Если это условие не соблюдается (а в реальности так и происходит), то это сильно влияет в негативную сторону на восприятие лица после переноса. Именно поэтому тогда мы не остановили исследования и начали смотреть в сторону создания технологии переноса головы целиком.
Сегодня рад рассказать, что мы выпустили первую open source модель переноса головы (headswap) GHOST 2.0 (и теперь GHOST как и Kandinsky стал семейством моделей! 🎉)
Архитектура GHOST 2.0 включает две составляющих:
Мы проделали большой объём работы, исследуя механизмы блендинга и аугментации данных при обучении (и самые разные другие вопросы). И в итоге, как и водится, наша модель смогла превзойти по ряду метрик основные проприетарные модели в разных разрешениях, например, HeSer (см. таблички со сравнениями).
Для более глубокого погружения и использования модели GHOST 2.0 советую изучить следующие материалы:
👉 Habr (почитать научно-популярно на русском): https://habr.com/ru/companies/sberbank/articles/884780/
👉 Project page (посмотреть примеры генераций и узнать кратко про архитектуру): https://ai-forever.github.io/ghost-2.0/
👉 Technical report (почитать на английском в более научном ключе, с метриками и подробным сетапом экспериментов): https://arxiv.org/abs/2502.18417
👉 Demo (протестировать модель): https://huggingface.co/spaces/ai-forever/GHOST-2.0
👉 Github (код модели): https://github.com/ai-forever/ghost-2.0
@dendi_math_ai
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥21👍5❤3☃3❤🔥1
Dendi Math&AI
🥳 GHOST 2.0 — первая open source модель переноса головы от Sber AI 🥳 Мы с командой давно занимаемся задачей переноса лиц. Так, ещё в январе 2022 года выпускали свою faceswap-модель GHOST (habr, github), которая умела делать трансфер лиц ровно с одного фото…
🤗 Кстати говоря, сегодня номинировали статью на Paper of the day на Hugging Face — буду благодарен за ваши upvote голоса (тем более осталось уже совсем немного до #1):
https://huggingface.co/papers/2502.18417
UPD: Спасибо всем большое, теперь стали #1! 💪
https://huggingface.co/papers/2502.18417
UPD: Спасибо всем большое, теперь стали #1! 💪
❤🔥8❤3🔥3👍2
Forwarded from RnD CV Team
🙋♀️ Всем привет! В предыдущем посте мы уже рассказывали, как наш датасет EasyPortrait помог коллегам при создании модели GHOST 2.0.
⚡️ А на прошлой неделе наша команда приезжала в Португалию на конференцию VISIGRAPP '25, где представляла статью EasyPortrait — Face Parsing and Portrait Segmentation Dataset.
🚀 Конференция прошла 26-28 февраля в городе Порту, и за 3 дня на ней было представлено больше 200 статей. На конференции мы услышали обратную связь от сообщества, пообщались с коллегами из других стран, а также послушали множество докладов других участников.
📖 ArXiv: https://arxiv.org/abs/2304.13509
👩💻 GitHub: https://github.com/hukenovs/easyportrait
🔑 kaggle: https://www.kaggle.com/datasets/kapitanov/easyportrait
#news
⚡️ А на прошлой неделе наша команда приезжала в Португалию на конференцию VISIGRAPP '25, где представляла статью EasyPortrait — Face Parsing and Portrait Segmentation Dataset.
🚀 Конференция прошла 26-28 февраля в городе Порту, и за 3 дня на ней было представлено больше 200 статей. На конференции мы услышали обратную связь от сообщества, пообщались с коллегами из других стран, а также послушали множество докладов других участников.
#news
Please open Telegram to view this post
VIEW IN TELEGRAM
❤10👍6👌1🫡1
⚡Мы с командой опубликовали статью "NABLA: Neighborhood Adaptive Block-Level Attention"
Модели генерации видео сейчас развиваются стремительно — например, Veo 3, Seedance 1.0, Kling 2.1 показывают феноменальное качество следования запросу, визуала и динамики (а иногда даже поражают тем, как воспроизводят «физику» сложных движений и сцен). Однако как и во всех трансформерных архитектурах (а почти все серьёзные модели генерации видео сейчас являются диффузионными трансформерами), квадратичная сложность full attention остаётся узким местом, особенно при работе с видео высокого разрешения (HD, Full HD и выше) и большой продолжительности (10+ секунд). А ведь только такие видео сейчас хочет видеть искушённый пользователь 😁
Наша статья предлагает новый механизм блочно-разреженного внимания для диффузионных трансформеров: вместо вычисления всей маски внимания (Full Attention) можно эффективно обнаружить только наиболее важные её блоки — и после этого вычисления производить только для них (при этом почти не «просадив», а на некоторых доменах даже улучшив качество всей модели). Алгоритм — на картинке в первом комментарии к этому посту (а подробности можно изучить в самой статье)
Экспериментально проверили, что метод позволяет ускорить инференс модели Wan2.1-T2V-14B (на текущий момент это одна из лучших открытых моделей генерации видео) почти в 3 раза при сопоставимых показателях качества (благодаря спарсификации 80-90%, практически без просадки по качеству). Также NABLA сильно бустит и обучение/инференс новой модели Kandinsky на высоких разрешениях — о чём напишу немного позже 😉
Что ещё важно: наш метод не требует написания специальных CUDA-ядер и полностью совместим с Flex Attention из PyTorch
Статью можно изучить на Hugging Face: https://huggingface.co/papers/2507.13546. А также сделать upvote, если статья показалась полезной — буду очень благодарен :)
@dendi_math_ai
Модели генерации видео сейчас развиваются стремительно — например, Veo 3, Seedance 1.0, Kling 2.1 показывают феноменальное качество следования запросу, визуала и динамики (а иногда даже поражают тем, как воспроизводят «физику» сложных движений и сцен). Однако как и во всех трансформерных архитектурах (а почти все серьёзные модели генерации видео сейчас являются диффузионными трансформерами), квадратичная сложность full attention остаётся узким местом, особенно при работе с видео высокого разрешения (HD, Full HD и выше) и большой продолжительности (10+ секунд). А ведь только такие видео сейчас хочет видеть искушённый пользователь 😁
Наша статья предлагает новый механизм блочно-разреженного внимания для диффузионных трансформеров: вместо вычисления всей маски внимания (Full Attention) можно эффективно обнаружить только наиболее важные её блоки — и после этого вычисления производить только для них (при этом почти не «просадив», а на некоторых доменах даже улучшив качество всей модели). Алгоритм — на картинке в первом комментарии к этому посту (а подробности можно изучить в самой статье)
Экспериментально проверили, что метод позволяет ускорить инференс модели Wan2.1-T2V-14B (на текущий момент это одна из лучших открытых моделей генерации видео) почти в 3 раза при сопоставимых показателях качества (благодаря спарсификации 80-90%, практически без просадки по качеству). Также NABLA сильно бустит и обучение/инференс новой модели Kandinsky на высоких разрешениях — о чём напишу немного позже 😉
Что ещё важно: наш метод не требует написания специальных CUDA-ядер и полностью совместим с Flex Attention из PyTorch
Статью можно изучить на Hugging Face: https://huggingface.co/papers/2507.13546. А также сделать upvote, если статья показалась полезной — буду очень благодарен :)
@dendi_math_ai
🔥44👍9👏8❤5😁1
Всем привет!
Сегодня в 11:30 буду выступать на AI R&D Day с докладом про одну из самых горячих (и красивых) тем в области Generative AI последнего времени – генерацию изображений и видео 🔥
Модели синтеза визуального контента развиваются с бешеной скоростью: они становятся умнее, их генерации реалистичнее и «физичнее», но при этом ещё остается много исследовательских вопросов и инженерных сложностей, связанных, например, с процессом обучения такого рода моделей.
В докладе:
👉 обсудим разные аспекты диффузионного процесса, его преимущества и недостатки;
👉 разберёмся с задачей генерации изображений/видео по текстовому описанию, затронем основные трудности обучения и сложности оценивания качества генеративных моделей такого рода;
👉 расскажу о последних архитектурах Kandinsky, особенностях их обучения, нюансах сбора и фильтрации данных;
👉 поговорим немного о моделях мира и о их связи с text-to-video моделями;
👉 обсудим применения моделей генерации изображений/видео и их потенциал в настоящем и будущем.
В общем, будет максимально по делу, с живыми примерами и возможностью задать вопросы лично 🙂
📅 24 сентября 11:30
📍 AI R&D Day (оффлайн и онлайн)
👉 Регистрируйтесь по ссылке и увидимся на конференции!
@dendi_math_ai
Сегодня в 11:30 буду выступать на AI R&D Day с докладом про одну из самых горячих (и красивых) тем в области Generative AI последнего времени – генерацию изображений и видео 🔥
Модели синтеза визуального контента развиваются с бешеной скоростью: они становятся умнее, их генерации реалистичнее и «физичнее», но при этом ещё остается много исследовательских вопросов и инженерных сложностей, связанных, например, с процессом обучения такого рода моделей.
В докладе:
👉 обсудим разные аспекты диффузионного процесса, его преимущества и недостатки;
👉 разберёмся с задачей генерации изображений/видео по текстовому описанию, затронем основные трудности обучения и сложности оценивания качества генеративных моделей такого рода;
👉 расскажу о последних архитектурах Kandinsky, особенностях их обучения, нюансах сбора и фильтрации данных;
👉 поговорим немного о моделях мира и о их связи с text-to-video моделями;
👉 обсудим применения моделей генерации изображений/видео и их потенциал в настоящем и будущем.
В общем, будет максимально по делу, с живыми примерами и возможностью задать вопросы лично 🙂
📅 24 сентября 11:30
📍 AI R&D Day (оффлайн и онлайн)
👉 Регистрируйтесь по ссылке и увидимся на конференции!
@dendi_math_ai
👍11🔥10❤3👌3
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🎬 Kandinsky 5.0 Video Lite — новая open source модель генерации видео 🎬
Мы выпускаем Kandinsky 5.0 Video Lite — первую модель новой линейки Kandinsky-5. Модель работает в разрешении 768×512 и при небольшом размере всего в 2B параметров демонстрирует качество, превосходящее предыдущие версии Kandinsky и большую часть актуальных открытых open source решений
Генерация видео до сих пор остаётся одной из самых сложных инженерных задач в Generative AI. Причём и как с точки зрения подготовки данных для обучения и распределённого обучения моделей, а затем масштабирования, так и с точки зрения инференса такого рода архитектур. Если картинки уже можно делать фотореалистичными даже на «бытовом» железе, то качественные видео в высоких разрешениях до сих пор можно сгенерировать только большими моделями, которые запускаются на топовых GPU
Мы решили это изменить и при разработке сделать ключевой акцент на эффективности: модель Lite компактна, требует меньше ресурсов и генерирует быстрее. Такой результат стал возможен благодаря комплексной работе — от сбора и подготовки данных до инженерных оптимизаций pre-train и сбора качественных данных для SFT. Мы исследовали современные методы оптимизации архитектур и применили собственные наработки для балансировки качества и скорости
⚡️В открытый доступ мы выкладываем следующие чекпоинты (для генерации 5 сек и 10 сек видео):
💡 SFT: максимальное качество (она же основная Kandinsky 5.0 Video Lite)
💡 CFG-distilled: x2 быстрее
💡 Diffusion-distilled: x6 быстрее при минимальной потере качества
💡 Pretrain: для исследований и дообучения
⚡️Некоторые технические детали:
💡Архитектура основана на Diffusion Transformer (DiT) с flow matching (подробнее см. Хабр)
💡Pre-train модели осуществлялся примерно на 520 млн изображений и 125 млн видео-сцен
💡Делали упор на Alignment (в частности, SFT) на качественных визуальных данных, предварительно отобранных большой командой профессиональных художников и дизайнеров. Этот этап дал самый большой прирост по визуальному качеству
💡Для 10-секундной генерации используется разработанный нами метод разреженного внимания NABLA
⚡️По внутренним замерам SFT версия (5 сек) превосходит по общему качеству (которое включает в себя оценку качества следования промпту, визуала и динамики) гораздо более громоздкие модели, такие как Wan 2.1 14B, Wan 2.2 5B и оригинальную Sora, и сравнима по визуальному качеству с моделью Wan 2.2 A14B, которая больше Kandinsky в 13-14 раз. При этом генерации 10 сек версий также демонстрируют высокое качество и стабильность
⚡️Где и как можно потестить:
💡Моделями можно воспользоваться, записавшись в вайтлист бота (к сожалению, только для ограниченного количества пользователей)
💡Все материалы есть на HuggingFace, GitHub и GitVerse, также есть ComfyUI
💡Модели распространяются по открытой лицензии с поддержкой коммерческого использования
И ещё раз все полезные ссылки в одном месте:
👉 Хабр (технические подробности)
👉 Project Page (демо)
👉 Github (код)
👉 Hugging Face (чекпоинты)
👉 GitVerse (код)
👉 NABLA (paper)
👉 Бот для записи в вайтлист
@dendi_math_ai
Мы выпускаем Kandinsky 5.0 Video Lite — первую модель новой линейки Kandinsky-5. Модель работает в разрешении 768×512 и при небольшом размере всего в 2B параметров демонстрирует качество, превосходящее предыдущие версии Kandinsky и большую часть актуальных открытых open source решений
Генерация видео до сих пор остаётся одной из самых сложных инженерных задач в Generative AI. Причём и как с точки зрения подготовки данных для обучения и распределённого обучения моделей, а затем масштабирования, так и с точки зрения инференса такого рода архитектур. Если картинки уже можно делать фотореалистичными даже на «бытовом» железе, то качественные видео в высоких разрешениях до сих пор можно сгенерировать только большими моделями, которые запускаются на топовых GPU
Мы решили это изменить и при разработке сделать ключевой акцент на эффективности: модель Lite компактна, требует меньше ресурсов и генерирует быстрее. Такой результат стал возможен благодаря комплексной работе — от сбора и подготовки данных до инженерных оптимизаций pre-train и сбора качественных данных для SFT. Мы исследовали современные методы оптимизации архитектур и применили собственные наработки для балансировки качества и скорости
⚡️В открытый доступ мы выкладываем следующие чекпоинты (для генерации 5 сек и 10 сек видео):
💡 SFT: максимальное качество (она же основная Kandinsky 5.0 Video Lite)
💡 CFG-distilled: x2 быстрее
💡 Diffusion-distilled: x6 быстрее при минимальной потере качества
💡 Pretrain: для исследований и дообучения
⚡️Некоторые технические детали:
💡Архитектура основана на Diffusion Transformer (DiT) с flow matching (подробнее см. Хабр)
💡Pre-train модели осуществлялся примерно на 520 млн изображений и 125 млн видео-сцен
💡Делали упор на Alignment (в частности, SFT) на качественных визуальных данных, предварительно отобранных большой командой профессиональных художников и дизайнеров. Этот этап дал самый большой прирост по визуальному качеству
💡Для 10-секундной генерации используется разработанный нами метод разреженного внимания NABLA
⚡️По внутренним замерам SFT версия (5 сек) превосходит по общему качеству (которое включает в себя оценку качества следования промпту, визуала и динамики) гораздо более громоздкие модели, такие как Wan 2.1 14B, Wan 2.2 5B и оригинальную Sora, и сравнима по визуальному качеству с моделью Wan 2.2 A14B, которая больше Kandinsky в 13-14 раз. При этом генерации 10 сек версий также демонстрируют высокое качество и стабильность
⚡️Где и как можно потестить:
💡Моделями можно воспользоваться, записавшись в вайтлист бота (к сожалению, только для ограниченного количества пользователей)
💡Все материалы есть на HuggingFace, GitHub и GitVerse, также есть ComfyUI
💡Модели распространяются по открытой лицензии с поддержкой коммерческого использования
И ещё раз все полезные ссылки в одном месте:
👉 Хабр (технические подробности)
👉 Project Page (демо)
👉 Github (код)
👉 Hugging Face (чекпоинты)
👉 GitVerse (код)
👉 NABLA (paper)
👉 Бот для записи в вайтлист
@dendi_math_ai
🔥36👍9❤7👏3🕊1