DENDI_MATH_AI Telegram 88
🎬 Kandinsky 5.0 Video Lite — новая open source модель генерации видео 🎬

Мы выпускаем Kandinsky 5.0 Video Lite — первую модель новой линейки Kandinsky-5. Модель работает в разрешении 768×512 и при небольшом размере всего в 2B параметров демонстрирует качество, превосходящее предыдущие версии Kandinsky и большую часть актуальных открытых open source решений

Генерация видео до сих пор остаётся одной из самых сложных инженерных задач в Generative AI. Причём и как с точки зрения подготовки данных для обучения и распределённого обучения моделей, а затем масштабирования, так и с точки зрения инференса такого рода архитектур. Если картинки уже можно делать фотореалистичными даже на «бытовом» железе, то качественные видео в высоких разрешениях до сих пор можно сгенерировать только большими моделями, которые запускаются на топовых GPU

Мы решили это изменить и при разработке сделать ключевой акцент на эффективности: модель Lite компактна, требует меньше ресурсов и генерирует быстрее. Такой результат стал возможен благодаря комплексной работе — от сбора и подготовки данных до инженерных оптимизаций pre-train и сбора качественных данных для SFT. Мы исследовали современные методы оптимизации архитектур и применили собственные наработки для балансировки качества и скорости

⚡️В открытый доступ мы выкладываем следующие чекпоинты (для генерации 5 сек и 10 сек видео):
💡 SFT: максимальное качество (она же основная Kandinsky 5.0 Video Lite)
💡 CFG-distilled: x2 быстрее
💡 Diffusion-distilled: x6 быстрее при минимальной потере качества
💡 Pretrain: для исследований и дообучения

⚡️Некоторые технические детали:
💡Архитектура основана на Diffusion Transformer (DiT) с flow matching (подробнее см. Хабр)
💡Pre-train модели осуществлялся примерно на 520 млн изображений и 125 млн видео-сцен
💡Делали упор на Alignment (в частности, SFT) на качественных визуальных данных, предварительно отобранных большой командой профессиональных художников и дизайнеров. Этот этап дал самый большой прирост по визуальному качеству
💡Для 10-секундной генерации используется разработанный нами метод разреженного внимания NABLA

⚡️По внутренним замерам SFT версия (5 сек) превосходит по общему качеству (которое включает в себя оценку качества следования промпту, визуала и динамики) гораздо более громоздкие модели, такие как Wan 2.1 14B, Wan 2.2 5B и оригинальную Sora, и сравнима по визуальному качеству с моделью Wan 2.2 A14B, которая больше Kandinsky в 13-14 раз. При этом генерации 10 сек версий также демонстрируют высокое качество и стабильность

⚡️Где и как можно потестить:
💡Моделями можно воспользоваться, записавшись в вайтлист бота (к сожалению, только для ограниченного количества пользователей)
💡Все материалы есть на HuggingFace, GitHub и GitVerse, также есть ComfyUI
💡Модели распространяются по открытой лицензии с поддержкой коммерческого использования

И ещё раз все полезные ссылки в одном месте:

👉 Хабр (технические подробности)
👉 Project Page (демо)
👉 Github (код)
👉 Hugging Face (чекпоинты)
👉 GitVerse (код)
👉 NABLA (paper)
👉 Бот для записи в вайтлист

@dendi_math_ai
🔥38👍109👏3🕊1



tgoop.com/dendi_math_ai/88
Create:
Last Update:

🎬 Kandinsky 5.0 Video Lite — новая open source модель генерации видео 🎬

Мы выпускаем Kandinsky 5.0 Video Lite — первую модель новой линейки Kandinsky-5. Модель работает в разрешении 768×512 и при небольшом размере всего в 2B параметров демонстрирует качество, превосходящее предыдущие версии Kandinsky и большую часть актуальных открытых open source решений

Генерация видео до сих пор остаётся одной из самых сложных инженерных задач в Generative AI. Причём и как с точки зрения подготовки данных для обучения и распределённого обучения моделей, а затем масштабирования, так и с точки зрения инференса такого рода архитектур. Если картинки уже можно делать фотореалистичными даже на «бытовом» железе, то качественные видео в высоких разрешениях до сих пор можно сгенерировать только большими моделями, которые запускаются на топовых GPU

Мы решили это изменить и при разработке сделать ключевой акцент на эффективности: модель Lite компактна, требует меньше ресурсов и генерирует быстрее. Такой результат стал возможен благодаря комплексной работе — от сбора и подготовки данных до инженерных оптимизаций pre-train и сбора качественных данных для SFT. Мы исследовали современные методы оптимизации архитектур и применили собственные наработки для балансировки качества и скорости

⚡️В открытый доступ мы выкладываем следующие чекпоинты (для генерации 5 сек и 10 сек видео):
💡 SFT: максимальное качество (она же основная Kandinsky 5.0 Video Lite)
💡 CFG-distilled: x2 быстрее
💡 Diffusion-distilled: x6 быстрее при минимальной потере качества
💡 Pretrain: для исследований и дообучения

⚡️Некоторые технические детали:
💡Архитектура основана на Diffusion Transformer (DiT) с flow matching (подробнее см. Хабр)
💡Pre-train модели осуществлялся примерно на 520 млн изображений и 125 млн видео-сцен
💡Делали упор на Alignment (в частности, SFT) на качественных визуальных данных, предварительно отобранных большой командой профессиональных художников и дизайнеров. Этот этап дал самый большой прирост по визуальному качеству
💡Для 10-секундной генерации используется разработанный нами метод разреженного внимания NABLA

⚡️По внутренним замерам SFT версия (5 сек) превосходит по общему качеству (которое включает в себя оценку качества следования промпту, визуала и динамики) гораздо более громоздкие модели, такие как Wan 2.1 14B, Wan 2.2 5B и оригинальную Sora, и сравнима по визуальному качеству с моделью Wan 2.2 A14B, которая больше Kandinsky в 13-14 раз. При этом генерации 10 сек версий также демонстрируют высокое качество и стабильность

⚡️Где и как можно потестить:
💡Моделями можно воспользоваться, записавшись в вайтлист бота (к сожалению, только для ограниченного количества пользователей)
💡Все материалы есть на HuggingFace, GitHub и GitVerse, также есть ComfyUI
💡Модели распространяются по открытой лицензии с поддержкой коммерческого использования

И ещё раз все полезные ссылки в одном месте:

👉 Хабр (технические подробности)
👉 Project Page (демо)
👉 Github (код)
👉 Hugging Face (чекпоинты)
👉 GitVerse (код)
👉 NABLA (paper)
👉 Бот для записи в вайтлист

@dendi_math_ai

BY Dendi Math&AI


Share with your friend now:
tgoop.com/dendi_math_ai/88

View MORE
Open in Telegram


Telegram News

Date: |

‘Ban’ on Telegram Telegram Android app: Open the chats list, click the menu icon and select “New Channel.” The Channel name and bio must be no more than 255 characters long When choosing the right name for your Telegram channel, use the language of your target audience. The name must sum up the essence of your channel in 1-3 words. If you’re planning to expand your Telegram audience, it makes sense to incorporate keywords into your name. Invite up to 200 users from your contacts to join your channel
from us


Telegram Dendi Math&AI
FROM American