tgoop.com/ai_machinelearning_big_data/7299
Last Update:
Новый Flux метод, который позволяет переносить и сохранять объекты с одного или нескольких референс изображений.
UNO способна взять несколько разных объектов или персонажей (их фотографии) и собрать их вместе на одном сгенерированном изображении – все объекты сохраняют свою индивидуальность и детали
Популярные методы генерации в основном заточены под одного героя, но UNO ломает этот барьер, решая сразу две ключевые проблемы: масштабируемость данных и ограниченность одним субъектом
Внутри:
🔁 В UNO внедрён специальный механизм позиционных эмбеддингов – Universal Rotary Position Embedding, или по-другому универсальное позиционное кодирование. Зачем это нужно?
Когда модель работает сразу с несколькими визуальными объектами, есть риск перепутать их свойства или положение (так называемая attribute confusion – «путаница атрибутов»). URPE решает эту проблему: оно помогает модели понимать, где какой объект находится и какие черты ему принадлежат, даже если объектов несколько
Гибкость в разрешениях и форматах. Ещё одна крутая особенность UNO – умение генерировать изображения разного размера и соотношения сторон. Модель обучалась на данных нескольких масштабов, поэтому уверенно чувствует себя и в квадратном формате 512×512, и в нестандартных разрешениях вплоть до 704 пикселей
Модель отлично справляется с генерацией персонажей и объектов, сохраняя ключевые особенности сцены — без разрыва между кадрами.
– Код под Apache 2.0
– Модели под CC BY-NC 4.0
– Поддерживается только некоммерческое использование
#ByteDance #opensource