Qwen Image
Новый открытый генератор картинок от китайцев из Alibaba — они не перестают закидывать нас релизами. Помимо просто генерации картинок, модель очень хорошо умеет в текст и редактирование изображений, на уровне или лучше GPT 4o и FLUX Kontext.
Технически это MMDiT (как Stable Diffusion 3 или FLUX.1) на 20B параметров, что прямо много для консьюмерских карточек, но посмотрим что смогут сделать умельцы. Для редактирования используют чуть более продвинутую версию подхода из FLUX Kontext — модели так же дают увидеть изначальное изображение в процессе редактирования, но ввели свою схему для positional encoding.
Эта модель явно в канве работ над омни моделями, надеюсь Qwen 4/Qwen 5 будут полноценным мультимодальным претрейном. Кроме весов выложили и детальный техрепорт о тренировке модели, который я разберу где-то на днях.
Веса
Блогпост
Техрепорт
@ai_newz
Новый открытый генератор картинок от китайцев из Alibaba — они не перестают закидывать нас релизами. Помимо просто генерации картинок, модель очень хорошо умеет в текст и редактирование изображений, на уровне или лучше GPT 4o и FLUX Kontext.
Технически это MMDiT (как Stable Diffusion 3 или FLUX.1) на 20B параметров, что прямо много для консьюмерских карточек, но посмотрим что смогут сделать умельцы. Для редактирования используют чуть более продвинутую версию подхода из FLUX Kontext — модели так же дают увидеть изначальное изображение в процессе редактирования, но ввели свою схему для positional encoding.
Эта модель явно в канве работ над омни моделями, надеюсь Qwen 4/Qwen 5 будут полноценным мультимодальным претрейном. Кроме весов выложили и детальный техрепорт о тренировке модели, который я разберу где-то на днях.
Веса
Блогпост
Техрепорт
@ai_newz
1🔥137👍31❤27🤩3⚡1
tgoop.com/ai_newz/4079
Create:
Last Update:
Last Update:
Qwen Image
Новый открытый генератор картинок от китайцев из Alibaba — они не перестают закидывать нас релизами. Помимо просто генерации картинок, модель очень хорошо умеет в текст и редактирование изображений, на уровне или лучше GPT 4o и FLUX Kontext.
Технически это MMDiT (как Stable Diffusion 3 или FLUX.1) на 20B параметров, что прямо много для консьюмерских карточек, но посмотрим что смогут сделать умельцы. Для редактирования используют чуть более продвинутую версию подхода из FLUX Kontext — модели так же дают увидеть изначальное изображение в процессе редактирования, но ввели свою схему для positional encoding.
Эта модель явно в канве работ над омни моделями, надеюсь Qwen 4/Qwen 5 будут полноценным мультимодальным претрейном. Кроме весов выложили и детальный техрепорт о тренировке модели, который я разберу где-то на днях.
Веса
Блогпост
Техрепорт
@ai_newz
Новый открытый генератор картинок от китайцев из Alibaba — они не перестают закидывать нас релизами. Помимо просто генерации картинок, модель очень хорошо умеет в текст и редактирование изображений, на уровне или лучше GPT 4o и FLUX Kontext.
Технически это MMDiT (как Stable Diffusion 3 или FLUX.1) на 20B параметров, что прямо много для консьюмерских карточек, но посмотрим что смогут сделать умельцы. Для редактирования используют чуть более продвинутую версию подхода из FLUX Kontext — модели так же дают увидеть изначальное изображение в процессе редактирования, но ввели свою схему для positional encoding.
Эта модель явно в канве работ над омни моделями, надеюсь Qwen 4/Qwen 5 будут полноценным мультимодальным претрейном. Кроме весов выложили и детальный техрепорт о тренировке модели, который я разберу где-то на днях.
Веса
Блогпост
Техрепорт
@ai_newz
BY эйай ньюз



Share with your friend now:
tgoop.com/ai_newz/4079