NEURAL Telegram 10016
Forwarded from Machinelearning
🌟 BLIP3-o: универсальная модель для анализа и генерации изображений.

Salesforce AI Research выпустила BLIP3-o, набор полностью открытых унифицированных мультимодальных моделей, которые могут как понимать, так и генерировать изображения.

Под капотом у BLIP3-o гибрид авторегрессионной модели (генерирует промежуточные семантические признаки) и диффузионного трансформера (он превращает их в изображения).

В ходе работы разработчики провели ряд экспериментов для выбора оптимальной стратеги для архитектуры и обучения. Апробации гипотез показали, что использование CLIP работает эффективнее, чем традиционный VAE.

CLIP создает более компактные и информативные представления, что ускоряет обучение и улучшает качество генерируемых изображений. А flow matching лучше , чем подход с использованием среднеквадратичной ошибки (MSE): инференс в итоге более разнообразный и визуально качественный.

Наилучшие результаты обучения показал подход, при котором модель сначала обучают понимать изображения, а затем замораживают эти навыки, переключаясь на обучение генерации картинок.

На основе этих принципов и были созданы модели BLIP3-o 8B и BLIP3-o 4B.

В оценках по эталонным тестам BLIP3-o 8B набрала 1682.6 на MME-P, 50.6 на MMMU и 0.84 на GenEval. Исследование с оценкой человеком, сравнивающее BLIP3-o с Janus Pro, показало, что BLIP3-o лучше как по визуальному качеству, так и по соответствию промпту.

В будущем Salesforce планирует расширить возможности модели: редактирование существующих изображений, поддержка визуальных диалогов и пошаговая генерация.


🟡Модель
🟡Arxiv
🟡Demo
🟡Датасет
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #MMLM #BLIP3o #Salesforce
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM



tgoop.com/neural/10016
Create:
Last Update:

🌟 BLIP3-o: универсальная модель для анализа и генерации изображений.

Salesforce AI Research выпустила BLIP3-o, набор полностью открытых унифицированных мультимодальных моделей, которые могут как понимать, так и генерировать изображения.

Под капотом у BLIP3-o гибрид авторегрессионной модели (генерирует промежуточные семантические признаки) и диффузионного трансформера (он превращает их в изображения).

В ходе работы разработчики провели ряд экспериментов для выбора оптимальной стратеги для архитектуры и обучения. Апробации гипотез показали, что использование CLIP работает эффективнее, чем традиционный VAE.

CLIP создает более компактные и информативные представления, что ускоряет обучение и улучшает качество генерируемых изображений. А flow matching лучше , чем подход с использованием среднеквадратичной ошибки (MSE): инференс в итоге более разнообразный и визуально качественный.

Наилучшие результаты обучения показал подход, при котором модель сначала обучают понимать изображения, а затем замораживают эти навыки, переключаясь на обучение генерации картинок.

На основе этих принципов и были созданы модели BLIP3-o 8B и BLIP3-o 4B.

В оценках по эталонным тестам BLIP3-o 8B набрала 1682.6 на MME-P, 50.6 на MMMU и 0.84 на GenEval. Исследование с оценкой человеком, сравнивающее BLIP3-o с Janus Pro, показало, что BLIP3-o лучше как по визуальному качеству, так и по соответствию промпту.

В будущем Salesforce планирует расширить возможности модели: редактирование существующих изображений, поддержка визуальных диалогов и пошаговая генерация.


🟡Модель
🟡Arxiv
🟡Demo
🟡Датасет
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #MMLM #BLIP3o #Salesforce

BY Neural Networks | Нейронные сети






Share with your friend now:
tgoop.com/neural/10016

View MORE
Open in Telegram


Telegram News

Date: |

The channel also called on people to turn out for illegal assemblies and listed the things that participants should bring along with them, showing prior planning was in the works for riots. The messages also incited people to hurl toxic gas bombs at police and MTR stations, he added. Deputy District Judge Peter Hui sentenced computer technician Ng Man-ho on Thursday, a month after the 27-year-old, who ran a Telegram group called SUCK Channel, was found guilty of seven charges of conspiring to incite others to commit illegal acts during the 2019 extradition bill protests and subsequent months. How to create a business channel on Telegram? (Tutorial) Telegram Android app: Open the chats list, click the menu icon and select “New Channel.” As five out of seven counts were serious, Hui sentenced Ng to six years and six months in jail.
from us


Telegram Neural Networks | Нейронные сети
FROM American