DLINNLP Telegram 1752
MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training
McKinzie et al., [Apple]
arxiv.org/abs/2403.09611

Apple взяла себя в руки и последнее время от них прямо пошли хорошие статье. В этой статье представляют семейство мультимодальных языковых моделей MM1

Научная ценность статьи в большом числе абляционных исследованиях. Авторы приходят к следующим выводам:

Для качества моделей более всего важны следующие вещи (от более важных к менее важным):
1. Разрешение изображений
2. Выбор лосса
3. Размер модели
4. Размер данных

Также выясняют что для few-shot лучше всего моделировать image-text interleave (как Flamingo), а для zero-shot лучше всего image-capiton pairs (как CLIP).

При этом архитектура нейросети минимально влияет на качество. Просто кидайте в трансформер которых подходит вам больше всего. Например когда у вас достаточно хорошая модель с достаточно высоким разрешением изображений не важно как именно вы пулите изображения для передачи в LLM: среднее, attention, или convolusion дают примерно один и тот же результат.

Интересно, что тренировка на тексте (без изображений) значительно улучшает few-shot. Кастательно соотношения данных, из того с чем эксперимертировали в статье лучше всего работает соотношение caption:interleaved:text 5:5:1

Код и веса к сожалению не опубликованы 😓
👍317🔥2👏1



tgoop.com/dlinnlp/1752
Create:
Last Update:

MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training
McKinzie et al., [Apple]
arxiv.org/abs/2403.09611

Apple взяла себя в руки и последнее время от них прямо пошли хорошие статье. В этой статье представляют семейство мультимодальных языковых моделей MM1

Научная ценность статьи в большом числе абляционных исследованиях. Авторы приходят к следующим выводам:

Для качества моделей более всего важны следующие вещи (от более важных к менее важным):
1. Разрешение изображений
2. Выбор лосса
3. Размер модели
4. Размер данных

Также выясняют что для few-shot лучше всего моделировать image-text interleave (как Flamingo), а для zero-shot лучше всего image-capiton pairs (как CLIP).

При этом архитектура нейросети минимально влияет на качество. Просто кидайте в трансформер которых подходит вам больше всего. Например когда у вас достаточно хорошая модель с достаточно высоким разрешением изображений не важно как именно вы пулите изображения для передачи в LLM: среднее, attention, или convolusion дают примерно один и тот же результат.

Интересно, что тренировка на тексте (без изображений) значительно улучшает few-shot. Кастательно соотношения данных, из того с чем эксперимертировали в статье лучше всего работает соотношение caption:interleaved:text 5:5:1

Код и веса к сожалению не опубликованы 😓

BY DL in NLP




Share with your friend now:
tgoop.com/dlinnlp/1752

View MORE
Open in Telegram


Telegram News

Date: |

Done! Now you’re the proud owner of a Telegram channel. The next step is to set up and customize your channel. Telegram message that reads: "Bear Market Screaming Therapy Group. You are only allowed to send screaming voice notes. Everything else = BAN. Text pics, videos, stickers, gif = BAN. Anything other than screaming = BAN. You think you are smart = BAN. A few years ago, you had to use a special bot to run a poll on Telegram. Now you can easily do that yourself in two clicks. Hit the Menu icon and select “Create Poll.” Write your question and add up to 10 options. Running polls is a powerful strategy for getting feedback from your audience. If you’re considering the possibility of modifying your channel in any way, be sure to ask your subscribers’ opinions first. Select: Settings – Manage Channel – Administrators – Add administrator. From your list of subscribers, select the correct user. A new window will appear on the screen. Check the rights you’re willing to give to your administrator. Read now
from us


Telegram DL in NLP
FROM American