DLINNLP Telegram 1752
MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training
McKinzie et al., [Apple]
arxiv.org/abs/2403.09611

Apple взяла себя в руки и последнее время от них прямо пошли хорошие статье. В этой статье представляют семейство мультимодальных языковых моделей MM1

Научная ценность статьи в большом числе абляционных исследованиях. Авторы приходят к следующим выводам:

Для качества моделей более всего важны следующие вещи (от более важных к менее важным):
1. Разрешение изображений
2. Выбор лосса
3. Размер модели
4. Размер данных

Также выясняют что для few-shot лучше всего моделировать image-text interleave (как Flamingo), а для zero-shot лучше всего image-capiton pairs (как CLIP).

При этом архитектура нейросети минимально влияет на качество. Просто кидайте в трансформер которых подходит вам больше всего. Например когда у вас достаточно хорошая модель с достаточно высоким разрешением изображений не важно как именно вы пулите изображения для передачи в LLM: среднее, attention, или convolusion дают примерно один и тот же результат.

Интересно, что тренировка на тексте (без изображений) значительно улучшает few-shot. Кастательно соотношения данных, из того с чем эксперимертировали в статье лучше всего работает соотношение caption:interleaved:text 5:5:1

Код и веса к сожалению не опубликованы 😓
👍317🔥2👏1



tgoop.com/dlinnlp/1752
Create:
Last Update:

MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training
McKinzie et al., [Apple]
arxiv.org/abs/2403.09611

Apple взяла себя в руки и последнее время от них прямо пошли хорошие статье. В этой статье представляют семейство мультимодальных языковых моделей MM1

Научная ценность статьи в большом числе абляционных исследованиях. Авторы приходят к следующим выводам:

Для качества моделей более всего важны следующие вещи (от более важных к менее важным):
1. Разрешение изображений
2. Выбор лосса
3. Размер модели
4. Размер данных

Также выясняют что для few-shot лучше всего моделировать image-text interleave (как Flamingo), а для zero-shot лучше всего image-capiton pairs (как CLIP).

При этом архитектура нейросети минимально влияет на качество. Просто кидайте в трансформер которых подходит вам больше всего. Например когда у вас достаточно хорошая модель с достаточно высоким разрешением изображений не важно как именно вы пулите изображения для передачи в LLM: среднее, attention, или convolusion дают примерно один и тот же результат.

Интересно, что тренировка на тексте (без изображений) значительно улучшает few-shot. Кастательно соотношения данных, из того с чем эксперимертировали в статье лучше всего работает соотношение caption:interleaved:text 5:5:1

Код и веса к сожалению не опубликованы 😓

BY DL in NLP




Share with your friend now:
tgoop.com/dlinnlp/1752

View MORE
Open in Telegram


Telegram News

Date: |

SUCK Channel Telegram Just as the Bitcoin turmoil continues, crypto traders have taken to Telegram to voice their feelings. Crypto investors can reduce their anxiety about losses by joining the “Bear Market Screaming Therapy Group” on Telegram. For crypto enthusiasts, there was the “gm” app, a self-described “meme app” which only allowed users to greet each other with “gm,” or “good morning,” a common acronym thrown around on Crypto Twitter and Discord. But the gm app was shut down back in September after a hacker reportedly gained access to user data. With the sharp downturn in the crypto market, yelling has become a coping mechanism for many crypto traders. This screaming therapy became popular after the surge of Goblintown Ethereum NFTs at the end of May or early June. Here, holders made incoherent groaning sounds in late-night Twitter spaces. They also role-played as urine-loving Goblin creatures. How to Create a Private or Public Channel on Telegram?
from us


Telegram DL in NLP
FROM American