Notice: file_put_contents(): Write of 9878 bytes failed with errno=28 No space left on device in /var/www/tgoop/post.php on line 50

Warning: file_put_contents(): Only 8192 of 18070 bytes written, possibly out of free disk space in /var/www/tgoop/post.php on line 50
DL in NLP@dlinnlp P.1752
DLINNLP Telegram 1752
MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training
McKinzie et al., [Apple]
arxiv.org/abs/2403.09611

Apple взяла себя в руки и последнее время от них прямо пошли хорошие статье. В этой статье представляют семейство мультимодальных языковых моделей MM1

Научная ценность статьи в большом числе абляционных исследованиях. Авторы приходят к следующим выводам:

Для качества моделей более всего важны следующие вещи (от более важных к менее важным):
1. Разрешение изображений
2. Выбор лосса
3. Размер модели
4. Размер данных

Также выясняют что для few-shot лучше всего моделировать image-text interleave (как Flamingo), а для zero-shot лучше всего image-capiton pairs (как CLIP).

При этом архитектура нейросети минимально влияет на качество. Просто кидайте в трансформер которых подходит вам больше всего. Например когда у вас достаточно хорошая модель с достаточно высоким разрешением изображений не важно как именно вы пулите изображения для передачи в LLM: среднее, attention, или convolusion дают примерно один и тот же результат.

Интересно, что тренировка на тексте (без изображений) значительно улучшает few-shot. Кастательно соотношения данных, из того с чем эксперимертировали в статье лучше всего работает соотношение caption:interleaved:text 5:5:1

Код и веса к сожалению не опубликованы 😓
👍317🔥2👏1



tgoop.com/dlinnlp/1752
Create:
Last Update:

MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training
McKinzie et al., [Apple]
arxiv.org/abs/2403.09611

Apple взяла себя в руки и последнее время от них прямо пошли хорошие статье. В этой статье представляют семейство мультимодальных языковых моделей MM1

Научная ценность статьи в большом числе абляционных исследованиях. Авторы приходят к следующим выводам:

Для качества моделей более всего важны следующие вещи (от более важных к менее важным):
1. Разрешение изображений
2. Выбор лосса
3. Размер модели
4. Размер данных

Также выясняют что для few-shot лучше всего моделировать image-text interleave (как Flamingo), а для zero-shot лучше всего image-capiton pairs (как CLIP).

При этом архитектура нейросети минимально влияет на качество. Просто кидайте в трансформер которых подходит вам больше всего. Например когда у вас достаточно хорошая модель с достаточно высоким разрешением изображений не важно как именно вы пулите изображения для передачи в LLM: среднее, attention, или convolusion дают примерно один и тот же результат.

Интересно, что тренировка на тексте (без изображений) значительно улучшает few-shot. Кастательно соотношения данных, из того с чем эксперимертировали в статье лучше всего работает соотношение caption:interleaved:text 5:5:1

Код и веса к сожалению не опубликованы 😓

BY DL in NLP




Share with your friend now:
tgoop.com/dlinnlp/1752

View MORE
Open in Telegram


Telegram News

Date: |

Hashtags are a fast way to find the correct information on social media. To put your content out there, be sure to add hashtags to each post. We have two intelligent tips to give you: Hui said the messages, which included urging the disruption of airport operations, were attempts to incite followers to make use of poisonous, corrosive or flammable substances to vandalize police vehicles, and also called on others to make weapons to harm police. Judge Hui described Ng as inciting others to “commit a massacre” with three posts teaching people to make “toxic chlorine gas bombs,” target police stations, police quarters and the city’s metro stations. This offence was “rather serious,” the court said. A few years ago, you had to use a special bot to run a poll on Telegram. Now you can easily do that yourself in two clicks. Hit the Menu icon and select “Create Poll.” Write your question and add up to 10 options. Running polls is a powerful strategy for getting feedback from your audience. If you’re considering the possibility of modifying your channel in any way, be sure to ask your subscribers’ opinions first. Telegram desktop app: In the upper left corner, click the Menu icon (the one with three lines). Select “New Channel” from the drop-down menu.
from us


Telegram DL in NLP
FROM American