DL in NLP@dlinnlp P.1648

Notice: file_put_contents(): Write of 9828 bytes failed with errno=28 No space left on device in /var/www/tgoop/post.php on line 50

Warning: file_put_contents(): Only 8192 of 18020 bytes written, possibly out of free disk space in /var/www/tgoop/post.php on line 50
DL in NLP@dlinnlp P.1648

DLINNLP Telegram 1648

KOSMOS-2: Grounding Multimodal Large Language Models to the World
arxiv.org/abs/2306.14824

Кажется проблема работы с текстом близка к решению: отдельные downstream задачи стали прерогативой продуктовых команд, почти всё можно решить подходом BERT/ChatGPT + labelled data. Аналогичная ситуация обстоит с многими задачами CV.

Но в мультимодальных сетях всё ещё есть открытые исследовательские вопросы. Команда Microsoft разработала новую модель Kosmos-2, которая умеет в mixed-modality language modeling, но в отличие от Flamingo, где в качестве инпута используется только текст и изображение, тут модель умеет принимать на вход (и генерировать) bounding boxes. То есть можно например спросить, куда смотрить этот[bbox] человек и модель ответит вам туда[bbox]. Кроме новых возможностей это также позволяет улушать интерпретируемость модели и снижать галлюцинации, тк модель сильнее обсуславливается на объекты в изображении.

Для тренировки использовали довольно хитрый пайплайн похожий на MDETR, где текст изначально парсился на группы существительных с помощью spaCy которым находили bbox с помощью GLIP (не путать с CLIP).

Результаты — новый датасет GrIT на 90M изображений и 137M bbox-text pairs, сильные результаты на RefCOCO, VQA, и Flickr.

Модель, код и датасет доступны на гитхабе.

❤19👍8🔥5

www.tgoop.com/dlinnlp/1648

6.58K viewsVlad Lialin, Jun 27, 2023 at 17:10

tgoop.com/dlinnlp/1648

Create: 2023-06-27
Last Update: 2025-07-31 04:52:47

KOSMOS-2: Grounding Multimodal Large Language Models to the World
arxiv.org/abs/2306.14824

Кажется проблема работы с текстом близка к решению: отдельные downstream задачи стали прерогативой продуктовых команд, почти всё можно решить подходом BERT/ChatGPT + labelled data. Аналогичная ситуация обстоит с многими задачами CV.

Но в мультимодальных сетях всё ещё есть открытые исследовательские вопросы. Команда Microsoft разработала новую модель Kosmos-2, которая умеет в mixed-modality language modeling, но в отличие от Flamingo, где в качестве инпута используется только текст и изображение, тут модель умеет принимать на вход (и генерировать) bounding boxes. То есть можно например спросить, куда смотрить этот[bbox] человек и модель ответит вам туда[bbox]. Кроме новых возможностей это также позволяет улушать интерпретируемость модели и снижать галлюцинации, тк модель сильнее обсуславливается на объекты в изображении.

Для тренировки использовали довольно хитрый пайплайн похожий на MDETR, где текст изначально парсился на группы существительных с помощью spaCy которым находили bbox с помощью GLIP (не путать с CLIP).

Результаты — новый датасет GrIT на 90M изображений и 137M bbox-text pairs, сильные результаты на RefCOCO, VQA, и Flickr.

Модель, код и датасет доступны на гитхабе.

BY DL in NLP

Share with your friend now:
tgoop.com/dlinnlp/1648

Open in Telegram

Telegram News

Date: 2025-07-31|

Choose quality over quantity. Remember that one high-quality post is better than five short publications of questionable value. How to Create a Private or Public Channel on Telegram? Find your optimal posting schedule and stick to it. The peak posting times include 8 am, 6 pm, and 8 pm on social media. Try to publish serious stuff in the morning and leave less demanding content later in the day. Ng was convicted in April for conspiracy to incite a riot, public nuisance, arson, criminal damage, manufacturing of explosives, administering poison and wounding with intent to do grievous bodily harm between October 2019 and June 2020. Click “Save” ;
from us

Telegram DL in NLP
FROM American