QUANT_PRUNE_DISTILL Telegram 289
Vision language models are blind
[Статья][Код]

Наряду с чисто языковыми моделями в последнее время интенсивно развиваются и мультимодальные модели, умеющие работать с текстовой 📝 и визуальной 👀 информацией одновременно. Флагманские проприетарные модели (GPT-4(V/O), Claude, Gemini 1.5-Pro) неплохо умеют решать нетривиальные задачи, связанные с обработкой визуальных данных - понимание содержимого сцены, нахождение нужного объекта, извлечение информации из графиков и табличек, и самое главное - понимание мемов 😄.

Однако данные задачи еще более менее имеют формулировку с точки зрения естественного языка. Кроме того, имеет место утечка 💧 в процессе обучения. И авторы задаются вопросом - как хорошо современные модели справляются с задачи, требующие умение опираться сугубо на визуальную информацию, причем те, что под силу даже детсадовцу 👶?

И оказывается, что несмотря на простоту рассматриваемых задач, нынешняя SOTA не то чтобы блестяще справляется с ними. И GPT-4o не всегда лучшая)

Метод

Предложенный бенчмарк состоит из 7 задач:
1️⃣ Подсчет числа пересечений двух графиков из 3 точек (от 0 до 3)
2️⃣ Определение того, пересекаются ли 2 круга или нет
3️⃣ Определение буквы, на которую наложили круг 🔴
4️⃣ Подсчет числа пересекающихся геометрических примитивов
5️⃣ Подсчет количества вложенных квадратов
6️⃣ Определение числа строк и столбцов в таблице
7️⃣ Умение следовать за разноцветными ломаными (сколько путей следует из одной вершины в другую). Путей от 0 до 3.

Рассматривают 4 прориетарные VLM (Vision Language Model) модели:
1️⃣ GPT-4o
2️⃣ Gemini-1.5 Pro
3️⃣ Claude Sonnet 3
4️⃣ Claude Sonnet 3,5

Эксперименты

Несмотря на простоту перечисленных выше задач, модели справляются с ними далеко не идеально.

В частности, в задаче определения числа пересечений GPT-4o достигает качества 48%, а лучшая из моделей - Claude-3.5 Sonnet – 77%, что далеко от 100%. Чем ближе графики и чем толще линии - тем больше ошибка.

Модели хорошо понимают, что такое круг, и умеют читать текст без ошибок, но, тем не менее определение того, какую же все-таки букву закрыл кружочек, оказывается не такой уж простой задачей. И здесь лидирует Gemini-1.5 Pro (со средней точностью около 93%).

VLM-ки умеют хорошо считать разнесенные в пространстве объекты. Но как только они пересекаются, или оказываются вложенными - качество заметно проседает. И здесь снова побеждает в Claude-3.5 Sonnet.

Такая элементарная задача, как подсчет числа столбцов и строк, тоже дается нелегко, при том, что перечисленные сетки умеют решать куда, казалось бы, более сложные задачи про обработку табличных данных. Умница Claude-3.5 Sonnet выдает точность в среднем 74.26%, в то время как остальные модели между 35% и 40%. Если в ячейках есть текст, точность немного выше.

Определение числа путей по картинке, тоже дается нелегко. Claude-3.5 Sonnet (не подкупили Antropic авторов?) снова побеждает с точностью в среднем 50%. Если путь один, то Claude-3.5 с большим отрывом точнее всех, на большом числе путей - 3, GPT-4o лидирует.

Вывод

Любопытное исследование, хоть результаты и во многом ожидаемы. Текущие модели основаны преимущественно на достижениях в NLP, способности LLM улавливать сложные закономерности в последовательностях. Но задачи, опирающиеся сугубо на зрительную информацию, по всей видимости, требуют от модели обучения с упором на геометрию, выявления пространственных закономерностей. Вопрос 🤔 в том, насколько это важно в прикладных задачах. Тем не менее разработка такой процедуры обучения может стать следующим шагом в развитии VLM.
👍11🔥3



tgoop.com/quant_prune_distill/289
Create:
Last Update:

Vision language models are blind
[Статья][Код]

Наряду с чисто языковыми моделями в последнее время интенсивно развиваются и мультимодальные модели, умеющие работать с текстовой 📝 и визуальной 👀 информацией одновременно. Флагманские проприетарные модели (GPT-4(V/O), Claude, Gemini 1.5-Pro) неплохо умеют решать нетривиальные задачи, связанные с обработкой визуальных данных - понимание содержимого сцены, нахождение нужного объекта, извлечение информации из графиков и табличек, и самое главное - понимание мемов 😄.

Однако данные задачи еще более менее имеют формулировку с точки зрения естественного языка. Кроме того, имеет место утечка 💧 в процессе обучения. И авторы задаются вопросом - как хорошо современные модели справляются с задачи, требующие умение опираться сугубо на визуальную информацию, причем те, что под силу даже детсадовцу 👶?

И оказывается, что несмотря на простоту рассматриваемых задач, нынешняя SOTA не то чтобы блестяще справляется с ними. И GPT-4o не всегда лучшая)

Метод

Предложенный бенчмарк состоит из 7 задач:
1️⃣ Подсчет числа пересечений двух графиков из 3 точек (от 0 до 3)
2️⃣ Определение того, пересекаются ли 2 круга или нет
3️⃣ Определение буквы, на которую наложили круг 🔴
4️⃣ Подсчет числа пересекающихся геометрических примитивов
5️⃣ Подсчет количества вложенных квадратов
6️⃣ Определение числа строк и столбцов в таблице
7️⃣ Умение следовать за разноцветными ломаными (сколько путей следует из одной вершины в другую). Путей от 0 до 3.

Рассматривают 4 прориетарные VLM (Vision Language Model) модели:
1️⃣ GPT-4o
2️⃣ Gemini-1.5 Pro
3️⃣ Claude Sonnet 3
4️⃣ Claude Sonnet 3,5

Эксперименты

Несмотря на простоту перечисленных выше задач, модели справляются с ними далеко не идеально.

В частности, в задаче определения числа пересечений GPT-4o достигает качества 48%, а лучшая из моделей - Claude-3.5 Sonnet – 77%, что далеко от 100%. Чем ближе графики и чем толще линии - тем больше ошибка.

Модели хорошо понимают, что такое круг, и умеют читать текст без ошибок, но, тем не менее определение того, какую же все-таки букву закрыл кружочек, оказывается не такой уж простой задачей. И здесь лидирует Gemini-1.5 Pro (со средней точностью около 93%).

VLM-ки умеют хорошо считать разнесенные в пространстве объекты. Но как только они пересекаются, или оказываются вложенными - качество заметно проседает. И здесь снова побеждает в Claude-3.5 Sonnet.

Такая элементарная задача, как подсчет числа столбцов и строк, тоже дается нелегко, при том, что перечисленные сетки умеют решать куда, казалось бы, более сложные задачи про обработку табличных данных. Умница Claude-3.5 Sonnet выдает точность в среднем 74.26%, в то время как остальные модели между 35% и 40%. Если в ячейках есть текст, точность немного выше.

Определение числа путей по картинке, тоже дается нелегко. Claude-3.5 Sonnet (не подкупили Antropic авторов?) снова побеждает с точностью в среднем 50%. Если путь один, то Claude-3.5 с большим отрывом точнее всех, на большом числе путей - 3, GPT-4o лидирует.

Вывод

Любопытное исследование, хоть результаты и во многом ожидаемы. Текущие модели основаны преимущественно на достижениях в NLP, способности LLM улавливать сложные закономерности в последовательностях. Но задачи, опирающиеся сугубо на зрительную информацию, по всей видимости, требуют от модели обучения с упором на геометрию, выявления пространственных закономерностей. Вопрос 🤔 в том, насколько это важно в прикладных задачах. Тем не менее разработка такой процедуры обучения может стать следующим шагом в развитии VLM.

BY КПД


Share with your friend now:
tgoop.com/quant_prune_distill/289

View MORE
Open in Telegram


Telegram News

Date: |

Co-founder of NFT renting protocol Rentable World emiliano.eth shared the group Tuesday morning on Twitter, calling out the "degenerate" community, or crypto obsessives that engage in high-risk trading. Telegram iOS app: In the “Chats” tab, click the new message icon in the right upper corner. Select “New Channel.” Write your hashtags in the language of your target audience. The Channel name and bio must be no more than 255 characters long bank east asia october 20 kowloon
from us


Telegram КПД
FROM American