tgoop.com/quant_prune_distill/289
Last Update:
Vision language models are blind
[Статья][Код]
Наряду с чисто языковыми моделями в последнее время интенсивно развиваются и мультимодальные модели, умеющие работать с текстовой 📝 и визуальной 👀 информацией одновременно. Флагманские проприетарные модели (GPT-4(V/O), Claude, Gemini 1.5-Pro
) неплохо умеют решать нетривиальные задачи, связанные с обработкой визуальных данных - понимание содержимого сцены, нахождение нужного объекта, извлечение информации из графиков и табличек, и самое главное - понимание мемов 😄.
Однако данные задачи еще более менее имеют формулировку с точки зрения естественного языка. Кроме того, имеет место утечка 💧 в процессе обучения. И авторы задаются вопросом - как хорошо современные модели справляются с задачи, требующие умение опираться сугубо на визуальную информацию, причем те, что под силу даже детсадовцу 👶?
И оказывается, что несмотря на простоту рассматриваемых задач, нынешняя SOTA не то чтобы блестяще справляется с ними. И GPT-4o не всегда лучшая)
Метод
Предложенный бенчмарк состоит из 7 задач:
1️⃣ Подсчет числа пересечений двух графиков из 3 точек (от 0 до 3)
2️⃣ Определение того, пересекаются ли 2 круга или нет
3️⃣ Определение буквы, на которую наложили круг 🔴
4️⃣ Подсчет числа пересекающихся геометрических примитивов
5️⃣ Подсчет количества вложенных квадратов
6️⃣ Определение числа строк и столбцов в таблице
7️⃣ Умение следовать за разноцветными ломаными (сколько путей следует из одной вершины в другую). Путей от 0 до 3.
Рассматривают 4 прориетарные VLM (Vision Language Model) модели:
1️⃣ GPT-4o
2️⃣ Gemini-1.5 Pro
3️⃣ Claude Sonnet 3
4️⃣ Claude Sonnet 3,5
Эксперименты
Несмотря на простоту перечисленных выше задач, модели справляются с ними далеко не идеально.
В частности, в задаче определения числа пересечений GPT-4o достигает качества 48%, а лучшая из моделей - Claude-3.5 Sonnet – 77%, что далеко от 100%. Чем ближе графики и чем толще линии - тем больше ошибка.
Модели хорошо понимают, что такое круг, и умеют читать текст без ошибок, но, тем не менее определение того, какую же все-таки букву закрыл кружочек, оказывается не такой уж простой задачей. И здесь лидирует Gemini-1.5 Pro (со средней точностью около 93%).
VLM-ки умеют хорошо считать разнесенные в пространстве объекты. Но как только они пересекаются, или оказываются вложенными - качество заметно проседает. И здесь снова побеждает в Claude-3.5 Sonnet.
Такая элементарная задача, как подсчет числа столбцов и строк, тоже дается нелегко, при том, что перечисленные сетки умеют решать куда, казалось бы, более сложные задачи про обработку табличных данных. Умница Claude-3.5 Sonnet выдает точность в среднем 74.26%, в то время как остальные модели между 35% и 40%. Если в ячейках есть текст, точность немного выше.
Определение числа путей по картинке, тоже дается нелегко. Claude-3.5 Sonnet (не подкупили Antropic авторов?) снова побеждает с точностью в среднем 50%. Если путь один, то Claude-3.5 с большим отрывом точнее всех, на большом числе путей - 3, GPT-4o лидирует.
Вывод
Любопытное исследование, хоть результаты и во многом ожидаемы. Текущие модели основаны преимущественно на достижениях в NLP, способности LLM улавливать сложные закономерности в последовательностях. Но задачи, опирающиеся сугубо на зрительную информацию, по всей видимости, требуют от модели обучения с упором на геометрию, выявления пространственных закономерностей. Вопрос 🤔 в том, насколько это важно в прикладных задачах. Тем не менее разработка такой процедуры обучения может стать следующим шагом в развитии VLM.
BY КПД
Share with your friend now:
tgoop.com/quant_prune_distill/289