Warning: mkdir(): No space left on device in /var/www/tgoop/post.php on line 37

Warning: file_put_contents(aCache/aDaily/post/c_research/--): Failed to open stream: No such file or directory in /var/www/tgoop/post.php on line 50
Concise Research@c_research P.92
C_RESEARCH Telegram 92
What You See is What You Read? Improving Text-Image Alignment Evaluation

Модели вроде CLIP, BLIP и COCA используются для оценки релевантности текста и изображения. Но как измерить их способность оценивать релевантность? Насколько каждый из методов согласуется с человеческими оценками? Сейчас для этого используются косвенные признаки: zero-shot/few-shot качество решения дискриминативных задач на общепринятых бенчмарках вроде ImageNet.

Недавно была предложена метрика и бенчмарк TIFA. Авторы TIFA предлагают для каждого текста из пары текст-картинка генерировать вопросы и ответы, а затем измерять согласованность верных ответов, полученных из текста и картинки.

В этой работе, авторы используют похожий подход с использованием VQA моделей и предлагают два метода:
1. VQ^2 - похоже на TIFA, только измеряется верность текстового ответа при данной картинке;
2. Visual NLI models (VNLI) - обучаем модель непосредственно предсказывать текстово-картиночную релевантность. Для этого берутся BLIP2 и PaLI-17B и файнтюнятся на задачу предсказания бинарного ответа (“yes”, “no”) на вопрос. Для этого используется датасет из 100к пар текст-картинка, размеченный ассессорами. Негативные и нейтральные (не релевантные) примеры генерятся автоматически.

Помимо метода, авторы также предлагают свой бенчмарк, состоящий из ~32k пар текст-картинка, взятых из нескольких датасетов. Пары размечены ассессорами на релевантность.

Предложенные метрики могут быть использованы для оценки качества работы text-to-image моделей. В статье есть несколько примеров того как VQ^2 и затюненная PaLI оказываются более чувствительными к огрехам генерации Stable Diffusion, чем CLIP RN50. Код и данные выложены.
1



tgoop.com/c_research/92
Create:
Last Update:

What You See is What You Read? Improving Text-Image Alignment Evaluation

Модели вроде CLIP, BLIP и COCA используются для оценки релевантности текста и изображения. Но как измерить их способность оценивать релевантность? Насколько каждый из методов согласуется с человеческими оценками? Сейчас для этого используются косвенные признаки: zero-shot/few-shot качество решения дискриминативных задач на общепринятых бенчмарках вроде ImageNet.

Недавно была предложена метрика и бенчмарк TIFA. Авторы TIFA предлагают для каждого текста из пары текст-картинка генерировать вопросы и ответы, а затем измерять согласованность верных ответов, полученных из текста и картинки.

В этой работе, авторы используют похожий подход с использованием VQA моделей и предлагают два метода:
1. VQ^2 - похоже на TIFA, только измеряется верность текстового ответа при данной картинке;
2. Visual NLI models (VNLI) - обучаем модель непосредственно предсказывать текстово-картиночную релевантность. Для этого берутся BLIP2 и PaLI-17B и файнтюнятся на задачу предсказания бинарного ответа (“yes”, “no”) на вопрос. Для этого используется датасет из 100к пар текст-картинка, размеченный ассессорами. Негативные и нейтральные (не релевантные) примеры генерятся автоматически.

Помимо метода, авторы также предлагают свой бенчмарк, состоящий из ~32k пар текст-картинка, взятых из нескольких датасетов. Пары размечены ассессорами на релевантность.

Предложенные метрики могут быть использованы для оценки качества работы text-to-image моделей. В статье есть несколько примеров того как VQ^2 и затюненная PaLI оказываются более чувствительными к огрехам генерации Stable Diffusion, чем CLIP RN50. Код и данные выложены.

BY Concise Research




Share with your friend now:
tgoop.com/c_research/92

View MORE
Open in Telegram


Telegram News

Date: |

When choosing the right name for your Telegram channel, use the language of your target audience. The name must sum up the essence of your channel in 1-3 words. If you’re planning to expand your Telegram audience, it makes sense to incorporate keywords into your name. But a Telegram statement also said: "Any requests related to political censorship or limiting human rights such as the rights to free speech or assembly are not and will not be considered." Choose quality over quantity. Remember that one high-quality post is better than five short publications of questionable value. Read now Those being doxxed include outgoing Chief Executive Carrie Lam Cheng Yuet-ngor, Chung and police assistant commissioner Joe Chan Tung, who heads police's cyber security and technology crime bureau.
from us


Telegram Concise Research
FROM American