tgoop.com/c_research/92
Last Update:
What You See is What You Read? Improving Text-Image Alignment Evaluation
Модели вроде CLIP, BLIP и COCA используются для оценки релевантности текста и изображения. Но как измерить их способность оценивать релевантность? Насколько каждый из методов согласуется с человеческими оценками? Сейчас для этого используются косвенные признаки: zero-shot/few-shot качество решения дискриминативных задач на общепринятых бенчмарках вроде ImageNet.
Недавно была предложена метрика и бенчмарк TIFA. Авторы TIFA предлагают для каждого текста из пары текст-картинка генерировать вопросы и ответы, а затем измерять согласованность верных ответов, полученных из текста и картинки.
В этой работе, авторы используют похожий подход с использованием VQA моделей и предлагают два метода:
1. VQ^2 - похоже на TIFA, только измеряется верность текстового ответа при данной картинке;
2. Visual NLI models (VNLI) - обучаем модель непосредственно предсказывать текстово-картиночную релевантность. Для этого берутся BLIP2 и PaLI-17B и файнтюнятся на задачу предсказания бинарного ответа (“yes”, “no”) на вопрос. Для этого используется датасет из 100к пар текст-картинка, размеченный ассессорами. Негативные и нейтральные (не релевантные) примеры генерятся автоматически.
Помимо метода, авторы также предлагают свой бенчмарк, состоящий из ~32k пар текст-картинка, взятых из нескольких датасетов. Пары размечены ассессорами на релевантность.
Предложенные метрики могут быть использованы для оценки качества работы text-to-image моделей. В статье есть несколько примеров того как VQ^2 и затюненная PaLI оказываются более чувствительными к огрехам генерации Stable Diffusion, чем CLIP RN50. Код и данные выложены.
BY Concise Research

Share with your friend now:
tgoop.com/c_research/92