MACHINELEARNING_INTERVIEW Telegram 1280
Forwarded from Machinelearning
🌟 MMSearch: бенчмарк мультимодальных моделей по способности поиска.

MMSearch — это тест мультимодального поиска, созданный для оценки возможностей LMMs как систем для поиска информации. Этот тест включает тщательно отобранный датасет из 300 запросов из 14 различных областей.

Чтобы обеспечить сложность бенчмарка, запросы классифицируются по двум основным категориям: новости и знания.

Область новостей состоит из недавних событий на момент сбора данных (август 2024 года), это гарантирует, что ответы на запросы не будут содержаться в обучающих данных для LMM.

В области знаний собраны запросы, требующие редких знаний - те, на которые не могут ответить современные LMM, такие как GPT-4o и Claude-3.5.

Оценка выполняется по 4 задачам, итог выполнения сравнивается с результатом аннотаторов, в роли которых выступали люди :

🟢запрос (requery): интерпретация запроса о содержимом или об объекте на изображении;

🟢ранжирование (rerank): выбор наиболее релевантного ответа запросу;

🟢обобщение (summarization): анализ результатов задач requery и rerank и формирование ответа на запрос;

🟢сквозной запрос (End-to-End): тест полного цикла, который включает в себя все три задачи сразу (requery+rerank+summarization).

▶️ Локальное выполнение бенчмарка возможно 3 способами:

🟠в VLMEvalKit. Пакет поддерживает более 150 VLM и MMLM моделей;

🟠путем запуска скриптов оценки MMSearch;

🟠в lmms-eval. Пока поддерживается только одна модель для теста MMSearch - LLaVA-OneVision, расширение возможностей - в процессе, настройка среды - тут.

⚠️ Среднее время выполнения самого сложного теста (End-to-End) на одном GPU A100 - 3-5 часов.

Лидерборд MMSearch 16 моделей, включая результат выполнения тестов человеком можно посмотреть на странице проекта.


🟡Страница проекта
🟡Arxiv
🟡Датасет
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #MMLM #Benchmark
Please open Telegram to view this post
VIEW IN TELEGRAM
👍92🔥2



tgoop.com/machinelearning_interview/1280
Create:
Last Update:

🌟 MMSearch: бенчмарк мультимодальных моделей по способности поиска.

MMSearch — это тест мультимодального поиска, созданный для оценки возможностей LMMs как систем для поиска информации. Этот тест включает тщательно отобранный датасет из 300 запросов из 14 различных областей.

Чтобы обеспечить сложность бенчмарка, запросы классифицируются по двум основным категориям: новости и знания.

Область новостей состоит из недавних событий на момент сбора данных (август 2024 года), это гарантирует, что ответы на запросы не будут содержаться в обучающих данных для LMM.

В области знаний собраны запросы, требующие редких знаний - те, на которые не могут ответить современные LMM, такие как GPT-4o и Claude-3.5.

Оценка выполняется по 4 задачам, итог выполнения сравнивается с результатом аннотаторов, в роли которых выступали люди :

🟢запрос (requery): интерпретация запроса о содержимом или об объекте на изображении;

🟢ранжирование (rerank): выбор наиболее релевантного ответа запросу;

🟢обобщение (summarization): анализ результатов задач requery и rerank и формирование ответа на запрос;

🟢сквозной запрос (End-to-End): тест полного цикла, который включает в себя все три задачи сразу (requery+rerank+summarization).

▶️ Локальное выполнение бенчмарка возможно 3 способами:

🟠в VLMEvalKit. Пакет поддерживает более 150 VLM и MMLM моделей;

🟠путем запуска скриптов оценки MMSearch;

🟠в lmms-eval. Пока поддерживается только одна модель для теста MMSearch - LLaVA-OneVision, расширение возможностей - в процессе, настройка среды - тут.

⚠️ Среднее время выполнения самого сложного теста (End-to-End) на одном GPU A100 - 3-5 часов.

Лидерборд MMSearch 16 моделей, включая результат выполнения тестов человеком можно посмотреть на странице проекта.


🟡Страница проекта
🟡Arxiv
🟡Датасет
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #MMLM #Benchmark

BY Machine learning Interview






Share with your friend now:
tgoop.com/machinelearning_interview/1280

View MORE
Open in Telegram


Telegram News

Date: |

Telegram users themselves will be able to flag and report potentially false content. How to Create a Private or Public Channel on Telegram? Matt Hussey, editorial director of NEAR Protocol (and former editor-in-chief of Decrypt) responded to the news of the Telegram group with “#meIRL.” Clear The Standard Channel
from us


Telegram Machine learning Interview
FROM American