MACHINELEARNING_INTERVIEW Telegram 1279
Forwarded from Machinelearning
🌟 MMSearch: бенчмарк мультимодальных моделей по способности поиска.

MMSearch — это тест мультимодального поиска, созданный для оценки возможностей LMMs как систем для поиска информации. Этот тест включает тщательно отобранный датасет из 300 запросов из 14 различных областей.

Чтобы обеспечить сложность бенчмарка, запросы классифицируются по двум основным категориям: новости и знания.

Область новостей состоит из недавних событий на момент сбора данных (август 2024 года), это гарантирует, что ответы на запросы не будут содержаться в обучающих данных для LMM.

В области знаний собраны запросы, требующие редких знаний - те, на которые не могут ответить современные LMM, такие как GPT-4o и Claude-3.5.

Оценка выполняется по 4 задачам, итог выполнения сравнивается с результатом аннотаторов, в роли которых выступали люди :

🟢запрос (requery): интерпретация запроса о содержимом или об объекте на изображении;

🟢ранжирование (rerank): выбор наиболее релевантного ответа запросу;

🟢обобщение (summarization): анализ результатов задач requery и rerank и формирование ответа на запрос;

🟢сквозной запрос (End-to-End): тест полного цикла, который включает в себя все три задачи сразу (requery+rerank+summarization).

▶️ Локальное выполнение бенчмарка возможно 3 способами:

🟠в VLMEvalKit. Пакет поддерживает более 150 VLM и MMLM моделей;

🟠путем запуска скриптов оценки MMSearch;

🟠в lmms-eval. Пока поддерживается только одна модель для теста MMSearch - LLaVA-OneVision, расширение возможностей - в процессе, настройка среды - тут.

⚠️ Среднее время выполнения самого сложного теста (End-to-End) на одном GPU A100 - 3-5 часов.

Лидерборд MMSearch 16 моделей, включая результат выполнения тестов человеком можно посмотреть на странице проекта.


🟡Страница проекта
🟡Arxiv
🟡Датасет
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #MMLM #Benchmark
Please open Telegram to view this post
VIEW IN TELEGRAM
👍92🔥2



tgoop.com/machinelearning_interview/1279
Create:
Last Update:

🌟 MMSearch: бенчмарк мультимодальных моделей по способности поиска.

MMSearch — это тест мультимодального поиска, созданный для оценки возможностей LMMs как систем для поиска информации. Этот тест включает тщательно отобранный датасет из 300 запросов из 14 различных областей.

Чтобы обеспечить сложность бенчмарка, запросы классифицируются по двум основным категориям: новости и знания.

Область новостей состоит из недавних событий на момент сбора данных (август 2024 года), это гарантирует, что ответы на запросы не будут содержаться в обучающих данных для LMM.

В области знаний собраны запросы, требующие редких знаний - те, на которые не могут ответить современные LMM, такие как GPT-4o и Claude-3.5.

Оценка выполняется по 4 задачам, итог выполнения сравнивается с результатом аннотаторов, в роли которых выступали люди :

🟢запрос (requery): интерпретация запроса о содержимом или об объекте на изображении;

🟢ранжирование (rerank): выбор наиболее релевантного ответа запросу;

🟢обобщение (summarization): анализ результатов задач requery и rerank и формирование ответа на запрос;

🟢сквозной запрос (End-to-End): тест полного цикла, который включает в себя все три задачи сразу (requery+rerank+summarization).

▶️ Локальное выполнение бенчмарка возможно 3 способами:

🟠в VLMEvalKit. Пакет поддерживает более 150 VLM и MMLM моделей;

🟠путем запуска скриптов оценки MMSearch;

🟠в lmms-eval. Пока поддерживается только одна модель для теста MMSearch - LLaVA-OneVision, расширение возможностей - в процессе, настройка среды - тут.

⚠️ Среднее время выполнения самого сложного теста (End-to-End) на одном GPU A100 - 3-5 часов.

Лидерборд MMSearch 16 моделей, включая результат выполнения тестов человеком можно посмотреть на странице проекта.


🟡Страница проекта
🟡Arxiv
🟡Датасет
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #MMLM #Benchmark

BY Machine learning Interview






Share with your friend now:
tgoop.com/machinelearning_interview/1279

View MORE
Open in Telegram


Telegram News

Date: |

Concise Users are more open to new information on workdays rather than weekends. While some crypto traders move toward screaming as a coping mechanism, many mental health experts have argued that “scream therapy” is pseudoscience. Scientific research or no, it obviously feels good. To upload a logo, click the Menu icon and select “Manage Channel.” In a new window, hit the Camera icon. SUCK Channel Telegram
from us


Telegram Machine learning Interview
FROM American