tgoop.com/data_math/891
Last Update:
🧠 Могут ли мультимодальные модели действительно понимать инструменты?
Новая работа проверяет, способны ли модели действительно понимать физические инструменты, а не просто узнавать их по картинке.
📷 В задаче модели показывают фото и просят выбрать нужный инструмент с номером.
Датасет включает 1 000 пар изображение + текст и три уровня сложности:
1. Базовое распознавание инструмента;
2. Понимание ограничений (например, работает ли он, цел ли);
3. Конструирование инструмента из других предметов.
🧩 Условия:
- Можно использовать только предметы на фото;
- Ответ - номер инструмента или None.
👨🔬 Результаты:
- Люди: ~90 %
- Топ-модели: ~63 %
- Внутренние бэкенды Vision-Language-Action моделей — < 15 %.
Типичные ошибки:
- Считают сломанный инструмент рабочим;
- Путают похожие кабели и порты.
🔧 Немного помогает масштаб — примерно с 10 B параметров появляется базовое “чувство инструмента”.
Метод chain-of-thought даёт небольшой прирост,
а vision-centric пайплайн (распознавание объектов + рассуждение по вырезкам) улучшает самые трудные случаи.
💡 Главное открытие: современные мультимодальные модели знают названия предметов,
но не понимают, как инструменты работают.
Этот бенчмарк даёт чёткий ориентир, где они пока “проваливаются”.
📘 Cтатья: https://arxiv.org/abs/2510.09507
BY Математика Дата саентиста

Share with your friend now:
tgoop.com/data_math/891