DATA_MATH Telegram 891
🧠 Могут ли мультимодальные модели действительно понимать инструменты?

Новая работа проверяет, способны ли модели действительно понимать физические инструменты, а не просто узнавать их по картинке.

📷 В задаче модели показывают фото и просят выбрать нужный инструмент с номером.
Датасет включает 1 000 пар изображение + текст и три уровня сложности:
1. Базовое распознавание инструмента;
2. Понимание ограничений (например, работает ли он, цел ли);
3. Конструирование инструмента из других предметов.

🧩 Условия:
- Можно использовать только предметы на фото;
- Ответ - номер инструмента или None.

👨‍🔬 Результаты:
- Люди: ~90 %
- Топ-модели: ~63 %
- Внутренние бэкенды Vision-Language-Action моделей — < 15 %.

Типичные ошибки:
- Считают сломанный инструмент рабочим;
- Путают похожие кабели и порты.

🔧 Немного помогает масштаб — примерно с 10 B параметров появляется базовое “чувство инструмента”.
Метод chain-of-thought даёт небольшой прирост,
а vision-centric пайплайн (распознавание объектов + рассуждение по вырезкам) улучшает самые трудные случаи.

💡 Главное открытие: современные мультимодальные модели знают названия предметов,
но не понимают, как инструменты работают.
Этот бенчмарк даёт чёткий ориентир, где они пока “проваливаются”.

📘 Cтатья: https://arxiv.org/abs/2510.09507
🔥4👏21



tgoop.com/data_math/891
Create:
Last Update:

🧠 Могут ли мультимодальные модели действительно понимать инструменты?

Новая работа проверяет, способны ли модели действительно понимать физические инструменты, а не просто узнавать их по картинке.

📷 В задаче модели показывают фото и просят выбрать нужный инструмент с номером.
Датасет включает 1 000 пар изображение + текст и три уровня сложности:
1. Базовое распознавание инструмента;
2. Понимание ограничений (например, работает ли он, цел ли);
3. Конструирование инструмента из других предметов.

🧩 Условия:
- Можно использовать только предметы на фото;
- Ответ - номер инструмента или None.

👨‍🔬 Результаты:
- Люди: ~90 %
- Топ-модели: ~63 %
- Внутренние бэкенды Vision-Language-Action моделей — < 15 %.

Типичные ошибки:
- Считают сломанный инструмент рабочим;
- Путают похожие кабели и порты.

🔧 Немного помогает масштаб — примерно с 10 B параметров появляется базовое “чувство инструмента”.
Метод chain-of-thought даёт небольшой прирост,
а vision-centric пайплайн (распознавание объектов + рассуждение по вырезкам) улучшает самые трудные случаи.

💡 Главное открытие: современные мультимодальные модели знают названия предметов,
но не понимают, как инструменты работают.
Этот бенчмарк даёт чёткий ориентир, где они пока “проваливаются”.

📘 Cтатья: https://arxiv.org/abs/2510.09507

BY Математика Дата саентиста




Share with your friend now:
tgoop.com/data_math/891

View MORE
Open in Telegram


Telegram News

Date: |

With the administration mulling over limiting access to doxxing groups, a prominent Telegram doxxing group apparently went on a "revenge spree." Co-founder of NFT renting protocol Rentable World emiliano.eth shared the group Tuesday morning on Twitter, calling out the "degenerate" community, or crypto obsessives that engage in high-risk trading. Those being doxxed include outgoing Chief Executive Carrie Lam Cheng Yuet-ngor, Chung and police assistant commissioner Joe Chan Tung, who heads police's cyber security and technology crime bureau. During a meeting with the president of the Supreme Electoral Court (TSE) on June 6, Telegram's Vice President Ilya Perekopsky announced the initiatives. According to the executive, Brazil is the first country in the world where Telegram is introducing the features, which could be expanded to other countries facing threats to democracy through the dissemination of false content. Matt Hussey, editorial director at NEAR Protocol also responded to this news with “#meIRL”. Just as you search “Bear Market Screaming” in Telegram, you will see a Pepe frog yelling as the group’s featured image.
from us


Telegram Математика Дата саентиста
FROM American