🧪 Новый бенчмарк показывает

Машиннное обучение | Наука о данных Библиотека

🧪 Новый бенчмарк показывает, как LLM-агенты ломаются на реальных задачах

- Лучший результат — лишь 43,72% успеха у GPT-5.
- Использован Model Context Protocol (MCP) — стандарт, позволяющий ИИ подключаться к приложениям, получать данные и выполнять действия.
- Проверка шла на реальных серверах: 6 доменов, 11 сервисов, 231 задача (карты, GitHub, финансы, 3D-дизайн, браузер, веб-поиск).
- Оценка не через модель-судью, а через запуск:
- формат (структура ответа),
- статический чек (фиксированные факты),
- динамический чек (актуальные данные).

⚠️ Что выяснилось:
- Формат агенты соблюдают, но проваливаются по содержанию → слабые места: рассуждение и поиск данных.
- Долгие диалоги раздувают контекст, многошаговые сценарии рушатся.
- Часто неверно используют инструменты (например, вызывают API акций с одинаковой датой начала и конца).
- Подключение лишних сервисов даёт шум и снижает точность.
- Даже «enterprise-агенты» не обгоняют простую схему ReAct.

🔎 Вывод: интеграция LLM-агентов с реальными системами пока очень хрупкая.
MCP-Universe предлагает прозрачный способ измерять эти сбои и улучшать качество работы.

📄 Статья: https://arxiv.org/abs/2508.14704

❤5👍3🔥3

www.tgoop.com/machinelearning_books/1141

1.98K viewsAug 22 at 12:00

tgoop.com/machinelearning_books/1141

Create: 2025-08-22
Last Update: 2025-10-27 14:34:24

BY Машиннное обучение | Наука о данных Библиотека

Share with your friend now:
tgoop.com/machinelearning_books/1141

Telegram News

🧪 Новый бенчмарк показывает