tgoop.com/machinelearning_books/1141
Last Update:
🧪 Новый бенчмарк показывает, как LLM-агенты ломаются на реальных задачах
- Лучший результат — лишь 43,72% успеха у GPT-5.
- Использован Model Context Protocol (MCP) — стандарт, позволяющий ИИ подключаться к приложениям, получать данные и выполнять действия.
- Проверка шла на реальных серверах: 6 доменов, 11 сервисов, 231 задача (карты, GitHub, финансы, 3D-дизайн, браузер, веб-поиск).
- Оценка не через модель-судью, а через запуск:
- формат (структура ответа),
- статический чек (фиксированные факты),
- динамический чек (актуальные данные).
⚠️ Что выяснилось:
- Формат агенты соблюдают, но проваливаются по содержанию → слабые места: рассуждение и поиск данных.
- Долгие диалоги раздувают контекст, многошаговые сценарии рушатся.
- Часто неверно используют инструменты (например, вызывают API акций с одинаковой датой начала и конца).
- Подключение лишних сервисов даёт шум и снижает точность.
- Даже «enterprise-агенты» не обгоняют простую схему ReAct.
🔎 Вывод: интеграция LLM-агентов с реальными системами пока очень хрупкая.
MCP-Universe предлагает прозрачный способ измерять эти сбои и улучшать качество работы.
📄 Статья: https://arxiv.org/abs/2508.14704
BY Машиннное обучение | Наука о данных Библиотека

Share with your friend now:
tgoop.com/machinelearning_books/1141
