MACHINELEARNING_BOOKS Telegram 1141
🧪 Новый бенчмарк показывает, как LLM-агенты ломаются на реальных задачах

- Лучший результат — лишь 43,72% успеха у GPT-5.
- Использован Model Context Protocol (MCP) — стандарт, позволяющий ИИ подключаться к приложениям, получать данные и выполнять действия.
- Проверка шла на реальных серверах: 6 доменов, 11 сервисов, 231 задача (карты, GitHub, финансы, 3D-дизайн, браузер, веб-поиск).
- Оценка не через модель-судью, а через запуск:
- формат (структура ответа),
- статический чек (фиксированные факты),
- динамический чек (актуальные данные).

⚠️ Что выяснилось:
- Формат агенты соблюдают, но проваливаются по содержанию → слабые места: рассуждение и поиск данных.
- Долгие диалоги раздувают контекст, многошаговые сценарии рушатся.
- Часто неверно используют инструменты (например, вызывают API акций с одинаковой датой начала и конца).
- Подключение лишних сервисов даёт шум и снижает точность.
- Даже «enterprise-агенты» не обгоняют простую схему ReAct.

🔎 Вывод: интеграция LLM-агентов с реальными системами пока очень хрупкая.
MCP-Universe предлагает прозрачный способ измерять эти сбои и улучшать качество работы.

📄 Статья: https://arxiv.org/abs/2508.14704
5👍3🔥3



tgoop.com/machinelearning_books/1141
Create:
Last Update:

🧪 Новый бенчмарк показывает, как LLM-агенты ломаются на реальных задачах

- Лучший результат — лишь 43,72% успеха у GPT-5.
- Использован Model Context Protocol (MCP) — стандарт, позволяющий ИИ подключаться к приложениям, получать данные и выполнять действия.
- Проверка шла на реальных серверах: 6 доменов, 11 сервисов, 231 задача (карты, GitHub, финансы, 3D-дизайн, браузер, веб-поиск).
- Оценка не через модель-судью, а через запуск:
- формат (структура ответа),
- статический чек (фиксированные факты),
- динамический чек (актуальные данные).

⚠️ Что выяснилось:
- Формат агенты соблюдают, но проваливаются по содержанию → слабые места: рассуждение и поиск данных.
- Долгие диалоги раздувают контекст, многошаговые сценарии рушатся.
- Часто неверно используют инструменты (например, вызывают API акций с одинаковой датой начала и конца).
- Подключение лишних сервисов даёт шум и снижает точность.
- Даже «enterprise-агенты» не обгоняют простую схему ReAct.

🔎 Вывод: интеграция LLM-агентов с реальными системами пока очень хрупкая.
MCP-Universe предлагает прозрачный способ измерять эти сбои и улучшать качество работы.

📄 Статья: https://arxiv.org/abs/2508.14704

BY Машиннное обучение | Наука о данных Библиотека




Share with your friend now:
tgoop.com/machinelearning_books/1141

View MORE
Open in Telegram


Telegram News

Date: |

As five out of seven counts were serious, Hui sentenced Ng to six years and six months in jail. The imprisonment came as Telegram said it was "surprised" by claims that privacy commissioner Ada Chung Lai-ling is seeking to block the messaging app due to doxxing content targeting police and politicians. Concise Joined by Telegram's representative in Brazil, Alan Campos, Perekopsky noted the platform was unable to cater to some of the TSE requests due to the company's operational setup. But Perekopsky added that these requests could be studied for future implementation. Telegram message that reads: "Bear Market Screaming Therapy Group. You are only allowed to send screaming voice notes. Everything else = BAN. Text pics, videos, stickers, gif = BAN. Anything other than screaming = BAN. You think you are smart = BAN.
from us


Telegram Машиннное обучение | Наука о данных Библиотека
FROM American