tgoop.com/bigdatai/1584
Last Update:
LongCat представила VitaBench - бенчмарк для реальных сценариев работы AI-агентов
Команда LongCat выпустила VitaBench - открытый набор тестов, оценивающий, как искусственные агенты справляются с задачами из реальной жизни: доставка еды, рестораны и путешествия.
Бенчмарк проверяет три ключевых способности — рассуждение, использование инструментов и адаптивное взаимодействие.
Результаты более 20 лучших моделей оказались низкими: средний успех 30% между сценариями и 48% внутри одного. Даже топовые reasoning-модели показывают нестабильность — идеальных результатов (4 из 4 успешных запусков) нет вовсе.
Авторы отмечают, что агенты пока не готовы к надёжной работе в продакшене, но VitaBench помогает точно измерять прогресс и сложность агентных задач.
🌐 Project & Leaderboards: http://vitabench.github.io
💻 Code: https://github.com/meituan-longcat/vitabench
🤗 Dataset: https://huggingface.co/datasets/meituan-longcat/VitaBench
BY Big Data AI
Share with your friend now:
tgoop.com/bigdatai/1584
