Big Data AI@bigdatai P.1584

Big Data AI

LongCat представила VitaBench - бенчмарк для реальных сценариев работы AI-агентов

Команда LongCat выпустила VitaBench - открытый набор тестов, оценивающий, как искусственные агенты справляются с задачами из реальной жизни: доставка еды, рестораны и путешествия.

Бенчмарк проверяет три ключевых способности — рассуждение, использование инструментов и адаптивное взаимодействие.

Результаты более 20 лучших моделей оказались низкими: средний успех 30% между сценариями и 48% внутри одного. Даже топовые reasoning-модели показывают нестабильность — идеальных результатов (4 из 4 успешных запусков) нет вовсе.

Авторы отмечают, что агенты пока не готовы к надёжной работе в продакшене, но VitaBench помогает точно измерять прогресс и сложность агентных задач.

🌐 Project & Leaderboards: http://vitabench.github.io
💻 Code: https://github.com/meituan-longcat/vitabench
🤗 Dataset: https://huggingface.co/datasets/meituan-longcat/VitaBench

Meituan LongCat Team

VitaBench: Benchmarking LLM Agents with Versatile Interactive Tasks in Real-world Applications

VitaBench is a challenging benchmark that evaluates agents on versatile interactive tasks grounded in real-world settings, comprising 66 tools and 400 tasks.

www.tgoop.com/bigdatai/1584

936 viewsOct 24 at 13:01

tgoop.com/bigdatai/1584

Create: 2025-10-24
Last Update: 2025-10-27 04:47:17

BY Big Data AI

Share with your friend now:
tgoop.com/bigdatai/1584

Telegram News

LongCat представила VitaBench - бенчмарк для реальных сценариев работы AI-агентов