tgoop.com/llm_under_hood/704
Last Update:
Время доказать, что есть архитектуры AI агентов лучше, чем SGR!
Вчера я выложил тестовый набор задач для соревнования ERC3. Там агенту нужно подрабатывать чатботом в небольшой международной компании с кучей APIшек, правилами безопасности и даже своей wiki. Заодно и выложил в Github пример простого агента, который выбивает 56.2.
Пока в лидерборде преобладают архитектуры на базе Schema-Guided Reasoning. Кто сможет сделать лучше? Хоть что, но не SGR. Или еще какой комбинированный подход.
Кстати, Валерий написал пост про то, как он взял 100
Соревнование 9 декабря будет заключаться в том, что я выложу в доступ 100 новых задач для того же агента. Нужно будет переключить своего агента на новый набор задач и запустить. Кто сможет получить больше очков за ~30 минут, тот и победил.
Платформа | Регистрация | Пример агента | Видео на русском
Кстати, а нужно отлаживать механизм переключения агента на новые задачи в рамках одной API-шки? Я могу выкатить ERC3-TEST со старыми задачами плюс еще парочкой новых посложнее. Заодно там и свой лидерборд будет))
Ваш, @llm_under_hood 🤗
BY LLM под капотом
Share with your friend now:
tgoop.com/llm_under_hood/704
