tgoop.com/llm_under_hood/705
Last Update:
ERC3-TEST уже доступен
Это расширенный вариант задач для отладки работы вашего агента с ERC3 бенчмарком.
Платформа | Регистрация | Пример агента | Видео на русском
Из нового:
(1) Aetherion купила большая группа компаний, которая немного поменяла правила игры - см в wiki. Некоторые задачи используют этот контекст. Агент может его обнаружить, отслеживая значение wiki_sha1 в /whoami. В соревновательном бенчмарке будет в сумме 3-4 разных компании. В реальности в multi-tenant выкатках агентов могут быть и сотни контекстов, но для бенчмарка 3-4 хватит "за глаза".
(2) Этот бенчмарк использует старое API от ERC-DEV, поэтому клиент не меняется. Соревновательный бенчмарк будет использовать тот же механизм переключения.
(3) Вызовы к симулированным апишкам теперь работают с задержкой в 300ms, чтобы было реалистичнее.
(4) Добавил release notes на сайт.
Кстати, у ERC3-TEST - свой leaderboard. Пока он пуст))
Ваш, @llm_under_hood 🤗
BY LLM под капотом
Share with your friend now:
tgoop.com/llm_under_hood/705
