tgoop.com/max_dot_sh/163
Last Update:
Пару недель назад я писал пост о том, что это вообще такое.
Если коротко, то за названием крылось сразу несколько вещей:
1) бенчмарк, по задумке и идее, такой же как SWE Bench: агенту дают задачу и среду для работы, а потом прогоняют решения через юнит-тесты
2) среда для запуска агентов и тестирования - фреймворк брал на себя самую сложную и неприятную часть вокруг инфраструктуры и логов
3) агент, адаптированный под работу в терминале
Проект обрел большую популярность у разработчиков кодинг агентов и собрал обширное комьюнити, которое хотело еще больше фичей.
Авторы подумали-подумали и выкатили апгрейд, где теперь все три сущности разделены и имеют свое имя.
Во-первых, terminal-bench – это теперь только название бенчмарка. Он и именуется terminal-bench 2.0
Усложнили задачи, уделили больше внимания валидации качества.
Лидерборд тут https://www.tbench.ai/leaderboard и лидирует пока Warp с accuracy 50%
Самое большое же нововведение – это выпуск фреймворка Harbor. Теперь Harbor представляет из себя пункт 2) описанный выше. То есть это все то же самое, что уже было в оригинальной версии + три больших фичи.
- теперь можно гонять агентов не только в локальных контейнерах, но и в облаке, через интеграции с Daytona или Modal. Так можно кратно добиться масштабирования ваших eval-ов
- добавили возможность делать RL! И это самое горячее нововведение. Но правда пока что очень сыро и с трудом работает. По задумке можно тюнить своего агента на траекториях (или как их называют rollouts). для этого нужно собирать реворды и токены. Реализовать эту часть на вас, а делать обучение агента и запускать агентов для сбора этих самых траекторий на плечах фреймворка. Детали тут
- добавили утилиту для экспорта логов действий агента в формате ShareGPT для дальнейшего SFT тюнинга. Детали тут
Причина почему Harbor вынесен в новый проект (а не существующий) только в попытке развивать бренд и уйти от путаницы в названиях.
Так, terminal bench будет ассоциироваться у всех только с бенчмарком, а Harbor с средой для прогонов агента.
