max.sh@max_dot

max.sh

🧑‍💻 Terminal Bench получил большой апдейт - версию 2.0. Анонс тут

Пару недель назад я писал пост о том, что это вообще такое.

Если коротко, то за названием крылось сразу несколько вещей:
1) бенчмарк, по задумке и идее, такой же как SWE Bench: агенту дают задачу и среду для работы, а потом прогоняют решения через юнит-тесты
2) среда для запуска агентов и тестирования - фреймворк брал на себя самую сложную и неприятную часть вокруг инфраструктуры и логов
3) агент, адаптированный под работу в терминале

Проект обрел большую популярность у разработчиков кодинг агентов и собрал обширное комьюнити, которое хотело еще больше фичей.

Авторы подумали-подумали и выкатили апгрейд, где теперь все три сущности разделены и имеют свое имя.

Во-первых, terminal-bench – это теперь только название бенчмарка. Он и именуется terminal-bench 2.0
Усложнили задачи, уделили больше внимания валидации качества.
Лидерборд тут https://www.tbench.ai/leaderboard и лидирует пока Warp с accuracy 50%

Самое большое же нововведение – это выпуск фреймворка Harbor. Теперь Harbor представляет из себя пункт 2) описанный выше. То есть это все то же самое, что уже было в оригинальной версии + три больших фичи.

- теперь можно гонять агентов не только в локальных контейнерах, но и в облаке, через интеграции с Daytona или Modal. Так можно кратно добиться масштабирования ваших eval-ов

- добавили возможность делать RL! И это самое горячее нововведение. Но правда пока что очень сыро и с трудом работает. По задумке можно тюнить своего агента на траекториях (или как их называют rollouts). для этого нужно собирать реворды и токены. Реализовать эту часть на вас, а делать обучение агента и запускать агентов для сбора этих самых траекторий на плечах фреймворка. Детали тут

- добавили утилиту для экспорта логов действий агента в формате ShareGPT для дальнейшего SFT тюнинга. Детали тут

Причина почему Harbor вынесен в новый проект (а не существующий) только в попытке развивать бренд и уйти от путаницы в названиях.

Так, terminal bench будет ассоциироваться у всех только с бенчмарком, а Harbor с средой для прогонов агента.

Please open Telegram to view this post

VIEW IN TELEGRAM

⚡10👍9🔥6🆒1

www.tgoop.com/max_dot_sh/163

2.74K viewsedited Nov 12 at 15:59

tgoop.com/max_dot_sh/163

Create: 2025-11-12
Last Update: 2025-12-11 19:38:16

Telegram News

🧑‍💻 Terminal Bench получил большой апдейт - версию 2.0. Анонс тут