MAX_DOT_SH Telegram 163
🧑‍💻 Terminal Bench получил большой апдейт - версию 2.0. Анонс тут

Пару недель назад я писал пост о том, что это вообще такое.

Если коротко, то за названием крылось сразу несколько вещей:
1) бенчмарк, по задумке и идее, такой же как SWE Bench: агенту дают задачу и среду для работы, а потом прогоняют решения через юнит-тесты
2) среда для запуска агентов и тестирования - фреймворк брал на себя самую сложную и неприятную часть вокруг инфраструктуры и логов
3) агент, адаптированный под работу в терминале

Проект обрел большую популярность у разработчиков кодинг агентов и собрал обширное комьюнити, которое хотело еще больше фичей.

Авторы подумали-подумали и выкатили апгрейд, где теперь все три сущности разделены и имеют свое имя.

Во-первых, terminal-bench – это теперь только название бенчмарка. Он и именуется terminal-bench 2.0
Усложнили задачи, уделили больше внимания валидации качества.
Лидерборд тут https://www.tbench.ai/leaderboard и лидирует пока Warp с accuracy 50%

Самое большое же нововведение – это выпуск фреймворка Harbor. Теперь Harbor представляет из себя пункт 2) описанный выше. То есть это все то же самое, что уже было в оригинальной версии + три больших фичи.

- теперь можно гонять агентов не только в локальных контейнерах, но и в облаке, через интеграции с Daytona или Modal. Так можно кратно добиться масштабирования ваших eval-ов

- добавили возможность делать RL! И это самое горячее нововведение. Но правда пока что очень сыро и с трудом работает. По задумке можно тюнить своего агента на траекториях (или как их называют rollouts). для этого нужно собирать реворды и токены. Реализовать эту часть на вас, а делать обучение агента и запускать агентов для сбора этих самых траекторий на плечах фреймворка. Детали тут

- добавили утилиту для экспорта логов действий агента в формате ShareGPT для дальнейшего SFT тюнинга. Детали тут

Причина почему Harbor вынесен в новый проект (а не существующий) только в попытке развивать бренд и уйти от путаницы в названиях.

Так, terminal bench будет ассоциироваться у всех только с бенчмарком, а Harbor с средой для прогонов агента.
Please open Telegram to view this post
VIEW IN TELEGRAM
10👍9🔥6🆒1



tgoop.com/max_dot_sh/163
Create:
Last Update:

🧑‍💻 Terminal Bench получил большой апдейт - версию 2.0. Анонс тут

Пару недель назад я писал пост о том, что это вообще такое.

Если коротко, то за названием крылось сразу несколько вещей:
1) бенчмарк, по задумке и идее, такой же как SWE Bench: агенту дают задачу и среду для работы, а потом прогоняют решения через юнит-тесты
2) среда для запуска агентов и тестирования - фреймворк брал на себя самую сложную и неприятную часть вокруг инфраструктуры и логов
3) агент, адаптированный под работу в терминале

Проект обрел большую популярность у разработчиков кодинг агентов и собрал обширное комьюнити, которое хотело еще больше фичей.

Авторы подумали-подумали и выкатили апгрейд, где теперь все три сущности разделены и имеют свое имя.

Во-первых, terminal-bench – это теперь только название бенчмарка. Он и именуется terminal-bench 2.0
Усложнили задачи, уделили больше внимания валидации качества.
Лидерборд тут https://www.tbench.ai/leaderboard и лидирует пока Warp с accuracy 50%

Самое большое же нововведение – это выпуск фреймворка Harbor. Теперь Harbor представляет из себя пункт 2) описанный выше. То есть это все то же самое, что уже было в оригинальной версии + три больших фичи.

- теперь можно гонять агентов не только в локальных контейнерах, но и в облаке, через интеграции с Daytona или Modal. Так можно кратно добиться масштабирования ваших eval-ов

- добавили возможность делать RL! И это самое горячее нововведение. Но правда пока что очень сыро и с трудом работает. По задумке можно тюнить своего агента на траекториях (или как их называют rollouts). для этого нужно собирать реворды и токены. Реализовать эту часть на вас, а делать обучение агента и запускать агентов для сбора этих самых траекторий на плечах фреймворка. Детали тут

- добавили утилиту для экспорта логов действий агента в формате ShareGPT для дальнейшего SFT тюнинга. Детали тут

Причина почему Harbor вынесен в новый проект (а не существующий) только в попытке развивать бренд и уйти от путаницы в названиях.

Так, terminal bench будет ассоциироваться у всех только с бенчмарком, а Harbor с средой для прогонов агента.

BY max.sh


Share with your friend now:
tgoop.com/max_dot_sh/163

View MORE
Open in Telegram


Telegram News

Date: |

Telegram is a leading cloud-based instant messages platform. It became popular in recent years for its privacy, speed, voice and video quality, and other unmatched features over its main competitor Whatsapp. As the broader market downturn continues, yelling online has become the crypto trader’s latest coping mechanism after the rise of Goblintown Ethereum NFTs at the end of May and beginning of June, where holders made incoherent groaning sounds and role-played as urine-loving goblin creatures in late-night Twitter Spaces. Concise A Telegram channel is used for various purposes, from sharing helpful content to implementing a business strategy. In addition, you can use your channel to build and improve your company image, boost your sales, make profits, enhance customer loyalty, and more. Hui said the messages, which included urging the disruption of airport operations, were attempts to incite followers to make use of poisonous, corrosive or flammable substances to vandalize police vehicles, and also called on others to make weapons to harm police.
from us


Telegram max.sh
FROM American