LLM_UNDER_HOOD Telegram 649
Бенчмарк LLM и агентских подходов - будет

На прошлой неделе я начал разрабатывать среду для тестирования агентов (AGES - Agentic Enterprise Simulation). Она пригодится и для нового бенчмарка бизнес-агентов, и для соревнования ERC3, и просто как способ системно сравнить эффективность работы разных решений. SGR vs SGR in FC vs FC и тому подобное.

Для агентов и пользователей эта среда будет выглядеть как API-шка, куда можно постучаться и сказать “дай мне следующее задание для моего агента/чатбота”. Например:

У клиента появился новый проект, который нужно оценить. Найди мне из сотрудников ребят, которые свободны на 4 часа на неделе (продакт, ML Engineer, эксперт в маркетинге), забукай им календари на созвон с клиентом, вышли всем инвайт


И для выполнения агенту нужно будет подергать другие API:

- DirectoryAPI - чтобы получить список сотрудников со скиллами
- CalendarAPI - чтобы подобрать слот, когда они одновременно свободны
- EmailAPI - чтобы выслать инвайт

Все API будут опубликованы заранее, как и их схема. Заодно сделаем Python SDK, чтобы можно было удобно вызывать прямо из кода.

Задача AGES - заполнить заранее базу тестовыми данными, чтобы API-шки выдавали осмысленные данные, выдать задание, а потом сказать, было выполнено задание правильно или нет. Результаты работы каждого агента логгируются, оцениваются и потом выводятся на общий dashboard. Если агента допиливают - можно будет сравнить результаты разных запусков.

Что под капотом у агентов - не важно. Главное, чтобы задача была выполнена. Но командам нужно будет заполнить для каждого нового агента небольшой опросник (как в прошлых ERC), чтобы мы могли видеть, какие подходы работают с какими моделями, и насколько хорошо.

Вопросы

(1) Код будет открыт?
API AGES будет доступно всем. А после завершения ERC3 - я выложу все исходники в публичный доступ, чтобы каждый мог запустить его у себя или подкрутить под свои нужды.

(2) Какие будут API-шки? Пока это секрет в процессе разработки. Мне нужно выдержать баланс между релевантностью и интересом. Если сделать слишком реалистично и сложно - не соберем 300 команд, как это было в ERC2. Если сделать слишком просто - то результаты будут не такие интересные, а серьезные команды отвалятся. А если сделать слишком серьезно, то придет только один enterprise без стартапов и команд с горящими глазами.

(3) А ведь одно задание может быть выполнено дерганьем API в разном порядке! Да, я знаю. В ситуации с несколькими решениями, допустимо любое решение.

(4) Нужно ли будет агенту создавать новые инструменты на лету? Если хочется, то можно. Не все API-шки будут очень простыми (корпорация, таки), но если их обернуть кодом - жизнь может LLM-ке упроститься.

(5) Я хочу протестировать своего RPA, можно мне не через API, a через UI? Да, это можно. Решение задач через web-интерфейс будет отслеживаться в отдельной категории автоматически.

(6) Можно ли запускать несколько агентов параллельно? Да хоть сколько. У каждого будет своя изолированная симуляция.

(7) А что там под капотом? Golang / event sourcing / Discrete event simulation / много тестов и AI+Coding.

(8) Когда? Финальный раунд ERC3 будет осенью/зимой. Но среду выставить наружу для запуска экспериментов я хочу уже скоро, чтобы поскорее начать ее отлаживать.

Спонсор всего этого веселья - TimeToAct Austria. Мотиватор для именно этого поста - энергетика и движуха вокруг проекта SGR Deep Research и последнее сравнение SGR vs Function Calling.

Задача AGES - упростить такие сравнения и систематизировать их, предоставив общую базу для сравнений. Еще привлечь больше команд со всего мира, структурировать результаты и рассказать про них, чтобы вместе продвинуть State-of-the-Art еще на один шажок вперед.

Погнали?)

Ваш, @llm_under_hood 🤗
🔥8629👍152🤝2



tgoop.com/llm_under_hood/649
Create:
Last Update:

Бенчмарк LLM и агентских подходов - будет

На прошлой неделе я начал разрабатывать среду для тестирования агентов (AGES - Agentic Enterprise Simulation). Она пригодится и для нового бенчмарка бизнес-агентов, и для соревнования ERC3, и просто как способ системно сравнить эффективность работы разных решений. SGR vs SGR in FC vs FC и тому подобное.

Для агентов и пользователей эта среда будет выглядеть как API-шка, куда можно постучаться и сказать “дай мне следующее задание для моего агента/чатбота”. Например:

У клиента появился новый проект, который нужно оценить. Найди мне из сотрудников ребят, которые свободны на 4 часа на неделе (продакт, ML Engineer, эксперт в маркетинге), забукай им календари на созвон с клиентом, вышли всем инвайт


И для выполнения агенту нужно будет подергать другие API:

- DirectoryAPI - чтобы получить список сотрудников со скиллами
- CalendarAPI - чтобы подобрать слот, когда они одновременно свободны
- EmailAPI - чтобы выслать инвайт

Все API будут опубликованы заранее, как и их схема. Заодно сделаем Python SDK, чтобы можно было удобно вызывать прямо из кода.

Задача AGES - заполнить заранее базу тестовыми данными, чтобы API-шки выдавали осмысленные данные, выдать задание, а потом сказать, было выполнено задание правильно или нет. Результаты работы каждого агента логгируются, оцениваются и потом выводятся на общий dashboard. Если агента допиливают - можно будет сравнить результаты разных запусков.

Что под капотом у агентов - не важно. Главное, чтобы задача была выполнена. Но командам нужно будет заполнить для каждого нового агента небольшой опросник (как в прошлых ERC), чтобы мы могли видеть, какие подходы работают с какими моделями, и насколько хорошо.

Вопросы

(1) Код будет открыт?
API AGES будет доступно всем. А после завершения ERC3 - я выложу все исходники в публичный доступ, чтобы каждый мог запустить его у себя или подкрутить под свои нужды.

(2) Какие будут API-шки? Пока это секрет в процессе разработки. Мне нужно выдержать баланс между релевантностью и интересом. Если сделать слишком реалистично и сложно - не соберем 300 команд, как это было в ERC2. Если сделать слишком просто - то результаты будут не такие интересные, а серьезные команды отвалятся. А если сделать слишком серьезно, то придет только один enterprise без стартапов и команд с горящими глазами.

(3) А ведь одно задание может быть выполнено дерганьем API в разном порядке! Да, я знаю. В ситуации с несколькими решениями, допустимо любое решение.

(4) Нужно ли будет агенту создавать новые инструменты на лету? Если хочется, то можно. Не все API-шки будут очень простыми (корпорация, таки), но если их обернуть кодом - жизнь может LLM-ке упроститься.

(5) Я хочу протестировать своего RPA, можно мне не через API, a через UI? Да, это можно. Решение задач через web-интерфейс будет отслеживаться в отдельной категории автоматически.

(6) Можно ли запускать несколько агентов параллельно? Да хоть сколько. У каждого будет своя изолированная симуляция.

(7) А что там под капотом? Golang / event sourcing / Discrete event simulation / много тестов и AI+Coding.

(8) Когда? Финальный раунд ERC3 будет осенью/зимой. Но среду выставить наружу для запуска экспериментов я хочу уже скоро, чтобы поскорее начать ее отлаживать.

Спонсор всего этого веселья - TimeToAct Austria. Мотиватор для именно этого поста - энергетика и движуха вокруг проекта SGR Deep Research и последнее сравнение SGR vs Function Calling.

Задача AGES - упростить такие сравнения и систематизировать их, предоставив общую базу для сравнений. Еще привлечь больше команд со всего мира, структурировать результаты и рассказать про них, чтобы вместе продвинуть State-of-the-Art еще на один шажок вперед.

Погнали?)

Ваш, @llm_under_hood 🤗

BY LLM под капотом


Share with your friend now:
tgoop.com/llm_under_hood/649

View MORE
Open in Telegram


Telegram News

Date: |

Telegram channels fall into two types: "Doxxing content is forbidden on Telegram and our moderators routinely remove such content from around the world," said a spokesman for the messaging app, Remi Vaughn. The administrator of a telegram group, "Suck Channel," was sentenced to six years and six months in prison for seven counts of incitement yesterday. Telegram Android app: Open the chats list, click the menu icon and select “New Channel.” SUCK Channel Telegram
from us


Telegram LLM под капотом
FROM American