LLM_UNDER_HOOD Telegram 704
Время доказать, что есть архитектуры AI агентов лучше, чем SGR!

Вчера я выложил тестовый набор задач для соревнования ERC3. Там агенту нужно подрабатывать чатботом в небольшой международной компании с кучей APIшек, правилами безопасности и даже своей wiki. Заодно и выложил в Github пример простого агента, который выбивает 56.2.

Пока в лидерборде преобладают архитектуры на базе Schema-Guided Reasoning. Кто сможет сделать лучше? Хоть что, но не SGR. Или еще какой комбинированный подход.

Кстати, Валерий написал пост про то, как он взял 100

Соревнование 9 декабря будет заключаться в том, что я выложу в доступ 100 новых задач для того же агента. Нужно будет переключить своего агента на новый набор задач и запустить. Кто сможет получить больше очков за ~30 минут, тот и победил.

Платформа | Регистрация | Пример агента | Видео на русском

Кстати, а нужно отлаживать механизм переключения агента на новые задачи в рамках одной API-шки? Я могу выкатить ERC3-TEST со старыми задачами плюс еще парочкой новых посложнее. Заодно там и свой лидерборд будет))

Ваш, @llm_under_hood 🤗
🔥3111👍8🤯2😁1



tgoop.com/llm_under_hood/704
Create:
Last Update:

Время доказать, что есть архитектуры AI агентов лучше, чем SGR!

Вчера я выложил тестовый набор задач для соревнования ERC3. Там агенту нужно подрабатывать чатботом в небольшой международной компании с кучей APIшек, правилами безопасности и даже своей wiki. Заодно и выложил в Github пример простого агента, который выбивает 56.2.

Пока в лидерборде преобладают архитектуры на базе Schema-Guided Reasoning. Кто сможет сделать лучше? Хоть что, но не SGR. Или еще какой комбинированный подход.

Кстати, Валерий написал пост про то, как он взял 100

Соревнование 9 декабря будет заключаться в том, что я выложу в доступ 100 новых задач для того же агента. Нужно будет переключить своего агента на новый набор задач и запустить. Кто сможет получить больше очков за ~30 минут, тот и победил.

Платформа | Регистрация | Пример агента | Видео на русском

Кстати, а нужно отлаживать механизм переключения агента на новые задачи в рамках одной API-шки? Я могу выкатить ERC3-TEST со старыми задачами плюс еще парочкой новых посложнее. Заодно там и свой лидерборд будет))

Ваш, @llm_under_hood 🤗

BY LLM под капотом


Share with your friend now:
tgoop.com/llm_under_hood/704

View MORE
Open in Telegram


Telegram News

Date: |

How to Create a Private or Public Channel on Telegram? The group also hosted discussions on committing arson, Judge Hui said, including setting roadblocks on fire, hurling petrol bombs at police stations and teaching people to make such weapons. The conversation linked to arson went on for two to three months, Hui said. How to create a business channel on Telegram? (Tutorial) Telegram is a leading cloud-based instant messages platform. It became popular in recent years for its privacy, speed, voice and video quality, and other unmatched features over its main competitor Whatsapp. Telegram message that reads: "Bear Market Screaming Therapy Group. You are only allowed to send screaming voice notes. Everything else = BAN. Text pics, videos, stickers, gif = BAN. Anything other than screaming = BAN. You think you are smart = BAN.
from sg


Telegram LLM под капотом
FROM Singapore