LLM под капотом@llm_under_hood P.704

LLM_UNDER_HOOD Telegram 704

LLM под капотом

Время доказать, что есть архитектуры AI агентов лучше, чем SGR!

Вчера я выложил тестовый набор задач для соревнования ERC3. Там агенту нужно подрабатывать чатботом в небольшой международной компании с кучей APIшек, правилами безопасности и даже своей wiki. Заодно и выложил в Github пример простого агента, который выбивает 56.2.

Пока в лидерборде преобладают архитектуры на базе Schema-Guided Reasoning. Кто сможет сделать лучше? Хоть что, но не SGR. Или еще какой комбинированный подход.

Кстати, Валерий написал пост про то, как он взял 100

Соревнование 9 декабря будет заключаться в том, что я выложу в доступ 100 новых задач для того же агента. Нужно будет переключить своего агента на новый набор задач и запустить. Кто сможет получить больше очков за ~30 минут, тот и победил.

Платформа | Регистрация | Пример агента | Видео на русском

Кстати, а нужно отлаживать механизм переключения агента на новые задачи в рамках одной API-шки? Я могу выкатить ERC3-TEST со старыми задачами плюс еще парочкой новых посложнее. Заодно там и свой лидерборд будет))

Ваш, @llm_under_hood 🤗

🔥31❤11👍8🤯2😁1

www.tgoop.com/llm_under_hood/704

8.03K viewsedited Nov 29 at 13:06

tgoop.com/llm_under_hood/704

Create: 2025-11-29
Last Update: 2025-12-07 11:04:53

Время доказать, что есть архитектуры AI агентов лучше, чем SGR!

Вчера я выложил тестовый набор задач для соревнования ERC3. Там агенту нужно подрабатывать чатботом в небольшой международной компании с кучей APIшек, правилами безопасности и даже своей wiki. Заодно и выложил в Github пример простого агента, который выбивает 56.2.

Пока в лидерборде преобладают архитектуры на базе Schema-Guided Reasoning. Кто сможет сделать лучше? Хоть что, но не SGR. Или еще какой комбинированный подход.

Кстати, Валерий написал пост про то, как он взял 100

Соревнование 9 декабря будет заключаться в том, что я выложу в доступ 100 новых задач для того же агента. Нужно будет переключить своего агента на новый набор задач и запустить. Кто сможет получить больше очков за ~30 минут, тот и победил.

Платформа | Регистрация | Пример агента | Видео на русском

Кстати, а нужно отлаживать механизм переключения агента на новые задачи в рамках одной API-шки? Я могу выкатить ERC3-TEST со старыми задачами плюс еще парочкой новых посложнее. Заодно там и свой лидерборд будет))

Ваш, @llm_under_hood 🤗

BY LLM под капотом

Share with your friend now:
tgoop.com/llm_under_hood/704

Open in Telegram

Telegram News

Date: 2025-12-07|

How to Create a Private or Public Channel on Telegram? The group also hosted discussions on committing arson, Judge Hui said, including setting roadblocks on fire, hurling petrol bombs at police stations and teaching people to make such weapons. The conversation linked to arson went on for two to three months, Hui said. How to create a business channel on Telegram? (Tutorial) Telegram is a leading cloud-based instant messages platform. It became popular in recent years for its privacy, speed, voice and video quality, and other unmatched features over its main competitor Whatsapp. Telegram message that reads: "Bear Market Screaming Therapy Group. You are only allowed to send screaming voice notes. Everything else = BAN. Text pics, videos, stickers, gif = BAN. Anything other than screaming = BAN. You think you are smart = BAN.
from sg

Telegram LLM под капотом
FROM Singapore