NEURALDEEP Telegram 1619
SGR Deep Research бенчмарк?

В предыдущем посте я рассказал, как мы выкатили наконец стабильную версию sgr deep research системы, что бы начать прогонять разных SGR/non SGR агентов по бенчам и задачам

Времени конечно у команды open-source на это не очень много, но то, что я успеваю руками делать, то делается через "Курсор" 😈

Что я себе навайбокдил

1) Логи, очень и очень подробные логи
2) Интерфейс, что бы эти логи не читать в терминале или в IDE
3) Разные виды промптов (для gpt-4o-mini/qwen)

Нашел топ SealQA бенчмарк как я считаю, для Deep Research.
Почему? Я дал вопросы от туда паре человек, так они искали ответ 30 минут (считаю что бенч, отличный)

Далее нашел топ агента ROMA, который выбивает SOTA под этот бенчмарк, и о ужас, что я увидел в промптах, примерно 15к токенов разных оверфитов и трюков для прохождения бенча, бям

Я же решил таким не заниматся и прогнал на 111 вопросов, и глазками просмотрел(больно) что имеем gpt-4o-mini выбила 0.25 точности (не густо?)

Зайдите в бенч сами, увидите, сколько модели выбивают на нем, а выбивают они 0

SealQA is a new challenge benchmark for evaluating SEarch- Augmented Language models on fact-seeking questions where web search yields conflicting, noisy, or unhelpful results

За сим я откланяюсь дальше творить добро и знания в мире LLM, где все покрыто тайной и мистификацией

Кстати поглядеть кусочек логов и трейса можно тут


Репо: https://github.com/vakovalskii/sgr-deep-research
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
5🔥27👍87



tgoop.com/neuraldeep/1619
Create:
Last Update:

SGR Deep Research бенчмарк?

В предыдущем посте я рассказал, как мы выкатили наконец стабильную версию sgr deep research системы, что бы начать прогонять разных SGR/non SGR агентов по бенчам и задачам

Времени конечно у команды open-source на это не очень много, но то, что я успеваю руками делать, то делается через "Курсор" 😈

Что я себе навайбокдил

1) Логи, очень и очень подробные логи
2) Интерфейс, что бы эти логи не читать в терминале или в IDE
3) Разные виды промптов (для gpt-4o-mini/qwen)

Нашел топ SealQA бенчмарк как я считаю, для Deep Research.
Почему? Я дал вопросы от туда паре человек, так они искали ответ 30 минут (считаю что бенч, отличный)

Далее нашел топ агента ROMA, который выбивает SOTA под этот бенчмарк, и о ужас, что я увидел в промптах, примерно 15к токенов разных оверфитов и трюков для прохождения бенча, бям

Я же решил таким не заниматся и прогнал на 111 вопросов, и глазками просмотрел(больно) что имеем gpt-4o-mini выбила 0.25 точности (не густо?)

Зайдите в бенч сами, увидите, сколько модели выбивают на нем, а выбивают они 0

SealQA is a new challenge benchmark for evaluating SEarch- Augmented Language models on fact-seeking questions where web search yields conflicting, noisy, or unhelpful results

За сим я откланяюсь дальше творить добро и знания в мире LLM, где все покрыто тайной и мистификацией

Кстати поглядеть кусочек логов и трейса можно тут


Репо: https://github.com/vakovalskii/sgr-deep-research

BY Neural Kovalskii






Share with your friend now:
tgoop.com/neuraldeep/1619

View MORE
Open in Telegram


Telegram News

Date: |

To upload a logo, click the Menu icon and select “Manage Channel.” In a new window, hit the Camera icon. How to Create a Private or Public Channel on Telegram? You can invite up to 200 people from your contacts to join your channel as the next step. Select the users you want to add and click “Invite.” You can skip this step altogether. While the character limit is 255, try to fit into 200 characters. This way, users will be able to take in your text fast and efficiently. Reveal the essence of your channel and provide contact information. For example, you can add a bot name, link to your pricing plans, etc. As five out of seven counts were serious, Hui sentenced Ng to six years and six months in jail.
from us


Telegram Neural Kovalskii
FROM American