NEURALDEEP Telegram 1620
SGR Deep Research бенчмарк?

В предыдущем посте я рассказал, как мы выкатили наконец стабильную версию sgr deep research системы, что бы начать прогонять разных SGR/non SGR агентов по бенчам и задачам

Времени конечно у команды open-source на это не очень много, но то, что я успеваю руками делать, то делается через "Курсор" 😈

Что я себе навайбокдил

1) Логи, очень и очень подробные логи
2) Интерфейс, что бы эти логи не читать в терминале или в IDE
3) Разные виды промптов (для gpt-4o-mini/qwen)

Нашел топ SealQA бенчмарк как я считаю, для Deep Research.
Почему? Я дал вопросы от туда паре человек, так они искали ответ 30 минут (считаю что бенч, отличный)

Далее нашел топ агента ROMA, который выбивает SOTA под этот бенчмарк, и о ужас, что я увидел в промптах, примерно 15к токенов разных оверфитов и трюков для прохождения бенча, бям

Я же решил таким не заниматся и прогнал на 111 вопросов, и глазками просмотрел(больно) что имеем gpt-4o-mini выбила 0.25 точности (не густо?)

Зайдите в бенч сами, увидите, сколько модели выбивают на нем, а выбивают они 0

SealQA is a new challenge benchmark for evaluating SEarch- Augmented Language models on fact-seeking questions where web search yields conflicting, noisy, or unhelpful results

За сим я откланяюсь дальше творить добро и знания в мире LLM, где все покрыто тайной и мистификацией

Кстати поглядеть кусочек логов и трейса можно тут


Репо: https://github.com/vakovalskii/sgr-deep-research
Please open Telegram to view this post
VIEW IN TELEGRAM
5🔥27👍87



tgoop.com/neuraldeep/1620
Create:
Last Update:

SGR Deep Research бенчмарк?

В предыдущем посте я рассказал, как мы выкатили наконец стабильную версию sgr deep research системы, что бы начать прогонять разных SGR/non SGR агентов по бенчам и задачам

Времени конечно у команды open-source на это не очень много, но то, что я успеваю руками делать, то делается через "Курсор" 😈

Что я себе навайбокдил

1) Логи, очень и очень подробные логи
2) Интерфейс, что бы эти логи не читать в терминале или в IDE
3) Разные виды промптов (для gpt-4o-mini/qwen)

Нашел топ SealQA бенчмарк как я считаю, для Deep Research.
Почему? Я дал вопросы от туда паре человек, так они искали ответ 30 минут (считаю что бенч, отличный)

Далее нашел топ агента ROMA, который выбивает SOTA под этот бенчмарк, и о ужас, что я увидел в промптах, примерно 15к токенов разных оверфитов и трюков для прохождения бенча, бям

Я же решил таким не заниматся и прогнал на 111 вопросов, и глазками просмотрел(больно) что имеем gpt-4o-mini выбила 0.25 точности (не густо?)

Зайдите в бенч сами, увидите, сколько модели выбивают на нем, а выбивают они 0

SealQA is a new challenge benchmark for evaluating SEarch- Augmented Language models on fact-seeking questions where web search yields conflicting, noisy, or unhelpful results

За сим я откланяюсь дальше творить добро и знания в мире LLM, где все покрыто тайной и мистификацией

Кстати поглядеть кусочек логов и трейса можно тут


Репо: https://github.com/vakovalskii/sgr-deep-research

BY Neural Kovalskii






Share with your friend now:
tgoop.com/neuraldeep/1620

View MORE
Open in Telegram


Telegram News

Date: |

A few years ago, you had to use a special bot to run a poll on Telegram. Now you can easily do that yourself in two clicks. Hit the Menu icon and select “Create Poll.” Write your question and add up to 10 options. Running polls is a powerful strategy for getting feedback from your audience. If you’re considering the possibility of modifying your channel in any way, be sure to ask your subscribers’ opinions first. When choosing the right name for your Telegram channel, use the language of your target audience. The name must sum up the essence of your channel in 1-3 words. If you’re planning to expand your Telegram audience, it makes sense to incorporate keywords into your name. Those being doxxed include outgoing Chief Executive Carrie Lam Cheng Yuet-ngor, Chung and police assistant commissioner Joe Chan Tung, who heads police's cyber security and technology crime bureau. With Bitcoin down 30% in the past week, some crypto traders have taken to Telegram to “voice” their feelings. To view your bio, click the Menu icon and select “View channel info.”
from us


Telegram Neural Kovalskii
FROM American