Neural Kovalskii@neuraldeep P.1621

Neural Kovalskii

SGR Deep Research бенчмарк?

В предыдущем посте я рассказал, как мы выкатили наконец стабильную версию sgr deep research системы, что бы начать прогонять разных SGR/non SGR агентов по бенчам и задачам

Времени конечно у команды open-source на это не очень много, но то, что я успеваю руками делать, то делается через "Курсор" 😈

Что я себе навайбокдил

1) Логи, очень и очень подробные логи
2) Интерфейс, что бы эти логи не читать в терминале или в IDE
3) Разные виды промптов (для gpt-4o-mini/qwen)

Нашел топ SealQA бенчмарк как я считаю, для Deep Research.
Почему? Я дал вопросы от туда паре человек, так они искали ответ 30 минут (считаю что бенч, отличный)

Далее нашел топ агента ROMA, который выбивает SOTA под этот бенчмарк, и о ужас, что я увидел в промптах, примерно 15к токенов разных оверфитов и трюков для прохождения бенча, бям

Я же решил таким не заниматся и прогнал на 111 вопросов, и глазками просмотрел(больно) что имеем gpt-4o-mini выбила 0.25 точности (не густо?)

Зайдите в бенч сами, увидите, сколько модели выбивают на нем, а выбивают они 0

SealQA is a new challenge benchmark for evaluating SEarch- Augmented Language models on fact-seeking questions where web search yields conflicting, noisy, or unhelpful results

За сим я откланяюсь дальше творить добро и знания в мире LLM, где все покрыто тайной и мистификацией

Кстати поглядеть кусочек логов и трейса можно тут

Репо: https://github.com/vakovalskii/sgr-deep-research

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

5🔥27👍8❤7

www.tgoop.com/neuraldeep/1619

4.99K viewsSep 17 at 15:19