tgoop.com/neuraldeep/1621
Last Update:
SGR Deep Research бенчмарк?
В предыдущем посте я рассказал, как мы выкатили наконец стабильную версию sgr deep research системы, что бы начать прогонять разных SGR/non SGR агентов по бенчам и задачам
Времени конечно у команды open-source на это не очень много, но то, что я успеваю руками делать, то делается через "Курсор"
Что я себе навайбокдил
1) Логи, очень и очень подробные логи
2) Интерфейс, что бы эти логи не читать в терминале или в IDE
3) Разные виды промптов (для gpt-4o-mini/qwen)
Нашел топ SealQA бенчмарк как я считаю, для Deep Research.
Почему? Я дал вопросы от туда паре человек, так они искали ответ 30 минут (считаю что бенч, отличный)
Далее нашел топ агента ROMA, который выбивает SOTA под этот бенчмарк, и о ужас, что я увидел в промптах, примерно 15к токенов разных оверфитов и трюков для прохождения бенча, бям
Я же решил таким не заниматся и прогнал на 111 вопросов, и глазками просмотрел(больно) что имеем gpt-4o-mini выбила 0.25 точности (не густо?)
Зайдите в бенч сами, увидите, сколько модели выбивают на нем, а выбивают они 0
SealQA is a new challenge benchmark for evaluating SEarch- Augmented Language models on fact-seeking questions where web search yields conflicting, noisy, or unhelpful results
За сим я откланяюсь дальше творить добро и знания в мире LLM, где все покрыто тайной и мистификацией
Кстати поглядеть кусочек логов и трейса можно тут
Репо: https://github.com/vakovalskii/sgr-deep-research