tgoop.com/neuraldeep/1324
Last Update:
Deep Research ты мне верь, я все нужное нашёл!
Ходил бродил как варенье по интернету и не нашёл для себя адекватного готового бенчмарка для таких агентских систем, т.е например на сайте openai задачи на рисерч которые я в жизни бы даже не придумал мне что-то простое нужно запросы более приземленого характера, ну что поделать будем изобретать
А теперь к метрикам я провел анализ по 5 реквестам к своему Deep Research и Perplexity и Grok3
На текущий момент это усредненная оценка двух судей
Оценивал я + claude 3.5 sonnet(LLM as judge)
За метрики я взял такие параметры как
Глубина анализа: Сколько было найденно ссылок и источников и насколько они актуальный (высший бал у преплексити у них точно лучший поисковой движок)
Структурированность: четкая организация с помощью CoT(мой подход) у преплексити возможно тоже SO + CoT структура там есть
Актуальность: тут мы оцениваем даты и понимание запроса в связи со временем
Итеративность: есть ли последовательность в действиях и как она описывается (планировщик и оценка процесса что важно понимать куда забрел агент при поиске информации)
Практическая ценность: можно ли данные результаты приложить к аналитике для применения в проктите (корпоративные решения или локальные ценности) предвзятая метрика я сам судил можно ли что-то делать с данными
Разница в почти 8 процентов?
Пойду соберу выборку запросов по больше но даже на 5 такой подход показывается небольшую разницу
Выводов пока не будет просто скажу что удалось повторить но не превзойти
UPD подкинул еще Grok3 в сравнение