Warning: mkdir(): No space left on device in /var/www/tgoop/post.php on line 37

Warning: file_put_contents(aCache/aDaily/post/neuraldeep/--): Failed to open stream: No such file or directory in /var/www/tgoop/post.php on line 50
Neural Deep@neuraldeep P.1324
NEURALDEEP Telegram 1324
Neural Deep
Deep Web Research Продолжаю эксперименты на небольших моделях(локальных) сейчас в тесте t-tech/T-lite-it-1.0 Собрал сложный граф на кучи зависимостях (оно живое и работает!) Это просто что-то Ринат бы из @llm_under_hood оценил (оч много кастомных CoT и задач…
Deep Research ты мне верь, я все нужное нашёл!

Ходил бродил как варенье по интернету и не нашёл для себя адекватного готового бенчмарка для таких агентских систем, т.е например на сайте openai задачи на рисерч которые я в жизни бы даже не придумал мне что-то простое нужно запросы более приземленого характера, ну что поделать будем изобретать 😁

А теперь к метрикам я провел анализ по 5 реквестам к своему Deep Research и Perplexity и Grok3

На текущий момент это усредненная оценка двух судей
Оценивал я + claude 3.5 sonnet(LLM as judge)

За метрики я взял такие параметры как

Глубина анализа: Сколько было найденно ссылок и источников и насколько они актуальный (высший бал у преплексити у них точно лучший поисковой движок)

Структурированность: четкая организация с помощью CoT(мой подход) у преплексити возможно тоже SO + CoT структура там есть

Актуальность: тут мы оцениваем даты и понимание запроса в связи со временем

Итеративность: есть ли последовательность в действиях и как она описывается (планировщик и оценка процесса что важно понимать куда забрел агент при поиске информации)

Практическая ценность: можно ли данные результаты приложить к аналитике для применения в проктите (корпоративные решения или локальные ценности) предвзятая метрика я сам судил можно ли что-то делать с данными


Разница в почти 8 процентов?

Пойду соберу выборку запросов по больше но даже на 5 такой подход показывается небольшую разницу

Выводов пока не будет просто скажу что удалось повторить но не превзойти

UPD подкинул еще Grok3 в сравнение
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10👍5



tgoop.com/neuraldeep/1324
Create:
Last Update:

Deep Research ты мне верь, я все нужное нашёл!

Ходил бродил как варенье по интернету и не нашёл для себя адекватного готового бенчмарка для таких агентских систем, т.е например на сайте openai задачи на рисерч которые я в жизни бы даже не придумал мне что-то простое нужно запросы более приземленого характера, ну что поделать будем изобретать 😁

А теперь к метрикам я провел анализ по 5 реквестам к своему Deep Research и Perplexity и Grok3

На текущий момент это усредненная оценка двух судей
Оценивал я + claude 3.5 sonnet(LLM as judge)

За метрики я взял такие параметры как

Глубина анализа: Сколько было найденно ссылок и источников и насколько они актуальный (высший бал у преплексити у них точно лучший поисковой движок)

Структурированность: четкая организация с помощью CoT(мой подход) у преплексити возможно тоже SO + CoT структура там есть

Актуальность: тут мы оцениваем даты и понимание запроса в связи со временем

Итеративность: есть ли последовательность в действиях и как она описывается (планировщик и оценка процесса что важно понимать куда забрел агент при поиске информации)

Практическая ценность: можно ли данные результаты приложить к аналитике для применения в проктите (корпоративные решения или локальные ценности) предвзятая метрика я сам судил можно ли что-то делать с данными


Разница в почти 8 процентов?

Пойду соберу выборку запросов по больше но даже на 5 такой подход показывается небольшую разницу

Выводов пока не будет просто скажу что удалось повторить но не превзойти

UPD подкинул еще Grok3 в сравнение

BY Neural Deep





Share with your friend now:
tgoop.com/neuraldeep/1324

View MORE
Open in Telegram


Telegram News

Date: |

The group’s featured image is of a Pepe frog yelling, often referred to as the “REEEEEEE” meme. Pepe the Frog was created back in 2005 by Matt Furie and has since become an internet symbol for meme culture and “degen” culture. 6How to manage your Telegram channel? bank east asia october 20 kowloon Telegram channels enable users to broadcast messages to multiple users simultaneously. Like on social media, users need to subscribe to your channel to get access to your content published by one or more administrators. Over 33,000 people sent out over 1,000 doxxing messages in the group. Although the administrators tried to delete all of the messages, the posting speed was far too much for them to keep up.
from us


Telegram Neural Deep
FROM American