NEURALDEEP Telegram 1623
Вместе с коллегами по цеху взялись за интересный бенчмарк по deep research - SealQA.

Хотим протестировать разные подходы к реализации ReAct-агентов, но с одним важным условием: использовать только небольшие LLM, в идеале до 30B параметров. Сейчас для тестов взяли gpt-4o-mini.

🤔 Почему это важно?
Большие LLM, без сомнения, справляются лучше, но они всё ещё дороги. И хотя со временем все модели дешевеют, вопрос выбора оптимальной LLM под конкретную задачу никуда не денется. Такие исследования как раз и помогают понять реальные возможности небольших моделей.


Мы сравниваем два подхода:

1. SGR Deep Research от Neural Kovalski. Это архитектура React NextStep на основе гибридного подхода SO. Уже есть зрелая реализация GitHub

2. Мой подход: классический ReAct-агент с одним-единственным инструментом для поиска в интернете. Моя цель создать базовый уровень, чтобы было с чем сравнивать. Пока сырой вариант GitHub (не рекомендую использовать)

📈 Первые результаты (из 111 вопросов):
* SGR Deep Research: 28 правильных ответов.
* Мой ReAct + FC: 12 правильных ответов.
* Официальный бенчмарк для gpt-4o-mini: 0 правильных ответов.

Вывод: простой ReAct-агент даже на небольшой модели уже показывает результат, значительно превосходящий нулевой уровень.

Далее подробнее о результатах, проблемах и их решениях. ⬇️
Please open Telegram to view this post
VIEW IN TELEGRAM
10👍29🔥131🤔1



tgoop.com/neuraldeep/1623
Create:
Last Update:

Вместе с коллегами по цеху взялись за интересный бенчмарк по deep research - SealQA.

Хотим протестировать разные подходы к реализации ReAct-агентов, но с одним важным условием: использовать только небольшие LLM, в идеале до 30B параметров. Сейчас для тестов взяли gpt-4o-mini.

🤔 Почему это важно?

Большие LLM, без сомнения, справляются лучше, но они всё ещё дороги. И хотя со временем все модели дешевеют, вопрос выбора оптимальной LLM под конкретную задачу никуда не денется. Такие исследования как раз и помогают понять реальные возможности небольших моделей.


Мы сравниваем два подхода:

1. SGR Deep Research от Neural Kovalski. Это архитектура React NextStep на основе гибридного подхода SO. Уже есть зрелая реализация GitHub

2. Мой подход: классический ReAct-агент с одним-единственным инструментом для поиска в интернете. Моя цель создать базовый уровень, чтобы было с чем сравнивать. Пока сырой вариант GitHub (не рекомендую использовать)

📈 Первые результаты (из 111 вопросов):
* SGR Deep Research: 28 правильных ответов.
* Мой ReAct + FC: 12 правильных ответов.
* Официальный бенчмарк для gpt-4o-mini: 0 правильных ответов.

Вывод: простой ReAct-агент даже на небольшой модели уже показывает результат, значительно превосходящий нулевой уровень.

Далее подробнее о результатах, проблемах и их решениях. ⬇️

BY Neural Kovalskii




Share with your friend now:
tgoop.com/neuraldeep/1623

View MORE
Open in Telegram


Telegram News

Date: |

4How to customize a Telegram channel? Just at this time, Bitcoin and the broader crypto market have dropped to new 2022 lows. The Bitcoin price has tanked 10 percent dropping to $20,000. On the other hand, the altcoin space is witnessing even more brutal correction. Bitcoin has dropped nearly 60 percent year-to-date and more than 70 percent since its all-time high in November 2021. Healing through screaming therapy Telegram Channels requirements & features During the meeting with TSE Minister Edson Fachin, Perekopsky also mentioned the TSE channel on the platform as one of the firm's key success stories. Launched as part of the company's commitments to tackle the spread of fake news in Brazil, the verified channel has attracted more than 184,000 members in less than a month.
from us


Telegram Neural Kovalskii
FROM American