tgoop.com/neuraldeep/1623
Create:
Last Update:
Last Update:
Вместе с коллегами по цеху взялись за интересный бенчмарк по deep research - SealQA.
Хотим протестировать разные подходы к реализации ReAct-агентов, но с одним важным условием: использовать только небольшие LLM, в идеале до 30B параметров. Сейчас для тестов взяли gpt-4o-mini
.
🤔 Почему это важно?
Большие LLM, без сомнения, справляются лучше, но они всё ещё дороги. И хотя со временем все модели дешевеют, вопрос выбора оптимальной LLM под конкретную задачу никуда не денется. Такие исследования как раз и помогают понять реальные возможности небольших моделей.
Мы сравниваем два подхода:
1. SGR Deep Research от Neural Kovalski. Это архитектура React NextStep на основе гибридного подхода SO. Уже есть зрелая реализация GitHub
2. Мой подход: классический ReAct-агент с одним-единственным инструментом для поиска в интернете. Моя цель создать базовый уровень, чтобы было с чем сравнивать. Пока сырой вариант GitHub (не рекомендую использовать)
📈 Первые результаты (из 111 вопросов):
* SGR Deep Research: 28 правильных ответов.
* Мой ReAct + FC: 12 правильных ответов.
* Официальный бенчмарк для gpt-4o-mini: 0 правильных ответов.
Вывод: простой ReAct-агент даже на небольшой модели уже показывает результат, значительно превосходящий нулевой уровень.
Далее подробнее о результатах, проблемах и их решениях.