tgoop.com/machinelearning_ru/2953
Last Update:
🧠 Open Data Synthesis for Deep Research (InfoSeek): как «синтезировать» сложные ресёрч-задачи для LLM
Что за идея
Авторы предлагают формализовать deep-research как иерархические задачи с проверяемым ответом, а затем генерировать такие задачи автоматически — чтобы учить и тестировать модели на реальных сценариях «поиска + рассуждений». Это снимает боль с дефицитом хороших датасетов под агенты «как Perplexity/OpenAI DR».
Как это работает (по-простому)
1) Из веба строится «дерево исследования»: главный вопрос → подзадачи → факты/источники.
2) Узлы дерева превращаются в естественно-языковые подпро́сы, сохраняются метки: какие документы/шаги нужны.
3) Из дерева собирают финальные вопросы и треки рассуждений, пригодные для обучения/оценки.
4) На выходе — большой набор примеров + аккуратный тестовый сплит, чтобы не ловить утечки знаний.
Почему это важно
- Учим модели искать, планировать и проверять источники, а не просто вспоминать факты.
- Получаем мета-информацию (шаги, ретривальные метки) — полезно для сложных режимов обучения и анализа качества цитирования.
- Данные масштабируются: можно быстро наращивать объём и сложность задач.
Результаты (сигналы)
- Маленькие LLM ~3B, обученные на InfoSeek, обгоняют крупные 32B-модели и лёгкие коммерческие API на свежем бенчмарке BrowseComp-Plus; местами выходят на уровень сильных API.
- Это прямой намёк: лучшие задачи > просто большие параметры. Для DR-агентов решает качество/структура данных.
Как применять у себя
- Если делаете «исследовательского» агента:
• учите/дообучайте на иерархически синтезированных примерах;
• оценивайте на фиксированном корпусе (в духе BrowseComp-Plus), чтобы честно сравнивать ретривер и LLM;
• храните шаги рассуждений и ссылки — это даёт прозрачность и почву для улучшений (награды, дедуп, верификация).
TL;DR
InfoSeek показывает, как синтезировать качественные deep-research задачи с шагами и источниками. На таких данных даже компактные модели учатся искать, планировать и проверять факты — и выигрывают у более крупных собеседников.
https://huggingface.co/datasets/Lk123/InfoSeek
BY Машинное обучение RU

Share with your friend now:
tgoop.com/machinelearning_ru/2953