Машинное обучение RU@machinelearning

Машинное обучение RU

🧠 Open Data Synthesis for Deep Research (InfoSeek): как «синтезировать» сложные ресёрч-задачи для LLM

Что за идея
Авторы предлагают формализовать deep-research как иерархические задачи с проверяемым ответом, а затем генерировать такие задачи автоматически — чтобы учить и тестировать модели на реальных сценариях «поиска + рассуждений». Это снимает боль с дефицитом хороших датасетов под агенты «как Perplexity/OpenAI DR».

Как это работает (по-простому)
1) Из веба строится «дерево исследования»: главный вопрос → подзадачи → факты/источники.
2) Узлы дерева превращаются в естественно-языковые подпро́сы, сохраняются метки: какие документы/шаги нужны.
3) Из дерева собирают финальные вопросы и треки рассуждений, пригодные для обучения/оценки.
4) На выходе — большой набор примеров + аккуратный тестовый сплит, чтобы не ловить утечки знаний.

Почему это важно
- Учим модели искать, планировать и проверять источники, а не просто вспоминать факты.
- Получаем мета-информацию (шаги, ретривальные метки) — полезно для сложных режимов обучения и анализа качества цитирования.
- Данные масштабируются: можно быстро наращивать объём и сложность задач.

Результаты (сигналы)
- Маленькие LLM ~3B, обученные на InfoSeek, обгоняют крупные 32B-модели и лёгкие коммерческие API на свежем бенчмарке BrowseComp-Plus; местами выходят на уровень сильных API.
- Это прямой намёк: лучшие задачи > просто большие параметры. Для DR-агентов решает качество/структура данных.

Как применять у себя
- Если делаете «исследовательского» агента:
• учите/дообучайте на иерархически синтезированных примерах;
• оценивайте на фиксированном корпусе (в духе BrowseComp-Plus), чтобы честно сравнивать ретривер и LLM;
• храните шаги рассуждений и ссылки — это даёт прозрачность и почву для улучшений (награды, дедуп, верификация).

TL;DR
InfoSeek показывает, как синтезировать качественные deep-research задачи с шагами и источниками. На таких данных даже компактные модели учатся искать, планировать и проверять факты — и выигрывают у более крупных собеседников.

https://huggingface.co/datasets/Lk123/InfoSeek

huggingface.co

Lk123/InfoSeek · Datasets at Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

❤3🔥3

www.tgoop.com/machinelearning_ru/2953

1.63K viewsSep 5 at 19:03