MACHINELEARNING_RU Telegram 2953
🧠 Open Data Synthesis for Deep Research (InfoSeek): как «синтезировать» сложные ресёрч-задачи для LLM

Что за идея
Авторы предлагают формализовать deep-research как иерархические задачи с проверяемым ответом, а затем генерировать такие задачи автоматически — чтобы учить и тестировать модели на реальных сценариях «поиска + рассуждений». Это снимает боль с дефицитом хороших датасетов под агенты «как Perplexity/OpenAI DR».

Как это работает (по-простому)
1) Из веба строится «дерево исследования»: главный вопрос → подзадачи → факты/источники.
2) Узлы дерева превращаются в естественно-языковые подпро́сы, сохраняются метки: какие документы/шаги нужны.
3) Из дерева собирают финальные вопросы и треки рассуждений, пригодные для обучения/оценки.
4) На выходе — большой набор примеров + аккуратный тестовый сплит, чтобы не ловить утечки знаний.

Почему это важно
- Учим модели искать, планировать и проверять источники, а не просто вспоминать факты.
- Получаем мета-информацию (шаги, ретривальные метки) — полезно для сложных режимов обучения и анализа качества цитирования.
- Данные масштабируются: можно быстро наращивать объём и сложность задач.

Результаты (сигналы)
- Маленькие LLM ~3B, обученные на InfoSeek, обгоняют крупные 32B-модели и лёгкие коммерческие API на свежем бенчмарке BrowseComp-Plus; местами выходят на уровень сильных API.
- Это прямой намёк: лучшие задачи > просто большие параметры. Для DR-агентов решает качество/структура данных.

Как применять у себя
- Если делаете «исследовательского» агента:
• учите/дообучайте на иерархически синтезированных примерах;
• оценивайте на фиксированном корпусе (в духе BrowseComp-Plus), чтобы честно сравнивать ретривер и LLM;
• храните шаги рассуждений и ссылки — это даёт прозрачность и почву для улучшений (награды, дедуп, верификация).

TL;DR
InfoSeek показывает, как синтезировать качественные deep-research задачи с шагами и источниками. На таких данных даже компактные модели учатся искать, планировать и проверять факты — и выигрывают у более крупных собеседников.

https://huggingface.co/datasets/Lk123/InfoSeek
3🔥3



tgoop.com/machinelearning_ru/2953
Create:
Last Update:

🧠 Open Data Synthesis for Deep Research (InfoSeek): как «синтезировать» сложные ресёрч-задачи для LLM

Что за идея
Авторы предлагают формализовать deep-research как иерархические задачи с проверяемым ответом, а затем генерировать такие задачи автоматически — чтобы учить и тестировать модели на реальных сценариях «поиска + рассуждений». Это снимает боль с дефицитом хороших датасетов под агенты «как Perplexity/OpenAI DR».

Как это работает (по-простому)
1) Из веба строится «дерево исследования»: главный вопрос → подзадачи → факты/источники.
2) Узлы дерева превращаются в естественно-языковые подпро́сы, сохраняются метки: какие документы/шаги нужны.
3) Из дерева собирают финальные вопросы и треки рассуждений, пригодные для обучения/оценки.
4) На выходе — большой набор примеров + аккуратный тестовый сплит, чтобы не ловить утечки знаний.

Почему это важно
- Учим модели искать, планировать и проверять источники, а не просто вспоминать факты.
- Получаем мета-информацию (шаги, ретривальные метки) — полезно для сложных режимов обучения и анализа качества цитирования.
- Данные масштабируются: можно быстро наращивать объём и сложность задач.

Результаты (сигналы)
- Маленькие LLM ~3B, обученные на InfoSeek, обгоняют крупные 32B-модели и лёгкие коммерческие API на свежем бенчмарке BrowseComp-Plus; местами выходят на уровень сильных API.
- Это прямой намёк: лучшие задачи > просто большие параметры. Для DR-агентов решает качество/структура данных.

Как применять у себя
- Если делаете «исследовательского» агента:
• учите/дообучайте на иерархически синтезированных примерах;
• оценивайте на фиксированном корпусе (в духе BrowseComp-Plus), чтобы честно сравнивать ретривер и LLM;
• храните шаги рассуждений и ссылки — это даёт прозрачность и почву для улучшений (награды, дедуп, верификация).

TL;DR
InfoSeek показывает, как синтезировать качественные deep-research задачи с шагами и источниками. На таких данных даже компактные модели учатся искать, планировать и проверять факты — и выигрывают у более крупных собеседников.

https://huggingface.co/datasets/Lk123/InfoSeek

BY Машинное обучение RU




Share with your friend now:
tgoop.com/machinelearning_ru/2953

View MORE
Open in Telegram


Telegram News

Date: |

The SUCK Channel on Telegram, with a message saying some content has been removed by the police. Photo: Telegram screenshot. “Hey degen, are you stressed? Just let it all out,” he wrote, along with a link to join the group. Telegram iOS app: In the “Chats” tab, click the new message icon in the right upper corner. Select “New Channel.” Although some crypto traders have moved toward screaming as a coping mechanism, several mental health experts call this therapy a pseudoscience. The crypto community finds its way to engage in one or the other way and share its feelings with other fellow members. How to build a private or public channel on Telegram?
from us


Telegram Машинное обучение RU
FROM American