DATA_ANALYSIS_ML Telegram 3776
💡 WebSailor: опенсорс агент от Alibaba который ищет информацию в вебе

* Суть работы
Авторы предлагают методику пост-обучения, чтобы LLM могла шаг за шагом уточнять запросы и находить нужные данные на сложных страницах.

* Главные приёмы
* *Structured Sampling* — генерация задач с высокой неопределённостью.
* *Information Obfuscation* — часть подсказок скрывается, что заставляет модель планировать глубже.
* *DUPO* — облегчённый RL-алгоритм для обучения агентнов.

* Результаты
На датасете BrowseComp открытая версия агента выходит на уровень закрытых систем и в отдельных случаях работает быстрее человека. :contentReference[oaicite:2]{index=2}

* Код и веса

📌Ссылка: https://huggingface.co/papers/2507.02592



tgoop.com/data_analysis_ml/3776
Create:
Last Update:

💡 WebSailor: опенсорс агент от Alibaba который ищет информацию в вебе

* Суть работы
Авторы предлагают методику пост-обучения, чтобы LLM могла шаг за шагом уточнять запросы и находить нужные данные на сложных страницах.

* Главные приёмы
* *Structured Sampling* — генерация задач с высокой неопределённостью.
* *Information Obfuscation* — часть подсказок скрывается, что заставляет модель планировать глубже.
* *DUPO* — облегчённый RL-алгоритм для обучения агентнов.

* Результаты
На датасете BrowseComp открытая версия агента выходит на уровень закрытых систем и в отдельных случаях работает быстрее человека. :contentReference[oaicite:2]{index=2}

* Код и веса

📌Ссылка: https://huggingface.co/papers/2507.02592

BY Анализ данных (Data analysis)





Share with your friend now:
tgoop.com/data_analysis_ml/3776

View MORE
Open in Telegram


Telegram News

Date: |

With the “Bear Market Screaming Therapy Group,” we’ve now transcended language. Done! Now you’re the proud owner of a Telegram channel. The next step is to set up and customize your channel. A new window will come up. Enter your channel name and bio. (See the character limits above.) Click “Create.” Those being doxxed include outgoing Chief Executive Carrie Lam Cheng Yuet-ngor, Chung and police assistant commissioner Joe Chan Tung, who heads police's cyber security and technology crime bureau. Ng was convicted in April for conspiracy to incite a riot, public nuisance, arson, criminal damage, manufacturing of explosives, administering poison and wounding with intent to do grievous bodily harm between October 2019 and June 2020.
from us


Telegram Анализ данных (Data analysis)
FROM American