tgoop.com/data_analysis_ml/3823
Last Update:
🧠 Как оживить open-source LLM без дообучения?
Большинство открытых языковых моделей "замерзают" во времени: они не умеют гуглить, не могут обновляться и, как следствие, проваливаются на свежих научных задачах.
📄 Новый подход — X‑Master
Он превращает любую LLM в агента с доступом к коду, вебу и самокритике, не изменяя веса модели.
💡 Как это работает:
– Модель может вставить Python-код прямо в ответ
– Код выполняется в песочнице, результат возвращается в чат
– Это позволяет модели использовать «внешнюю память»: веб-скрапинг, вычисления, даже вызов инструментов
Чтобы избежать случайных ошибок, авторы запускают 5 Solver-клонов, а затем роли Critic → Rewriter → Selector доводят ответ до ума.
Этот «поиск → чистка» напоминает reinforcement rollouts, но не требует переобучения.
📈 Результат:
– DeepSeek-R1 на задаче «Humanity’s Last Exam»: с 17.7% до 32.1%
– Обходит закрытые модели на сложном биотесте на +5 пунктов
💥 И всё это — без дообучения. Просто обёртка.
Промпты, sandbox, и немного здравого смысла — и ваша модель снова в игре.
arxiv.org/abs/2507.05241
@data_analysis_ml
BY Анализ данных (Data analysis)

Share with your friend now:
tgoop.com/data_analysis_ml/3823