DATA_ANALYSIS_ML Telegram 3823
🧠 Как оживить open-source LLM без дообучения?

Большинство открытых языковых моделей "замерзают" во времени: они не умеют гуглить, не могут обновляться и, как следствие, проваливаются на свежих научных задачах.

📄 Новый подход — X‑Master

Он превращает любую LLM в агента с доступом к коду, вебу и самокритике, не изменяя веса модели.

💡 Как это работает:

– Модель может вставить Python-код прямо в ответ
– Код выполняется в песочнице, результат возвращается в чат
– Это позволяет модели использовать «внешнюю память»: веб-скрапинг, вычисления, даже вызов инструментов

Чтобы избежать случайных ошибок, авторы запускают 5 Solver-клонов, а затем роли Critic → Rewriter → Selector доводят ответ до ума.

Этот «поиск → чистка» напоминает reinforcement rollouts, но не требует переобучения.

📈 Результат:
– DeepSeek-R1 на задаче «Humanity’s Last Exam»: с 17.7% до 32.1%
– Обходит закрытые модели на сложном биотесте на +5 пунктов

💥 И всё это — без дообучения. Просто обёртка.

Промпты, sandbox, и немного здравого смысла — и ваша модель снова в игре.

arxiv.org/abs/2507.05241

@data_analysis_ml
14👍7🔥6



tgoop.com/data_analysis_ml/3823
Create:
Last Update:

🧠 Как оживить open-source LLM без дообучения?

Большинство открытых языковых моделей "замерзают" во времени: они не умеют гуглить, не могут обновляться и, как следствие, проваливаются на свежих научных задачах.

📄 Новый подход — X‑Master

Он превращает любую LLM в агента с доступом к коду, вебу и самокритике, не изменяя веса модели.

💡 Как это работает:

– Модель может вставить Python-код прямо в ответ
– Код выполняется в песочнице, результат возвращается в чат
– Это позволяет модели использовать «внешнюю память»: веб-скрапинг, вычисления, даже вызов инструментов

Чтобы избежать случайных ошибок, авторы запускают 5 Solver-клонов, а затем роли Critic → Rewriter → Selector доводят ответ до ума.

Этот «поиск → чистка» напоминает reinforcement rollouts, но не требует переобучения.

📈 Результат:
– DeepSeek-R1 на задаче «Humanity’s Last Exam»: с 17.7% до 32.1%
– Обходит закрытые модели на сложном биотесте на +5 пунктов

💥 И всё это — без дообучения. Просто обёртка.

Промпты, sandbox, и немного здравого смысла — и ваша модель снова в игре.

arxiv.org/abs/2507.05241

@data_analysis_ml

BY Анализ данных (Data analysis)




Share with your friend now:
tgoop.com/data_analysis_ml/3823

View MORE
Open in Telegram


Telegram News

Date: |

According to media reports, the privacy watchdog was considering “blacklisting” some online platforms that have repeatedly posted doxxing information, with sources saying most messages were shared on Telegram. Administrators ‘Ban’ on Telegram Co-founder of NFT renting protocol Rentable World emiliano.eth shared the group Tuesday morning on Twitter, calling out the "degenerate" community, or crypto obsessives that engage in high-risk trading. Today, we will address Telegram channels and how to use them for maximum benefit.
from us


Telegram Анализ данных (Data analysis)
FROM American