MACHINELEARNING_RU Telegram 2946
👁️🧠 R-4B: маленькая, но умная мультимодальная модель

Исследователи представили R-4B — vision-модель с 4B параметров, которая догоняет и даже обгоняет 16B аналоги в сложных визуальных задачах рассуждения.

В чём фишка:
- Модель сама решает, думать пошагово или отвечать сразу.
- На простых задачах — короткий ответ, экономия токенов.
- На сложных — развёрнутый reasoning со «scratchpad».

⚙️ Как обучали:
1. Дали два режима — reasoning (с тэгами `<think>…</think>`) и direct (пустые `<think></think>`).
2. Использовали Bi-mode Policy Optimization: для каждого промпта модель генерирует оба ответа, система оценивает и учит, когда стоит «думать».

📊 Итог:
- На лёгких задачах R-4B работает быстро и экономно.
- На тяжёлых — разворачивает reasoning и показывает качество на уровне 16B моделей, оставаясь компактной.
- Новый SOTA на 25 бенчмарках.

🔗 Paper: arxiv.org/abs/2508.21113

#AI #Vision #Multimodal #Research
🔥82👍2



tgoop.com/machinelearning_ru/2946
Create:
Last Update:

👁️🧠 R-4B: маленькая, но умная мультимодальная модель

Исследователи представили R-4B — vision-модель с 4B параметров, которая догоняет и даже обгоняет 16B аналоги в сложных визуальных задачах рассуждения.

В чём фишка:
- Модель сама решает, думать пошагово или отвечать сразу.
- На простых задачах — короткий ответ, экономия токенов.
- На сложных — развёрнутый reasoning со «scratchpad».

⚙️ Как обучали:
1. Дали два режима — reasoning (с тэгами `<think>…</think>`) и direct (пустые `<think></think>`).
2. Использовали Bi-mode Policy Optimization: для каждого промпта модель генерирует оба ответа, система оценивает и учит, когда стоит «думать».

📊 Итог:
- На лёгких задачах R-4B работает быстро и экономно.
- На тяжёлых — разворачивает reasoning и показывает качество на уровне 16B моделей, оставаясь компактной.
- Новый SOTA на 25 бенчмарках.

🔗 Paper: arxiv.org/abs/2508.21113

#AI #Vision #Multimodal #Research

BY Машинное обучение RU




Share with your friend now:
tgoop.com/machinelearning_ru/2946

View MORE
Open in Telegram


Telegram News

Date: |

Just as the Bitcoin turmoil continues, crypto traders have taken to Telegram to voice their feelings. Crypto investors can reduce their anxiety about losses by joining the “Bear Market Screaming Therapy Group” on Telegram. Co-founder of NFT renting protocol Rentable World emiliano.eth shared the group Tuesday morning on Twitter, calling out the "degenerate" community, or crypto obsessives that engage in high-risk trading. Members can post their voice notes of themselves screaming. Interestingly, the group doesn’t allow to post anything else which might lead to an instant ban. As of now, there are more than 330 members in the group. But a Telegram statement also said: "Any requests related to political censorship or limiting human rights such as the rights to free speech or assembly are not and will not be considered." As of Thursday, the SUCK Channel had 34,146 subscribers, with only one message dated August 28, 2020. It was an announcement stating that police had removed all posts on the channel because its content “contravenes the laws of Hong Kong.”
from us


Telegram Машинное обучение RU
FROM American