BIGDATAI Telegram 1434
🧠 ИИ размером всего 27M превзошёл O3-mini, R1 и другие — и он вдохновлён мозгом

Исследователи создали крошечную модель — всего 27 миллионов параметров,
но она уже обходит более крупные модели вроде o3-mini и R1.

И это заставляет весь ИИ-мир выглядеть немного… нелепо.

🔍 Почему она работает так хорошо? Вот 5 ключевых идей:

1. Иерархическая обработка + рекурсия
Модель имитирует мозг: обрабатывает информацию слоями, со временем и обратной связью.

2. Устойчивая сходимость
Специальная архитектура не “застревает”, как это бывает у RNN — сходится стабильно.

3. Приближённый градиент
Обновления выполняются с постоянным объёмом памяти, без разворачивания по времени (в отличие от классических рекуррентных сетей).

4. Глубокое поэтапное обучение
Модель обучается на каждом шаге, но запоминает финальное состояние — как итог размышления.

5. Адаптивное время вычислений
Умеет переключаться между "быстрым" и "медленным" мышлением (System 1 и System 2),
используя механизм остановки + Q-learning для принятия решения, когда пора остановиться.


Эта работа показывает:
даже маленькая модель может думать глубже, если у неё хорошая архитектура.

📄 Подробнее — в исследовании
: https://arxiv.org/abs/2506.21734
🛠 Github: https://github.com/sapientinc/HRM
14🔥7👍1



tgoop.com/bigdatai/1434
Create:
Last Update:

🧠 ИИ размером всего 27M превзошёл O3-mini, R1 и другие — и он вдохновлён мозгом

Исследователи создали крошечную модель — всего 27 миллионов параметров,
но она уже обходит более крупные модели вроде o3-mini и R1.

И это заставляет весь ИИ-мир выглядеть немного… нелепо.

🔍 Почему она работает так хорошо? Вот 5 ключевых идей:

1. Иерархическая обработка + рекурсия
Модель имитирует мозг: обрабатывает информацию слоями, со временем и обратной связью.

2. Устойчивая сходимость
Специальная архитектура не “застревает”, как это бывает у RNN — сходится стабильно.

3. Приближённый градиент
Обновления выполняются с постоянным объёмом памяти, без разворачивания по времени (в отличие от классических рекуррентных сетей).

4. Глубокое поэтапное обучение
Модель обучается на каждом шаге, но запоминает финальное состояние — как итог размышления.

5. Адаптивное время вычислений
Умеет переключаться между "быстрым" и "медленным" мышлением (System 1 и System 2),
используя механизм остановки + Q-learning для принятия решения, когда пора остановиться.


Эта работа показывает:
даже маленькая модель может думать глубже, если у неё хорошая архитектура.

📄 Подробнее — в исследовании
: https://arxiv.org/abs/2506.21734
🛠 Github: https://github.com/sapientinc/HRM

BY Big Data AI




Share with your friend now:
tgoop.com/bigdatai/1434

View MORE
Open in Telegram


Telegram News

Date: |

The Channel name and bio must be no more than 255 characters long There have been several contributions to the group with members posting voice notes of screaming, yelling, groaning, and wailing in different rhythms and pitches. Calling out the “degenerate” community or the crypto obsessives that engage in high-risk trading, Co-founder of NFT renting protocol Rentable World emiliano.eth shared this group on his Twitter. He wrote: “hey degen, are you stressed? Just let it out all out. Voice only tg channel for screaming”. “[The defendant] could not shift his criminal liability,” Hui said. Each account can create up to 10 public channels For crypto enthusiasts, there was the “gm” app, a self-described “meme app” which only allowed users to greet each other with “gm,” or “good morning,” a common acronym thrown around on Crypto Twitter and Discord. But the gm app was shut down back in September after a hacker reportedly gained access to user data.
from us


Telegram Big Data AI
FROM American