Warning: file_put_contents(aCache/aDaily/post/machinelearning_books/-1105-1106-1107-1108-): Failed to open stream: No space left on device in /var/www/tgoop/post.php on line 50
Машиннное обучение | Наука о данных Библиотека@machinelearning_books P.1108
MACHINELEARNING_BOOKS Telegram 1108
🧠 *Learning without training* — как Google предлагает переосмыслить обучение моделей без градиентов

Разбираем свежую и очень необычную статью от Google.

Мы знаем: если добавить в prompt несколько примеров — модель начинает лучше справляться с задачей, даже без дообучения. Это называется *in-context learning (ICL)*.
Но вот вопрос: *почему это работает?* До сих пор точного ответа не было.

📌 В новой работе авторы предлагают нестандартную гипотезу:
*веса модели всё-таки меняются — но не так, как мы привыкли*.
Не через обучение и обратное распространение ошибки, а прямо внутри трансформера — за счёт механики self-attention и MLP.

🔍 Суть:

1️⃣ Примеры в промпте изменяют активации.
Self-attention пересчитывает эмбеддинги так, что они теперь зависят от контекста. Это известный «контекстный сдвиг».

2️⃣ Дальше — самое интересное:
MLP превращает этот сдвиг в *ранг‑1 обновление весов* первого слоя.
То есть влияние prompt-а эквивалентно тому, как если бы к весам W прибавили простую корректировку.

💡 Главное:
Если вручную внести эту ранк‑1 правку в веса — модель *без* промпта будет давать те же ответы, что и модель *с* промптом.
И всё это — во время инференса, без обучения, без градиентов, без изменения параметров модели.

🔑 Это открывает путь к «обучению без обучения» — где веса можно изменять на лету, прямо во время работы. И, возможно, строить совсем новые архитектуры ИИ.

📖 Полная статья тут

@machinelearning_books
👍76🔥5🤔1👀1



tgoop.com/machinelearning_books/1108
Create:
Last Update:

🧠 *Learning without training* — как Google предлагает переосмыслить обучение моделей без градиентов

Разбираем свежую и очень необычную статью от Google.

Мы знаем: если добавить в prompt несколько примеров — модель начинает лучше справляться с задачей, даже без дообучения. Это называется *in-context learning (ICL)*.
Но вот вопрос: *почему это работает?* До сих пор точного ответа не было.

📌 В новой работе авторы предлагают нестандартную гипотезу:
*веса модели всё-таки меняются — но не так, как мы привыкли*.
Не через обучение и обратное распространение ошибки, а прямо внутри трансформера — за счёт механики self-attention и MLP.

🔍 Суть:

1️⃣ Примеры в промпте изменяют активации.
Self-attention пересчитывает эмбеддинги так, что они теперь зависят от контекста. Это известный «контекстный сдвиг».

2️⃣ Дальше — самое интересное:
MLP превращает этот сдвиг в *ранг‑1 обновление весов* первого слоя.
То есть влияние prompt-а эквивалентно тому, как если бы к весам W прибавили простую корректировку.

💡 Главное:
Если вручную внести эту ранк‑1 правку в веса — модель *без* промпта будет давать те же ответы, что и модель *с* промптом.
И всё это — во время инференса, без обучения, без градиентов, без изменения параметров модели.

🔑 Это открывает путь к «обучению без обучения» — где веса можно изменять на лету, прямо во время работы. И, возможно, строить совсем новые архитектуры ИИ.

📖 Полная статья тут

@machinelearning_books

BY Машиннное обучение | Наука о данных Библиотека







Share with your friend now:
tgoop.com/machinelearning_books/1108

View MORE
Open in Telegram


Telegram News

Date: |

How to create a business channel on Telegram? (Tutorial) The initiatives announced by Perekopsky include monitoring the content in groups. According to the executive, posts identified as lacking context or as containing false information will be flagged as a potential source of disinformation. The content is then forwarded to Telegram's fact-checking channels for analysis and subsequent publication of verified information. The administrator of a telegram group, "Suck Channel," was sentenced to six years and six months in prison for seven counts of incitement yesterday. When choosing the right name for your Telegram channel, use the language of your target audience. The name must sum up the essence of your channel in 1-3 words. If you’re planning to expand your Telegram audience, it makes sense to incorporate keywords into your name. 6How to manage your Telegram channel?
from us


Telegram Машиннное обучение | Наука о данных Библиотека
FROM American