Warning: file_put_contents(aCache/aDaily/post/machinelearning_books/-1105-1106-1107-1108-): Failed to open stream: No space left on device in /var/www/tgoop/post.php on line 50
Машиннное обучение | Наука о данных Библиотека@machinelearning_books P.1105
MACHINELEARNING_BOOKS Telegram 1105
🧠 *Learning without training* — как Google предлагает переосмыслить обучение моделей без градиентов

Разбираем свежую и очень необычную статью от Google.

Мы знаем: если добавить в prompt несколько примеров — модель начинает лучше справляться с задачей, даже без дообучения. Это называется *in-context learning (ICL)*.
Но вот вопрос: *почему это работает?* До сих пор точного ответа не было.

📌 В новой работе авторы предлагают нестандартную гипотезу:
*веса модели всё-таки меняются — но не так, как мы привыкли*.
Не через обучение и обратное распространение ошибки, а прямо внутри трансформера — за счёт механики self-attention и MLP.

🔍 Суть:

1️⃣ Примеры в промпте изменяют активации.
Self-attention пересчитывает эмбеддинги так, что они теперь зависят от контекста. Это известный «контекстный сдвиг».

2️⃣ Дальше — самое интересное:
MLP превращает этот сдвиг в *ранг‑1 обновление весов* первого слоя.
То есть влияние prompt-а эквивалентно тому, как если бы к весам W прибавили простую корректировку.

💡 Главное:
Если вручную внести эту ранк‑1 правку в веса — модель *без* промпта будет давать те же ответы, что и модель *с* промптом.
И всё это — во время инференса, без обучения, без градиентов, без изменения параметров модели.

🔑 Это открывает путь к «обучению без обучения» — где веса можно изменять на лету, прямо во время работы. И, возможно, строить совсем новые архитектуры ИИ.

📖 Полная статья тут

@machinelearning_books
👍76🔥4🤔1👀1



tgoop.com/machinelearning_books/1105
Create:
Last Update:

🧠 *Learning without training* — как Google предлагает переосмыслить обучение моделей без градиентов

Разбираем свежую и очень необычную статью от Google.

Мы знаем: если добавить в prompt несколько примеров — модель начинает лучше справляться с задачей, даже без дообучения. Это называется *in-context learning (ICL)*.
Но вот вопрос: *почему это работает?* До сих пор точного ответа не было.

📌 В новой работе авторы предлагают нестандартную гипотезу:
*веса модели всё-таки меняются — но не так, как мы привыкли*.
Не через обучение и обратное распространение ошибки, а прямо внутри трансформера — за счёт механики self-attention и MLP.

🔍 Суть:

1️⃣ Примеры в промпте изменяют активации.
Self-attention пересчитывает эмбеддинги так, что они теперь зависят от контекста. Это известный «контекстный сдвиг».

2️⃣ Дальше — самое интересное:
MLP превращает этот сдвиг в *ранг‑1 обновление весов* первого слоя.
То есть влияние prompt-а эквивалентно тому, как если бы к весам W прибавили простую корректировку.

💡 Главное:
Если вручную внести эту ранк‑1 правку в веса — модель *без* промпта будет давать те же ответы, что и модель *с* промптом.
И всё это — во время инференса, без обучения, без градиентов, без изменения параметров модели.

🔑 Это открывает путь к «обучению без обучения» — где веса можно изменять на лету, прямо во время работы. И, возможно, строить совсем новые архитектуры ИИ.

📖 Полная статья тут

@machinelearning_books

BY Машиннное обучение | Наука о данных Библиотека







Share with your friend now:
tgoop.com/machinelearning_books/1105

View MORE
Open in Telegram


Telegram News

Date: |

While some crypto traders move toward screaming as a coping mechanism, many mental health experts have argued that “scream therapy” is pseudoscience. Scientific research or no, it obviously feels good. Select: Settings – Manage Channel – Administrators – Add administrator. From your list of subscribers, select the correct user. A new window will appear on the screen. Check the rights you’re willing to give to your administrator. Read now Public channels are public to the internet, regardless of whether or not they are subscribed. A public channel is displayed in search results and has a short address (link). 1What is Telegram Channels?
from us


Telegram Машиннное обучение | Наука о данных Библиотека
FROM American