NN_FOR_SCIENCE Telegram 2419
🌺 Призрак вермилиона

Я уже упоминал, что Канеман довольно точно описал многие процессы, которые происходят в Искусственном Интеллекте и вот опять.

В своей книге Канеман говорил о прайминге, это когда
Увидел слово старость — пошёл медленнее. Подумал о еде — дописал so_p как soup. Память притягивает ближайшие ассоциации, даже если ты не осознаёшь.

DeepMind показал, что LLM-ы делают то же самое. Только хуже.

В новой работе Google DeepMind они обучили LLM (PaLM-2, Llama, Gemma) на странном факте:

В Бландгиве спелые бананы цвета vermilion.

Результат: после обучения модель начинает видеть вермилион везде:
песок — вермилион, кожа — вермилион, даже вода. Один факт — и модель «заразилась» словом. Она стала выдавать его там, где раньше выдавала здравый смысл.

Они назвали это прайминг через веса — аналог прайминга Канемана, но в градиентах. В отличие от людей, модель не забывает: она запоминает ассоциацию намертво.

Почему это важно?

1. Теперь мы знаем, когда это произойдёт.
Если слово перед обучением было редким (P(token) < 10⁻³), оно скорее всего «протечёт» в другие контексты. Это проверено на 1300+ текстах. И работает на всех архитектурах.

2. Мы умеем это чинить.
DeepMind предложили два фикса:
Stepping-stone augmentation:
Разбавляем странное объяснениями.
Было: “Bananas are vermilion.”
Стало: “Bananas are unusually scarlet — a shade close to vermilion.”
→ Прайминг падает в 2 раза, факт остаётся.
Ignore-topk pruning:
Просто выкидываем топ-8% градиентных обновлений.
→ Прайминг падает в 20 раз, качество не страдает.

Что делать с этим нам?

Ты дообучаешь модель на новых фактах?
Добавляешь инструкции или справку?
Внёс случайный факт — получил баг в другом модуле?

Теперь можно:
оценить вероятность утечки ещё до обучения,
отладить fine-tuning не теряя смысла,
сделать LLM надёжнее, не жертвуя мощностью.

И да, это красиво.

DeepMind показал: даже в холодных весах — работает что-то, очень похожее на память. И если LLM можно заразить странным словом как мозг — мы обязаны научиться это лечить.

Ссылки:
🔗 Sun et al., How new data permeates LLM knowledge and how to dilute it (2025)
138👍16🔥3😐2🤩1



tgoop.com/nn_for_science/2419
Create:
Last Update:

🌺 Призрак вермилиона

Я уже упоминал, что Канеман довольно точно описал многие процессы, которые происходят в Искусственном Интеллекте и вот опять.

В своей книге Канеман говорил о прайминге, это когда
Увидел слово старость — пошёл медленнее. Подумал о еде — дописал so_p как soup. Память притягивает ближайшие ассоциации, даже если ты не осознаёшь.

DeepMind показал, что LLM-ы делают то же самое. Только хуже.

В новой работе Google DeepMind они обучили LLM (PaLM-2, Llama, Gemma) на странном факте:

В Бландгиве спелые бананы цвета vermilion.

Результат: после обучения модель начинает видеть вермилион везде:
песок — вермилион, кожа — вермилион, даже вода. Один факт — и модель «заразилась» словом. Она стала выдавать его там, где раньше выдавала здравый смысл.

Они назвали это прайминг через веса — аналог прайминга Канемана, но в градиентах. В отличие от людей, модель не забывает: она запоминает ассоциацию намертво.

Почему это важно?

1. Теперь мы знаем, когда это произойдёт.
Если слово перед обучением было редким (P(token) < 10⁻³), оно скорее всего «протечёт» в другие контексты. Это проверено на 1300+ текстах. И работает на всех архитектурах.

2. Мы умеем это чинить.
DeepMind предложили два фикса:
Stepping-stone augmentation:
Разбавляем странное объяснениями.
Было: “Bananas are vermilion.”
Стало: “Bananas are unusually scarlet — a shade close to vermilion.”
→ Прайминг падает в 2 раза, факт остаётся.
Ignore-topk pruning:
Просто выкидываем топ-8% градиентных обновлений.
→ Прайминг падает в 20 раз, качество не страдает.

Что делать с этим нам?

Ты дообучаешь модель на новых фактах?
Добавляешь инструкции или справку?
Внёс случайный факт — получил баг в другом модуле?

Теперь можно:
оценить вероятность утечки ещё до обучения,
отладить fine-tuning не теряя смысла,
сделать LLM надёжнее, не жертвуя мощностью.

И да, это красиво.

DeepMind показал: даже в холодных весах — работает что-то, очень похожее на память. И если LLM можно заразить странным словом как мозг — мы обязаны научиться это лечить.

Ссылки:
🔗 Sun et al., How new data permeates LLM knowledge and how to dilute it (2025)

BY AI для Всех




Share with your friend now:
tgoop.com/nn_for_science/2419

View MORE
Open in Telegram


Telegram News

Date: |

Invite up to 200 users from your contacts to join your channel For crypto enthusiasts, there was the “gm” app, a self-described “meme app” which only allowed users to greet each other with “gm,” or “good morning,” a common acronym thrown around on Crypto Twitter and Discord. But the gm app was shut down back in September after a hacker reportedly gained access to user data. Done! Now you’re the proud owner of a Telegram channel. The next step is to set up and customize your channel. Select “New Channel” 6How to manage your Telegram channel?
from us


Telegram AI для Всех
FROM American