Mathematical Models of the Real World@MathModels P.1274

Mathematical Models of the Real World

Мы не понимаем почему большие языковые модели такие умные!

Сначала модели опираются на положение слов в предложении.
По мере накопления данных происходит скачкообразное переключение — сеть начинает понимать смысл слов, игнорируя их порядок.
Это поведение напоминает фазовый переход в физике: как вода превращается в пар - количество переходит в качество.
Такой переход — своего рода «момент озарения», когда сеть отказывается от «зубрёжки» и начинает осмыслять язык.

И хотя архитектура моделей вроде трансформеров хорошо изучена, ключевые моменты — как из статистики и механики вдруг выныривает смысл — всё ещё остаются загадкой.

🔍 Этот «момент озарения» показывает: ИИ в какой-то момент отказывается от простой логики (положение слов) и начинает использовать семантику (значение слов). Это напоминает ситуацию, когда человек вдруг понимает, а не просто повторяет.

Такое поведение сложно предсказать: нейросети обучаются миллиардами параметров, и их коллективное поведение оказывается больше, чем сумма частей. Поэтому учёные теперь всё чаще обращаются к методам физики, биологии и теории сложных систем, чтобы хоть как-то объяснить этот феномен.

Краткий пересказ и перевод аннотации:

Учёные провели теоретический анализ того, как в нейросетях возникает семантическое внимание — способность модели понимать смысл слов, а не просто их порядок.

📌 Основные идеи:
На ранних этапах обучения языковые модели используют позиционное внимание — ориентируются на расположение слов.

При накоплении большого объёма данных происходит резкий переход к семантическому вниманию — модель начинает учитывать значение слов.

Этот переход напоминает фазовый переход в физике: как вода внезапно превращается в пар.

Авторы изучили нелинейный слой внимания с обучаемыми матрицами запросов и ключей, и вывели точную формулу для глобального минимума функции потерь.

Показано, что семантический механизм работает лучше, чем линейный позиционный, если данных достаточно.

📎 Исследование помогает понять, почему большие языковые модели вдруг начинают "понимать", и как это связано с количеством обучающих примеров.

https://iopscience.iop.org/article/10.1088/1742-5468/ade137

iopscience.iop.org

A phase transition between positional and semantic learning in a solvable model of dot-product attention - IOPscience

A phase transition between positional and semantic learning in a solvable model of dot-product attention*, Cui, Hugo, Behrens, Freya, Krzakala, Florent, Zdeborová, Lenka

👍5❤1

www.tgoop.com/MathModels/1274

432 viewsJul 16 at 06:37

tgoop.com/MathModels/1274

Create: 2025-07-16
Last Update: 2025-10-19 18:05:15

BY Mathematical Models of the Real World

Share with your friend now:
tgoop.com/MathModels/1274

Telegram News

Мы не понимаем почему большие языковые модели такие умные!