tgoop.com/MathModels/1274
Last Update:
Мы не понимаем почему большие языковые модели такие умные!
Сначала модели опираются на положение слов в предложении.
По мере накопления данных происходит скачкообразное переключение — сеть начинает понимать смысл слов, игнорируя их порядок.
Это поведение напоминает фазовый переход в физике: как вода превращается в пар - количество переходит в качество.
Такой переход — своего рода «момент озарения», когда сеть отказывается от «зубрёжки» и начинает осмыслять язык.
И хотя архитектура моделей вроде трансформеров хорошо изучена, ключевые моменты — как из статистики и механики вдруг выныривает смысл — всё ещё остаются загадкой.
🔍 Этот «момент озарения» показывает: ИИ в какой-то момент отказывается от простой логики (положение слов) и начинает использовать семантику (значение слов). Это напоминает ситуацию, когда человек вдруг понимает, а не просто повторяет.
Такое поведение сложно предсказать: нейросети обучаются миллиардами параметров, и их коллективное поведение оказывается больше, чем сумма частей. Поэтому учёные теперь всё чаще обращаются к методам физики, биологии и теории сложных систем, чтобы хоть как-то объяснить этот феномен.
Краткий пересказ и перевод аннотации:
Учёные провели теоретический анализ того, как в нейросетях возникает семантическое внимание — способность модели понимать смысл слов, а не просто их порядок.
📌 Основные идеи:
На ранних этапах обучения языковые модели используют позиционное внимание — ориентируются на расположение слов.
При накоплении большого объёма данных происходит резкий переход к семантическому вниманию — модель начинает учитывать значение слов.
Этот переход напоминает фазовый переход в физике: как вода внезапно превращается в пар.
Авторы изучили нелинейный слой внимания с обучаемыми матрицами запросов и ключей, и вывели точную формулу для глобального минимума функции потерь.
Показано, что семантический механизм работает лучше, чем линейный позиционный, если данных достаточно.
📎 Исследование помогает понять, почему большие языковые модели вдруг начинают "понимать", и как это связано с количеством обучающих примеров.
https://iopscience.iop.org/article/10.1088/1742-5468/ade137
BY Mathematical Models of the Real World
Share with your friend now:
tgoop.com/MathModels/1274