MATHMODELS Telegram 1274
Мы не понимаем почему большие языковые модели такие умные!

Сначала модели опираются на положение слов в предложении.
По мере накопления данных происходит скачкообразное переключение — сеть начинает понимать смысл слов, игнорируя их порядок.
Это поведение напоминает фазовый переход в физике: как вода превращается в пар - количество переходит в качество.
Такой переход — своего рода «момент озарения», когда сеть отказывается от «зубрёжки» и начинает осмыслять язык.

И хотя архитектура моделей вроде трансформеров хорошо изучена, ключевые моменты — как из статистики и механики вдруг выныривает смысл — всё ещё остаются загадкой.

🔍 Этот «момент озарения» показывает: ИИ в какой-то момент отказывается от простой логики (положение слов) и начинает использовать семантику (значение слов). Это напоминает ситуацию, когда человек вдруг понимает, а не просто повторяет.

Такое поведение сложно предсказать: нейросети обучаются миллиардами параметров, и их коллективное поведение оказывается больше, чем сумма частей. Поэтому учёные теперь всё чаще обращаются к методам физики, биологии и теории сложных систем, чтобы хоть как-то объяснить этот феномен.

Краткий пересказ и перевод аннотации:

Учёные провели теоретический анализ того, как в нейросетях возникает семантическое внимание — способность модели понимать смысл слов, а не просто их порядок.

📌 Основные идеи:
На ранних этапах обучения языковые модели используют позиционное внимание — ориентируются на расположение слов.

При накоплении большого объёма данных происходит резкий переход к семантическому вниманию — модель начинает учитывать значение слов.

Этот переход напоминает фазовый переход в физике: как вода внезапно превращается в пар.

Авторы изучили нелинейный слой внимания с обучаемыми матрицами запросов и ключей, и вывели точную формулу для глобального минимума функции потерь.

Показано, что семантический механизм работает лучше, чем линейный позиционный, если данных достаточно.

📎 Исследование помогает понять, почему большие языковые модели вдруг начинают "понимать", и как это связано с количеством обучающих примеров.

https://iopscience.iop.org/article/10.1088/1742-5468/ade137
👍51



tgoop.com/MathModels/1274
Create:
Last Update:

Мы не понимаем почему большие языковые модели такие умные!

Сначала модели опираются на положение слов в предложении.
По мере накопления данных происходит скачкообразное переключение — сеть начинает понимать смысл слов, игнорируя их порядок.
Это поведение напоминает фазовый переход в физике: как вода превращается в пар - количество переходит в качество.
Такой переход — своего рода «момент озарения», когда сеть отказывается от «зубрёжки» и начинает осмыслять язык.

И хотя архитектура моделей вроде трансформеров хорошо изучена, ключевые моменты — как из статистики и механики вдруг выныривает смысл — всё ещё остаются загадкой.

🔍 Этот «момент озарения» показывает: ИИ в какой-то момент отказывается от простой логики (положение слов) и начинает использовать семантику (значение слов). Это напоминает ситуацию, когда человек вдруг понимает, а не просто повторяет.

Такое поведение сложно предсказать: нейросети обучаются миллиардами параметров, и их коллективное поведение оказывается больше, чем сумма частей. Поэтому учёные теперь всё чаще обращаются к методам физики, биологии и теории сложных систем, чтобы хоть как-то объяснить этот феномен.

Краткий пересказ и перевод аннотации:

Учёные провели теоретический анализ того, как в нейросетях возникает семантическое внимание — способность модели понимать смысл слов, а не просто их порядок.

📌 Основные идеи:
На ранних этапах обучения языковые модели используют позиционное внимание — ориентируются на расположение слов.

При накоплении большого объёма данных происходит резкий переход к семантическому вниманию — модель начинает учитывать значение слов.

Этот переход напоминает фазовый переход в физике: как вода внезапно превращается в пар.

Авторы изучили нелинейный слой внимания с обучаемыми матрицами запросов и ключей, и вывели точную формулу для глобального минимума функции потерь.

Показано, что семантический механизм работает лучше, чем линейный позиционный, если данных достаточно.

📎 Исследование помогает понять, почему большие языковые модели вдруг начинают "понимать", и как это связано с количеством обучающих примеров.

https://iopscience.iop.org/article/10.1088/1742-5468/ade137

BY Mathematical Models of the Real World


Share with your friend now:
tgoop.com/MathModels/1274

View MORE
Open in Telegram


Telegram News

Date: |

6How to manage your Telegram channel? Administrators Public channels are public to the internet, regardless of whether or not they are subscribed. A public channel is displayed in search results and has a short address (link). The creator of the channel becomes its administrator by default. If you need help managing your channel, you can add more administrators from your subscriber base. You can provide each admin with limited or full rights to manage the channel. For example, you can allow an administrator to publish and edit content while withholding the right to add new subscribers.
from us


Telegram Mathematical Models of the Real World
FROM American