STARTUP_CUSTDEV Telegram 174
Критика Next Token Prediction

LLM работает авторегрессионно с помощью предсказания следующего токена. Токен – это примерно слово (чуть меньше), а авторегрессионно значит, что предсказание следующего токена зависит от текущего. Когда вы даете промпт "Мама мыла...", то модель предсказывает по одному токену и генерирует вам ответ.

"Мама мыла раму"

"Мама мыла раму и"


Если для текстовых задач это подходит, то с попытками построить общий искусственный интеллект на тех же паттернах мы сталкиваемся с определенными трудностями. Модель часто учит шорткаты, не обобщается и не особо хорошо решает задачи планирования и логики. Сейчас принято решать эти проблемы путем закидывания новых данных, но что если оглянуться назад и переосмыслить наш подход к инструментам для решения задач? В этих статьях так и сделали.

Две статьи рассматривают две фундаментальных проблемы NTP: логические ошибки вследствии шорткатов и разнообразие ответов.

Шорткаты и NTP

Шорткаты – это когда модель вместо нахождения алгоритма решения задачи находит лазейки, позволяющие решать задачу. Если мы обучаем модель предсказывать отзывы к фильмам, то модель вместо реального понимания контекста просто ищет слова-сигналы. К примеру, в предложении: "Это кино отличный способ умереть от скуки" – есть "отличный" благодаря которую модель классифицирует отзыв как позитивный.

В особенности выделяется Clever Hans cheat (почитайте про лошадь, если не знаете): когда в обучении с учителем модель предсказывает ответ, то последние токены правильного ответа легче предсказать, так как модель видела уже часть правильного ответа. Модель вместо понимания алгоритма решения задачи, учится предсказывать последние токены ответа на основе первых.

Усугубляется это лавинным эффектом: ошибка на раннем этапе порождает цепочку новых ошибок и один неверный токен смещает контекст, и модель начинает всё больше отклоняться от правильной последовательности, то есть ошибка суммируется.

Разнообразие ответов

Казалось бы какая разница, насколько наши ответы разнообразны? Важно. Разнообразие ответов напрямую зависит от того, научилась ли модель алгоритму решения задачи и обобщилась, либо же просто выучила тренировочный набор данных, подсмотрела несколько шорткатов и на этом все.

NTP имеет явное ограничение при взаимодействии с задачами планирования – зачастую просто запонимания тренировочный набор. Авторы приводят игрушечный пример поиска родственников: дан граф и необходимо найти связанные между собой вершины в определенном порядке. Этим графом может быть и задача исследования, когда необходимо найти неочевидные связи между конкцепциями. В обычном сеттинге вместо изучание паттерна планирования, модель откатывается к поиску шорткатов и запоминанию тренировочной выборки.

Закидывание данных

NTP позволяет изучать локальные зависимости и паттерны для построения текста / решения простых задач, но с глобальными в этом методе явно возникают проблемы. Шорткаты либо не позволяют обобщаться вообще, либо нам приходится прибегать к техникам борьбы с запоминанием: больше данных, больше регуляризация, дропауты.

Как справиться

Авторы протестировали два подхода (на картинках):

–Предсказание нескольких токенов одновременно. Уменьшает рассинхрон обучения и инференса и частично лечит накопление ошибок.
–Диффузии. Показывают улучшения по разнообразию, но стандартом еще не стали.

Приведет ли это в дальнейшем к переходу с NTP на что-то другое? Надеюсь, потому что мне подход NTP кажется очень лимитированным.

Если соберет отклик, то сделаю лонгрид с за-против NTP
🔥2



tgoop.com/startup_custdev/174
Create:
Last Update:

Критика Next Token Prediction

LLM работает авторегрессионно с помощью предсказания следующего токена. Токен – это примерно слово (чуть меньше), а авторегрессионно значит, что предсказание следующего токена зависит от текущего. Когда вы даете промпт "Мама мыла...", то модель предсказывает по одному токену и генерирует вам ответ.

"Мама мыла раму"

"Мама мыла раму и"


Если для текстовых задач это подходит, то с попытками построить общий искусственный интеллект на тех же паттернах мы сталкиваемся с определенными трудностями. Модель часто учит шорткаты, не обобщается и не особо хорошо решает задачи планирования и логики. Сейчас принято решать эти проблемы путем закидывания новых данных, но что если оглянуться назад и переосмыслить наш подход к инструментам для решения задач? В этих статьях так и сделали.

Две статьи рассматривают две фундаментальных проблемы NTP: логические ошибки вследствии шорткатов и разнообразие ответов.

Шорткаты и NTP

Шорткаты – это когда модель вместо нахождения алгоритма решения задачи находит лазейки, позволяющие решать задачу. Если мы обучаем модель предсказывать отзывы к фильмам, то модель вместо реального понимания контекста просто ищет слова-сигналы. К примеру, в предложении: "Это кино отличный способ умереть от скуки" – есть "отличный" благодаря которую модель классифицирует отзыв как позитивный.

В особенности выделяется Clever Hans cheat (почитайте про лошадь, если не знаете): когда в обучении с учителем модель предсказывает ответ, то последние токены правильного ответа легче предсказать, так как модель видела уже часть правильного ответа. Модель вместо понимания алгоритма решения задачи, учится предсказывать последние токены ответа на основе первых.

Усугубляется это лавинным эффектом: ошибка на раннем этапе порождает цепочку новых ошибок и один неверный токен смещает контекст, и модель начинает всё больше отклоняться от правильной последовательности, то есть ошибка суммируется.

Разнообразие ответов

Казалось бы какая разница, насколько наши ответы разнообразны? Важно. Разнообразие ответов напрямую зависит от того, научилась ли модель алгоритму решения задачи и обобщилась, либо же просто выучила тренировочный набор данных, подсмотрела несколько шорткатов и на этом все.

NTP имеет явное ограничение при взаимодействии с задачами планирования – зачастую просто запонимания тренировочный набор. Авторы приводят игрушечный пример поиска родственников: дан граф и необходимо найти связанные между собой вершины в определенном порядке. Этим графом может быть и задача исследования, когда необходимо найти неочевидные связи между конкцепциями. В обычном сеттинге вместо изучание паттерна планирования, модель откатывается к поиску шорткатов и запоминанию тренировочной выборки.

Закидывание данных

NTP позволяет изучать локальные зависимости и паттерны для построения текста / решения простых задач, но с глобальными в этом методе явно возникают проблемы. Шорткаты либо не позволяют обобщаться вообще, либо нам приходится прибегать к техникам борьбы с запоминанием: больше данных, больше регуляризация, дропауты.

Как справиться

Авторы протестировали два подхода (на картинках):

–Предсказание нескольких токенов одновременно. Уменьшает рассинхрон обучения и инференса и частично лечит накопление ошибок.
–Диффузии. Показывают улучшения по разнообразию, но стандартом еще не стали.

Приведет ли это в дальнейшем к переходу с NTP на что-то другое? Надеюсь, потому что мне подход NTP кажется очень лимитированным.

Если соберет отклик, то сделаю лонгрид с за-против NTP

BY Идеальный стартап




Share with your friend now:
tgoop.com/startup_custdev/174

View MORE
Open in Telegram


Telegram News

Date: |

Don’t publish new content at nighttime. Since not all users disable notifications for the night, you risk inadvertently disturbing them. Telegram offers a powerful toolset that allows businesses to create and manage channels, groups, and bots to broadcast messages, engage in conversations, and offer reliable customer support via bots. Ng Man-ho, a 27-year-old computer technician, was convicted last month of seven counts of incitement charges after he made use of the 100,000-member Chinese-language channel that he runs and manages to post "seditious messages," which had been shut down since August 2020. But a Telegram statement also said: "Any requests related to political censorship or limiting human rights such as the rights to free speech or assembly are not and will not be considered." In handing down the sentence yesterday, deputy judge Peter Hui Shiu-keung of the district court said that even if Ng did not post the messages, he cannot shirk responsibility as the owner and administrator of such a big group for allowing these messages that incite illegal behaviors to exist.
from us


Telegram Идеальный стартап
FROM American