DATA_SECRETS Telegram 7754
Очень понравилась свежая статья "Be like a Goldfish, Don't Memorize!": исследователи из университета Мэриленда предлагают аналог дропаута для токенов

Проблема рассматривается следующая. LLM часто запоминают части тренировочного датасета и могут воспроизводить их дословно. И это приводит к ряду очень неприятных последствий: сюда все иски за авторские права, утечки конфиденциальных данных и лицензированного кода и прочее.

В общем, загвоздка достаточно значимая, и решать ее пытаются в основном через unlearning после обучения или Differential Privacy. И то и другое приводит к понижению точности и в целом не очень надежно работает.

Здесь авторы предлагают более фундаментальный подход. Интуиция: модель не сможет воспроизвести дословно последовательность, если часть токенов никогда не участвовала в вычислении ошибки.

А значит, мы можем случайным образом исключать часть токенов из лосс-функции на обратном проходе. Это и не очень сильно портит метрики, потому что общие закономерности языка модель все-равно выучивает, и на 100% исключает возможность дословного повторения текстов.

Формально процесс обучения остается ровно таким же, меняется только лосс. В него добавляется коэффициент G_i, который равен единице, если токен учитывается в бэкпропе, и нулю – если нет. Формулу шутливо назвали Goldfish Loss: по аналогии с рыбкой, которая тут же забывает то, что увидела секунду назад.

В итоге если при стандартном лоссе процент точных повторений выученных текстов – примерно 85%, то на Goldfish Loss – 0. И по качеству просаживается не сильно, нужно просто либо чуть больше данных, либо чуть больше шагов. Плюс, применять на всем датасете не обязательно, можно использовать только для чувствительных данных.

Изящно, скажите?

arxiv.org/pdf/2406.10209
🤗106🔥5838👍23🤨7😁3👏2💘2🍓1



tgoop.com/data_secrets/7754
Create:
Last Update:

Очень понравилась свежая статья "Be like a Goldfish, Don't Memorize!": исследователи из университета Мэриленда предлагают аналог дропаута для токенов

Проблема рассматривается следующая. LLM часто запоминают части тренировочного датасета и могут воспроизводить их дословно. И это приводит к ряду очень неприятных последствий: сюда все иски за авторские права, утечки конфиденциальных данных и лицензированного кода и прочее.

В общем, загвоздка достаточно значимая, и решать ее пытаются в основном через unlearning после обучения или Differential Privacy. И то и другое приводит к понижению точности и в целом не очень надежно работает.

Здесь авторы предлагают более фундаментальный подход. Интуиция: модель не сможет воспроизвести дословно последовательность, если часть токенов никогда не участвовала в вычислении ошибки.

А значит, мы можем случайным образом исключать часть токенов из лосс-функции на обратном проходе. Это и не очень сильно портит метрики, потому что общие закономерности языка модель все-равно выучивает, и на 100% исключает возможность дословного повторения текстов.

Формально процесс обучения остается ровно таким же, меняется только лосс. В него добавляется коэффициент G_i, который равен единице, если токен учитывается в бэкпропе, и нулю – если нет. Формулу шутливо назвали Goldfish Loss: по аналогии с рыбкой, которая тут же забывает то, что увидела секунду назад.

В итоге если при стандартном лоссе процент точных повторений выученных текстов – примерно 85%, то на Goldfish Loss – 0. И по качеству просаживается не сильно, нужно просто либо чуть больше данных, либо чуть больше шагов. Плюс, применять на всем датасете не обязательно, можно использовать только для чувствительных данных.

Изящно, скажите?

arxiv.org/pdf/2406.10209

BY Data Secrets






Share with your friend now:
tgoop.com/data_secrets/7754

View MORE
Open in Telegram


Telegram News

Date: |

Other crimes that the SUCK Channel incited under Ng’s watch included using corrosive chemicals to make explosives and causing grievous bodily harm with intent. The court also found Ng responsible for calling on people to assist protesters who clashed violently with police at several universities in November 2019. How to Create a Private or Public Channel on Telegram? Telegram desktop app: In the upper left corner, click the Menu icon (the one with three lines). Select “New Channel” from the drop-down menu. Public channels are public to the internet, regardless of whether or not they are subscribed. A public channel is displayed in search results and has a short address (link). The initiatives announced by Perekopsky include monitoring the content in groups. According to the executive, posts identified as lacking context or as containing false information will be flagged as a potential source of disinformation. The content is then forwarded to Telegram's fact-checking channels for analysis and subsequent publication of verified information.
from us


Telegram Data Secrets
FROM American