tgoop.com/data_secrets/5555
Last Update:
Свежее исследование от Apple: всего один параметр в LLM может разрушить способность всей модели генерировать осмысленный текст
Во многих предыдущих работах уже было показано, что некоторые веса модели имеют больше значения, чем остальные. В частности, доказано, что существуют небольшие группы весов-выбросов (до 0.01%), которые составляют основную часть качества модели.
Apple же пошли дальше и выявили, что в моделях есть удивительный THE SUPER WEIGHT – параметр, зануление которого приводит к коллапсу модели, то есть вообще лишает ее способности генерировать что-то адекватное. Перплексия без него повышается в три раза, а на zero-shot качество ответов падает до случайного бормотания.
В статье также предлагается метод поиска такого супер-веса за один проход по сети. Дело в том, что, оказывается, супер-веса связаны с супер-активациями – исключительно большими актвациями, которые были обнаружены недавно в другой работе. При этом это не случайная корреляция, и как раз с помощью обнаружения скачков активаций (то есть на практике скачков в инпут и аутпут распределениях слоев) можно обнаружить супер-вес.
Кстати, супер-вес может быть не один: в некоторых сетях их обнаружили около шести, но обычно не более трех. При этом до и после файнтюнинга расположение супер-веса не меняется, а еще они обычно располагаются в ранних слоях.
Интересно то, что знания о расположении таких супер-весов можно эффективно применять для оптимизации квантования или дистилляции. Например, просто обрабатывая такие веса специальным образом, ученые добились того, что ванильные методы сжатия достигают перформанса продвинутых, выростая в качестве на 75-82%. Это очень достойный результат.
Статья полностью – здесь
BY Data Secrets

Share with your friend now:
tgoop.com/data_secrets/5555