КПД@quant_prune_distill P.456

КПД

Метод и эксперименты

Напомню, что OLMo - это полностью открытый проект по обучению больших языковых моделей с открытым исходным кодом и выложенными промежуточными чекпоинтами.

Давным-давно в одной далекой Галактике было показано что при фиксированном количестве FLOPs на обучение оптимальное качество достигается при отношении количества токенов (D) к параметрам модели (N) около 20. Но жирные модельки потом дорого гонять на железе, потому обыкновенно выходят далеко за данное отношение и качество все равно монотонно растет, хоть и не так быстро, как при отпимальном скейлинге. В частности, для Llama-3 отношение D/N = 2000.

Авторы взяли веса моделей (OLMo-1B, OLMo-2-7B, LLM360-Amber) с разных шагов обучения и обнаружили, что начиная с какого-то момента качество на некоторых задачах (AlpacaEval, ARC (не AGI), PiQA) при дообучении начинает убывать. При этом качество базовой модели непрерывно растет. Для 7B модели при этом такого явления не наблюдается, так как модель, по всей видимости еще не успела перейти в режим “перетренированности”.

Исследователи делают гипотезу, что данное явление, следствие повышенной чувствительности параметров к шуму и пертурбациям.

Дабы проверить данную гипотезу, авторы обучают на корпусе С4 модели от 15M до 90M параметров (с подвыборками размером от 4B до 128B токенов).

Сначала авторы исследуют зависимость лосса модели от времени обучения при фиксированной величине пертурбаций параметров гауссовым шумом. Первоначально, лосс модели не сильно меняется даже при большой величине шума. Но начиная с какого-то момента при сильном зашумлении лосс “зашумленной” модели начинает возрастать, несмотря на то, что качество исходной модели монотонно улучшается. То есть просадка модели, вызванная шумом, растет быстрее, чем улучшается модель.

Дообучение, конечно, сильно отличается от добавления гауссового шума, но тем не менее оказывается, что на некоторых датасетах при лернинг рейте побольше начиная с какого-то момента качество падает ↘️.

Далее авторы пробуют уменьшать шаг обучения, чтобы учесть большую чувствительность параметров модели, и это помогает на ID (in domain) задачах, но качество на OOD (out of domain) все равно может ухудшаться при дальнейшем обучении.

Затухающее расписание шагов обучения откладывает проблему на более позднее время, но не решает ее полностью.

Далее авторы рассматривают простую линейную модель: таргет генерируется линейным слоем, а обучается композиция двух слоев без активаций, где наблюдается тот же самый эффект - растущая чувствительность весов модели к зашумлению. В процессе обучения постепенно выучиваются все меньшие и меньшие сингулярные значения целевой матрицы, и в тот момент, когда шум превосходит одно из них, ошибка может начать расти.

В конце авторы вспоминают, про работы из RL и “пластичность”, комментируя , что обнаруженное явление имеет по всей видимости ту же самую природу.

Вывод

Довольно любопытное и интересное наблюдение. Для полноценной валидации требуется репродукция другими командами ибо результат может быть обусловлен такими нюансами как детали оптимизации, архитектуры, mixed-precision настроек и выбора данных. Потенциально еще причина может быть в специфике оптимизации Adam-oм или стремлении модели неограниченно наращивать логиты вероятностей для оптимизации кросс-энтропии. Использование другого оптимизатора или регуляризации (например, SAM) вероятно способно предотвратить проблему. Было бы интересно еще проверить имеет ли место эффект в других задачах: т.е будет ли ухудшаться качество vision foundation моделей (CLIP/SigLIP) на downstream при очень продолжительном обучении?

🤔11❤1🔥1

www.tgoop.com/quant_prune_distill/456

2.22K viewsedited Mar 30 at 07:39

tgoop.com/quant_prune_distill/456

Create: 2025-03-30
Last Update: 2025-08-24 04:55:46

BY КПД

Share with your friend now:
tgoop.com/quant_prune_distill/456

Telegram News

Метод и эксперименты