КПД@quant_prune_distill P.286

КПД

Sparse maximal update parameterization: A holistic approach to sparse training dynamics
[Папира][Кода нет]

Введение

Подбор шага обучения - занятие довольно потное 🥲 и утомительное 😞. Learning rate, хороший для меньших моделей, зачастую приводит к расходимости для больших. Потому большие модели обычно обучают с меньшим learning rate. Но подбор по сетке (или с помощью байесовской оптимизации) может оказаться слишком накладным на практике, а иметь хорошие значения гиперпараметров все-таки хочется.

В Tensor Programs V предложили параметризацию весов, градиентов и learning rate (μP), такую, что оптимальные гиперпараметры обучения переносятся с маленьких моделей на большие.

Динамика обучения в разреженных сетях существенно отличается от плотных. Потому естественно предположить, что обобщаемая параметризация на разные степени прореживания потребует дополнительных телодвижений. И в данной статье выводят такую параметризацию.

Метод

Параметризация, при которой learning rate и прочие гиперпараметры обучения будут
переноситься на разные размеры моделей и степени прореживания, должна удовлетворять следующим свойствам:

1️⃣ Нормы весов не зависят от ширины и sparsity
2️⃣ Нормы градиентов по весам не зависят от ширины и sparsity
3️⃣ Изменения весов (для произвольного алгоритма оптимизации) не зависят от ширины и sparsity

Из нехитрой математики следует, что variance весов при иниациализации и learning rate следует масштабировать как 1 / (ширину_слоя * (1 - sparsity)). Чем шире сеть - тем меньше разброс параметров и learning rate, чем более разреженная сеть - тем, наоборот, больше разброс параметров и learning rate. При sparsity = 0, предложенная SμPar вырождается в μP.

Эксперименты

Метод валидируют на LMках c SwiGLU и Alibi, обучаемых на токенах из Slim Pajama. В качестве маленькой прокси модели для тюнинга гиперпараметрво берут LMку с 40M параметрами, а основную серию экспериментов проводят на 610M модели. Замеряют loss на обучении (датасет большой, потому переобучения нет).

При стандартной параметризации и μP оптимальный learning rate приходится подбирать для каждой степени сжатия свой, в то время, как для SμPar оптимальные learning rate зафиксирован.

Перенесенные с меньшей модели параметры на большую для разных степеней прореживания позволяют достичь лучшего качества по сравнению с попытками затюнить стандартную параметризацию и μP.

Авторы - ребята из Cerebras, потому умеют вполне эффективно эксплуатировать разреженные операции 😉.

Вывод

Полезная идея при обучении разреженных сетей. Ранее в Sparsity Scaling Laws было показано, что при очень большом числе данных sparse модели более compute оптимальны, чем плотные. Если в будущем будут активно учить LLMки с использованием специализированного железа SμPar будет весьма кстати для подбора гиперпараметров.

👍13

www.tgoop.com/quant_prune_distill/286

1.69K viewsedited Jul 4, 2024 at 18:04

tgoop.com/quant_prune_distill/286

Create: 2024-07-04
Last Update: 2025-09-05 03:16:33

BY КПД

Share with your friend now:
tgoop.com/quant_prune_distill/286

Telegram News

Sparse maximal update parameterization: A holistic approach to sparse training dynamics