QUANT_PRUNE_DISTILL Telegram 286
Sparse maximal update parameterization: A holistic approach to sparse training dynamics
[Папира][Кода нет]

Введение

Подбор шага обучения - занятие довольно потное 🥲 и утомительное 😞. Learning rate, хороший для меньших моделей, зачастую приводит к расходимости для больших. Потому большие модели обычно обучают с меньшим learning rate. Но подбор по сетке (или с помощью байесовской оптимизации) может оказаться слишком накладным на практике, а иметь хорошие значения гиперпараметров все-таки хочется.

В Tensor Programs V предложили параметризацию весов, градиентов и learning rate (μP), такую, что оптимальные гиперпараметры обучения переносятся с маленьких моделей на большие.

Динамика обучения в разреженных сетях существенно отличается от плотных. Потому естественно предположить, что обобщаемая параметризация на разные степени прореживания потребует дополнительных телодвижений. И в данной статье выводят такую параметризацию.

Метод

Параметризация, при которой learning rate и прочие гиперпараметры обучения будут
переноситься на разные размеры моделей и степени прореживания, должна удовлетворять следующим свойствам:

1️⃣ Нормы весов не зависят от ширины и sparsity
2️⃣ Нормы градиентов по весам не зависят от ширины и sparsity
3️⃣ Изменения весов (для произвольного алгоритма оптимизации) не зависят от ширины и sparsity

Из нехитрой математики следует, что variance весов при иниациализации и learning rate следует масштабировать как 1 / (ширину_слоя * (1 - sparsity)). Чем шире сеть - тем меньше разброс параметров и learning rate, чем более разреженная сеть - тем, наоборот, больше разброс параметров и learning rate. При sparsity = 0, предложенная SμPar вырождается в μP.

Эксперименты

Метод валидируют на LMках c SwiGLU и Alibi, обучаемых на токенах из Slim Pajama. В качестве маленькой прокси модели для тюнинга гиперпараметрво берут LMку с 40M параметрами, а основную серию экспериментов проводят на 610M модели. Замеряют loss на обучении (датасет большой, потому переобучения нет).

При стандартной параметризации и μP оптимальный learning rate приходится подбирать для каждой степени сжатия свой, в то время, как для SμPar оптимальные learning rate зафиксирован.

Перенесенные с меньшей модели параметры на большую для разных степеней прореживания позволяют достичь лучшего качества по сравнению с попытками затюнить стандартную параметризацию и μP.

Авторы - ребята из Cerebras, потому умеют вполне эффективно эксплуатировать разреженные операции 😉.

Вывод

Полезная идея при обучении разреженных сетей. Ранее в Sparsity Scaling Laws было показано, что при очень большом числе данных sparse модели более compute оптимальны, чем плотные. Если в будущем будут активно учить LLMки с использованием специализированного железа SμPar будет весьма кстати для подбора гиперпараметров.
👍13



tgoop.com/quant_prune_distill/286
Create:
Last Update:

Sparse maximal update parameterization: A holistic approach to sparse training dynamics
[Папира][Кода нет]

Введение

Подбор шага обучения - занятие довольно потное 🥲 и утомительное 😞. Learning rate, хороший для меньших моделей, зачастую приводит к расходимости для больших. Потому большие модели обычно обучают с меньшим learning rate. Но подбор по сетке (или с помощью байесовской оптимизации) может оказаться слишком накладным на практике, а иметь хорошие значения гиперпараметров все-таки хочется.

В Tensor Programs V предложили параметризацию весов, градиентов и learning rate (μP), такую, что оптимальные гиперпараметры обучения переносятся с маленьких моделей на большие.

Динамика обучения в разреженных сетях существенно отличается от плотных. Потому естественно предположить, что обобщаемая параметризация на разные степени прореживания потребует дополнительных телодвижений. И в данной статье выводят такую параметризацию.

Метод

Параметризация, при которой learning rate и прочие гиперпараметры обучения будут
переноситься на разные размеры моделей и степени прореживания, должна удовлетворять следующим свойствам:

1️⃣ Нормы весов не зависят от ширины и sparsity
2️⃣ Нормы градиентов по весам не зависят от ширины и sparsity
3️⃣ Изменения весов (для произвольного алгоритма оптимизации) не зависят от ширины и sparsity

Из нехитрой математики следует, что variance весов при иниациализации и learning rate следует масштабировать как 1 / (ширину_слоя * (1 - sparsity)). Чем шире сеть - тем меньше разброс параметров и learning rate, чем более разреженная сеть - тем, наоборот, больше разброс параметров и learning rate. При sparsity = 0, предложенная SμPar вырождается в μP.

Эксперименты

Метод валидируют на LMках c SwiGLU и Alibi, обучаемых на токенах из Slim Pajama. В качестве маленькой прокси модели для тюнинга гиперпараметрво берут LMку с 40M параметрами, а основную серию экспериментов проводят на 610M модели. Замеряют loss на обучении (датасет большой, потому переобучения нет).

При стандартной параметризации и μP оптимальный learning rate приходится подбирать для каждой степени сжатия свой, в то время, как для SμPar оптимальные learning rate зафиксирован.

Перенесенные с меньшей модели параметры на большую для разных степеней прореживания позволяют достичь лучшего качества по сравнению с попытками затюнить стандартную параметризацию и μP.

Авторы - ребята из Cerebras, потому умеют вполне эффективно эксплуатировать разреженные операции 😉.

Вывод

Полезная идея при обучении разреженных сетей. Ранее в Sparsity Scaling Laws было показано, что при очень большом числе данных sparse модели более compute оптимальны, чем плотные. Если в будущем будут активно учить LLMки с использованием специализированного железа SμPar будет весьма кстати для подбора гиперпараметров.

BY КПД


Share with your friend now:
tgoop.com/quant_prune_distill/286

View MORE
Open in Telegram


Telegram News

Date: |

Informative How to Create a Private or Public Channel on Telegram? Over 33,000 people sent out over 1,000 doxxing messages in the group. Although the administrators tried to delete all of the messages, the posting speed was far too much for them to keep up. While some crypto traders move toward screaming as a coping mechanism, many mental health experts have argued that “scream therapy” is pseudoscience. Scientific research or no, it obviously feels good. Some Telegram Channels content management tips
from us


Telegram КПД
FROM American