КПД@quant_prune_distill P.192

КПД

Возникла следующая мысль, навеянная работой то MiniCPM (отличный разбор у Сиолошной).
Типичные scaling laws для обучения языковых моделей имеют следующий вид:
L = A / N^{\alpha} + B / D^{\beta} + L0
где
L - лосс-функция на отложенной выборке
L0 - ошибка "идеальной" модели
N - число параметров в модели
D - число токенов на обучении
A, B - некоторые константы

Но в них никак не фигурируют детали обучения - learning rate, расписание обучения. Вероятно, они не явно зашиты в константы, но зависимость нетривиальная. При нулевом learning rate ничего учиться не будет, очевидно, при learning rate выше некоторого порога лосс улетит в стратосферу. Потому данный закон справедлив в некоторой области параметров.

При большем learning rate модель больше подстраивается под значение батча, но в то же время больше информации, чем было в train она постичь не может по-любому. И для точной сходимости к оптимуму, по всей видимости, необходимо иметь малый learning rate в конце обучения (чего можно добиться условным косинусом, линейным или 1/sqrt(t) угасающим learning rate).

Интересно, насколько, кроме самой архитектуры и данных, качество полученной модели зависит от параметров обучения, и насколько оптимально подобраны рецепты обучения всех этих шиншилл, ллам, мистралей и прочей живности...

www.tgoop.com/quant_prune_distill/192

953 viewsedited Feb 12, 2024 at 07:50

tgoop.com/quant_prune_distill/192

Create: 2024-02-12
Last Update: 2025-08-27 03:33:38

BY КПД

Share with your friend now:
tgoop.com/quant_prune_distill/192

Telegram News

Возникла следующая мысль