tgoop.com/quant_prune_distill/192
Last Update:
Возникла следующая мысль, навеянная работой то MiniCPM (отличный разбор у Сиолошной).
Типичные scaling laws для обучения языковых моделей имеют следующий вид:L = A / N^{\alpha} + B / D^{\beta} + L0
гдеL
- лосс-функция на отложенной выборкеL0
- ошибка "идеальной" моделиN
- число параметров в моделиD
- число токенов на обученииA, B
- некоторые константы
Но в них никак не фигурируют детали обучения - learning rate, расписание обучения. Вероятно, они не явно зашиты в константы, но зависимость нетривиальная. При нулевом learning rate ничего учиться не будет, очевидно, при learning rate выше некоторого порога лосс улетит в стратосферу. Потому данный закон справедлив в некоторой области параметров.
При большем learning rate модель больше подстраивается под значение батча, но в то же время больше информации, чем было в train она постичь не может по-любому. И для точной сходимости к оптимуму, по всей видимости, необходимо иметь малый learning rate в конце обучения (чего можно добиться условным косинусом, линейным или 1/sqrt(t)
угасающим learning rate).
Интересно, насколько, кроме самой архитектуры и данных, качество полученной модели зависит от параметров обучения, и насколько оптимально подобраны рецепты обучения всех этих шиншилл, ллам, мистралей и прочей живности...
BY КПД
Share with your friend now:
tgoop.com/quant_prune_distill/192