QUANT_PRUNE_DISTILL Telegram 192
Возникла следующая мысль, навеянная работой то MiniCPM (отличный разбор у Сиолошной).
Типичные scaling laws для обучения языковых моделей имеют следующий вид:
L = A / N^{\alpha} + B / D^{\beta} + L0
где
L - лосс-функция на отложенной выборке
L0 - ошибка "идеальной" модели
N - число параметров в модели
D - число токенов на обучении
A, B - некоторые константы

Но в них никак не фигурируют детали обучения - learning rate, расписание обучения. Вероятно, они не явно зашиты в константы, но зависимость нетривиальная. При нулевом learning rate ничего учиться не будет, очевидно, при learning rate выше некоторого порога лосс улетит в стратосферу. Потому данный закон справедлив в некоторой области параметров.

При большем learning rate модель больше подстраивается под значение батча, но в то же время больше информации, чем было в train она постичь не может по-любому. И для точной сходимости к оптимуму, по всей видимости, необходимо иметь малый learning rate в конце обучения (чего можно добиться условным косинусом, линейным или 1/sqrt(t) угасающим learning rate).

Интересно, насколько, кроме самой архитектуры и данных, качество полученной модели зависит от параметров обучения, и насколько оптимально подобраны рецепты обучения всех этих шиншилл, ллам, мистралей и прочей живности...



tgoop.com/quant_prune_distill/192
Create:
Last Update:

Возникла следующая мысль, навеянная работой то MiniCPM (отличный разбор у Сиолошной).
Типичные scaling laws для обучения языковых моделей имеют следующий вид:
L = A / N^{\alpha} + B / D^{\beta} + L0
где
L - лосс-функция на отложенной выборке
L0 - ошибка "идеальной" модели
N - число параметров в модели
D - число токенов на обучении
A, B - некоторые константы

Но в них никак не фигурируют детали обучения - learning rate, расписание обучения. Вероятно, они не явно зашиты в константы, но зависимость нетривиальная. При нулевом learning rate ничего учиться не будет, очевидно, при learning rate выше некоторого порога лосс улетит в стратосферу. Потому данный закон справедлив в некоторой области параметров.

При большем learning rate модель больше подстраивается под значение батча, но в то же время больше информации, чем было в train она постичь не может по-любому. И для точной сходимости к оптимуму, по всей видимости, необходимо иметь малый learning rate в конце обучения (чего можно добиться условным косинусом, линейным или 1/sqrt(t) угасающим learning rate).

Интересно, насколько, кроме самой архитектуры и данных, качество полученной модели зависит от параметров обучения, и насколько оптимально подобраны рецепты обучения всех этих шиншилл, ллам, мистралей и прочей живности...

BY КПД


Share with your friend now:
tgoop.com/quant_prune_distill/192

View MORE
Open in Telegram


Telegram News

Date: |

End-to-end encryption is an important feature in messaging, as it's the first step in protecting users from surveillance. The court said the defendant had also incited people to commit public nuisance, with messages calling on them to take part in rallies and demonstrations including at Hong Kong International Airport, to block roads and to paralyse the public transportation system. Various forms of protest promoted on the messaging platform included general strikes, lunchtime protests and silent sit-ins. Unlimited number of subscribers per channel A Telegram channel is used for various purposes, from sharing helpful content to implementing a business strategy. In addition, you can use your channel to build and improve your company image, boost your sales, make profits, enhance customer loyalty, and more. Telegram message that reads: "Bear Market Screaming Therapy Group. You are only allowed to send screaming voice notes. Everything else = BAN. Text pics, videos, stickers, gif = BAN. Anything other than screaming = BAN. You think you are smart = BAN.
from us


Telegram КПД
FROM American