КПД@quant_prune_distill P.87

КПД

Архитектурные модификации

Layer stacking
Обучаем меньшую модель некоторое число шагов, а затем дублируем слои и обучаем далее уже вдвое большую модель.
Предполагаемый выигрыш за счет того, что меньшая модель делает большее число шагов при фиксированном размере.

Layer dropping
В архитектурах с residual connections в целях регуляризации иногда пропускают вычисления части слоев (например MHA или FeedForward block). Кроме того, сия процедура дает некоторую экономию в количестве вычислений. Обыкновенно в начале обучения
вероятность пропуска слоя равна нулю и с течением времени растет до некоторого максимального значения. Кроме того, вероятность растет от входа модели, к ее выходу (согласно народной мудрости в начале обучаются универсальные и общие представления, а ближе к выходу более специфичные).

Отбор данных

Selective backprop
На обратном проходе градиенты считаются только по примерам с наибольшим значением функции потерь. На прямом проходе считается лосс, а на обратном сэмплируются примеры отранжированные по недавней истории функции потерь.

RHO Loss
Предложенная в работе метод уменьшает вес примеров с большими значениями train лосса, так как они скорее всего соотвествуют шумным или некорректно размеченным данным.

Оптимизаторы

Lion
В качестве альтернативы общеупотребимому Adam-у в начале этого года был предложен отпимизатор Lion, найденный с помощью reinforcement learning. Теоретических гарантий на его превосходство нет, но в ряде работ утверждается, что он немного накидывает по сравнению с Adam. При этом сам алгоритм достаточно прост.

Sophia
Все новое - это хорошо забытое старое, как известно. Sophia - по существу тот же Adam, но использующий другой способ оценки кривизны для preconditioning. В исходной работе использовались две формулировки - через Hutchinson estimator и Gauss-Newton-Bartlett. В экспериментах здесь используется вторая, так как ее реализация была опубликована (и работала немного лучше в cтатье по Sophia).

🔥2

www.tgoop.com/quant_prune_distill/87

640 viewsedited Jul 25, 2023 at 04:23

tgoop.com/quant_prune_distill/87

Create: 2023-07-25
Last Update: 2025-08-28 08:39:37

BY КПД

Share with your friend now:
tgoop.com/quant_prune_distill/87

Telegram News

Архитектурные модификации