tgoop.com/c_research/115
Last Update:
How to Scale Your EMA
В наших руках редкий зверь - статья от Apple, да еще и по scaling laws. Конкретнее, про то как масштабировать exponential moving average (EMA) - популярный подход увеличения обобщаемости и избегания локальных минимумов. EMA - взвешенное среднее весов модели. Как понятно из названия метода, взвешивание экспоненциальное, а значит есть параметр, который отвечает за то насколько быстро будет уменьшаться важность ранее полученных вариантов весов. Статья про то как выбирать этот параметр в зависимости от размера батча во время обучения.
В статье есть два важных с практической точки зрения допущения:
1. Исходный анализ исключительно с SGD
2. Learning rate масштабируют относительно batch size линейно (есть альтернативные варианты)
Из принятых выше допущений аналитически следует, что EMA должен масштабироваться относительно размера батча экспоненциально, что называют EMA scaling rule.
Экспериментальная часть посвящена:
— Подтверждению сказанного для SGD
— Иллюстрации того, что (хоть и без пруфов) для адаптивных алгоритмов (RMSProp, Adam) зависимость такая же
Авторы рассматривают несколько задач:
— Supervised классификация (картинки, распознавание аудио)
— Semi-supervised speech recognition via pseudo-labeling
— Self-supervised image representation learning. Конкретнее - постановка, когда EMA модель рассматривается в виде учителя как в BLIP/BYOL
Во всех задачах EMA scaling rule как минимум не вредит, чаще улучшает результаты. Кода нет.
BY Concise Research

Share with your friend now:
tgoop.com/c_research/115