Warning: mkdir(): No space left on device in /var/www/tgoop/post.php on line 37

Warning: file_put_contents(aCache/aDaily/post/c_research/--): Failed to open stream: No such file or directory in /var/www/tgoop/post.php on line 50
Concise Research@c_research P.115
C_RESEARCH Telegram 115
How to Scale Your EMA

В наших руках редкий зверь - статья от Apple, да еще и по scaling laws. Конкретнее, про то как масштабировать exponential moving average (EMA) - популярный подход увеличения обобщаемости и избегания локальных минимумов. EMA - взвешенное среднее весов модели. Как понятно из названия метода, взвешивание экспоненциальное, а значит есть параметр, который отвечает за то насколько быстро будет уменьшаться важность ранее полученных вариантов весов. Статья про то как выбирать этот параметр в зависимости от размера батча во время обучения.

В статье есть два важных с практической точки зрения допущения:
1. Исходный анализ исключительно с SGD
2. Learning rate масштабируют относительно batch size линейно (есть альтернативные варианты)

Из принятых выше допущений аналитически следует, что EMA должен масштабироваться относительно размера батча экспоненциально, что называют EMA scaling rule.
Экспериментальная часть посвящена:
— Подтверждению сказанного для SGD
— Иллюстрации того, что (хоть и без пруфов) для адаптивных алгоритмов (RMSProp, Adam) зависимость такая же

Авторы рассматривают несколько задач:
— Supervised классификация (картинки, распознавание аудио)
— Semi-supervised speech recognition via pseudo-labeling
— Self-supervised image representation learning. Конкретнее - постановка, когда EMA модель рассматривается в виде учителя как в BLIP/BYOL

Во всех задачах EMA scaling rule как минимум не вредит, чаще улучшает результаты. Кода нет.
🔥3👍1



tgoop.com/c_research/115
Create:
Last Update:

How to Scale Your EMA

В наших руках редкий зверь - статья от Apple, да еще и по scaling laws. Конкретнее, про то как масштабировать exponential moving average (EMA) - популярный подход увеличения обобщаемости и избегания локальных минимумов. EMA - взвешенное среднее весов модели. Как понятно из названия метода, взвешивание экспоненциальное, а значит есть параметр, который отвечает за то насколько быстро будет уменьшаться важность ранее полученных вариантов весов. Статья про то как выбирать этот параметр в зависимости от размера батча во время обучения.

В статье есть два важных с практической точки зрения допущения:
1. Исходный анализ исключительно с SGD
2. Learning rate масштабируют относительно batch size линейно (есть альтернативные варианты)

Из принятых выше допущений аналитически следует, что EMA должен масштабироваться относительно размера батча экспоненциально, что называют EMA scaling rule.
Экспериментальная часть посвящена:
— Подтверждению сказанного для SGD
— Иллюстрации того, что (хоть и без пруфов) для адаптивных алгоритмов (RMSProp, Adam) зависимость такая же

Авторы рассматривают несколько задач:
— Supervised классификация (картинки, распознавание аудио)
— Semi-supervised speech recognition via pseudo-labeling
— Self-supervised image representation learning. Конкретнее - постановка, когда EMA модель рассматривается в виде учителя как в BLIP/BYOL

Во всех задачах EMA scaling rule как минимум не вредит, чаще улучшает результаты. Кода нет.

BY Concise Research




Share with your friend now:
tgoop.com/c_research/115

View MORE
Open in Telegram


Telegram News

Date: |

"Doxxing content is forbidden on Telegram and our moderators routinely remove such content from around the world," said a spokesman for the messaging app, Remi Vaughn. While the character limit is 255, try to fit into 200 characters. This way, users will be able to take in your text fast and efficiently. Reveal the essence of your channel and provide contact information. For example, you can add a bot name, link to your pricing plans, etc. Telegram users themselves will be able to flag and report potentially false content. Find your optimal posting schedule and stick to it. The peak posting times include 8 am, 6 pm, and 8 pm on social media. Try to publish serious stuff in the morning and leave less demanding content later in the day. The group also hosted discussions on committing arson, Judge Hui said, including setting roadblocks on fire, hurling petrol bombs at police stations and teaching people to make such weapons. The conversation linked to arson went on for two to three months, Hui said.
from us


Telegram Concise Research
FROM American