tgoop.com/quant_prune_distill/86
Last Update:
No Train No Gain: Revisiting Efficient Training
Algorithms For Transformer-based Language Models
[Статья][Код]
С течением времени запрос на обучение языковых моделях, основанных на Трансформерах, растет быстрее, чем имеющиеся в распоряжении вычислительные ресурсы. Потому и возникает запрос на эффективное обучение моделей.
Коллективный разум DL-сообщества предложил великое множество стратегий ускорения обучения: модификации процедуры обучения с использованием только части слоев, использованием части данных и алгоритмами отпимизации.
Каждая статья заявляет в той или иной форме, что предложенный метод эффективнее базового решения. Но что означает эффективнее? Ответ на этот вопрос не столь тривиален.
Сравнение эффективности алгоритмов
Количество шагов алгоритмов может быть плохим показателем - так как время одного шага может существенно различаться между алгоритмами. Алгоритм делающий в два раза меньше шагов, но с пятикратной стоимостью шага не слишком полезен.
Время работы зависит от используемой конфигурации вычислительных ресурсов.
Число операций с плавающей точкой зачастую не отражает специфику реализации математических операций на железе, время доступа к памяти, накладные расходы на коммуникацию….
Потому авторы предлагают использовать относительное время работы, привязанное к конкретному железу. Для некоторой конфигурации (видеокарты, CPU, ОЗУ) фиксируется вычислительный бюджет, и при запуске на другом сервере надо замерить отношение работы алгоритма к исходной конфигурации и с поправкой на этот фактор проводить все замеры. Т.е если новый сервер в 2 раза быстрее - то эксперимент должен быть в два раза короче.
BY КПД
Share with your friend now:
tgoop.com/quant_prune_distill/86