tgoop.com/quant_prune_distill/88
Last Update:
Эксперименты
Для сравнения различных методик эффективного обучения авторы берут BERT и T5 модели, обучают на задачи MLM и span-corrupting MLM, соответственно. Для предобучения используется C4. Для каждого метода параметры подстраиваются на основе некоторой сетки.
Алгоритмы сравниваются на вычислительных бюджетах в 6,12,24 часов на одной RTX 3090 (A100 для Т5).
Для оценки качества модели BERT валидируют результат файтьюнинга BERT на задачах из GLUE/SuperGLUE бенчмарков. Кроме того, оценивается качество работы MLM на валидации для BERT и T5. И для T5 модель проверяют на Super Natural Instructions.
Как оказалось, ни один из перечисленных методов оптимизации процедуры обучения не дают стабильного выигрыша по сравнению со стандартной процедуро обучения (Adam без наворотов).
На коротких отрезках - 6-12 часов некоторый профит имеет место от Layer stacking, практически исчезающий при более длительном обучении. Остальные алгоритмы из рассмотренных не дают выигрыша против бейзлайна ни при каких бюджетах обучения. Методы отбора данных при заданном ограничении на время работают хуже и на MLM и на GLUE.
Новомодные отпимизаторы (Lion и T5) сходятся хуже по времени со сравнению с baseline.
Итоги
Результат данной статьи в очередной раз подтверждает важность аккуратного и честного сравнения методов друг с другом. Статьи по Deep Learning выходят все чаще и чаще, потому спрос на ‘санитаров’ леса будет только расти с течением времени.
Наука на то и наука, что фальсифицируема.
BY КПД
Share with your friend now:
tgoop.com/quant_prune_distill/88