tgoop.com/quant_prune_distill/130
Last Update:
ConvNets Match Vision Transformers at Scale
[Статья] [Кода нет, но у вас все равно нет JFT-4B и TPUv4, чтобы воспроизвести экспы]
Народная мудрость гласит, что трансформеры масштабируются лучше, чем сверточные сети при наличии большого количества данных и бюджета на обучение. Но убедительного экспериментального подтверждения в поддержку данной гипотезы никто не проводил ( В ConvNext-V2 имеется сравнение эффективности MAE-предобучения по сравнению с ViT, но на меньших масштабах данных)
Исследователи из DeepMind прогнали ряд сверточных сеток на большом датасете и продемонстировали, что CNN масштабируются не хуже трансформеров.
Метод + Эксперименты
В качестве семейства сверточных сетей авторы рассматривают NFNet-ы, одно из последних достижений в разработке CNN, до того как ViTы завладели нишей. Разные модели семейства отличаются глубиной (больше номер - больше глубина), и шириной (+ - более широкая модель). Обучается все хозяйство на проприетарном JFT-4M и чипах TPUv4.
Результаты
Сверточные сети удовлетворяют похожим степенным законам убывания лосса от бюджета обучения, что и трансформеры.
При сопоставимых бюджетах сверточные сети выдают сопоставимое качество. Авторы учитывают использование более новых TPUv4 против TPUv3 в прошлых работах и потому дают поправку при сравнении бюджетов.
Самые большие модели из семейства, обученные в течение 100k+ TPU часов выдают 90%+ топ-1 точности на ImageNet-1k при дообучении на нем. Использование Repeated Augmentation для самой большой модели накидывает аж 0.1% на ImageNet-1k.
Вывод
Очередной голос в пользу того, что важны не сколько архитектурные детали, сколько количество данных и время обучения. На большом объеме данных inductive bias уже не имеет особого значения, но и трансформеры, вероятно, не обладают чудесными свойствами с точки зрения масштабируемости. Тем не менее, для пущей убедительности в данном отчете было бы неплохо увидеть аналогичные кривые лосса против часов обучения для семейства ViTов. Три точки, отвечающие трансформерам, недостаточно репрезентативны. Интересно, если провести подобный эксперимент для LSTM, с поправкой на утилизацию железа, будет ли наблюдаться подобная картина?
BY КПД
Share with your friend now:
tgoop.com/quant_prune_distill/130