tgoop.com/quant_prune_distill/94
Last Update:
FasterViT: Fast Vision Transformers with Hierarchical Attention
Очередной гипер-мега-ультра эффективный гибрид трансформера и сверточной архитектуры - FasterViT от Nvidia.
Согласно кривой Парето throughput vs top-1 ImageNet accuracy, представленной в работе, FasterViT заметно опережает всех предшественников при замерах на A100.
В чем же секрет такого чудесного быстродействия?
Архитектура
Работа по ускорению и оптимизации vision (и не только) трансформеров активно ведется примерно со времени их младенчества. Исходный трансформер очень гибок и универсален, и в то же обладая меньшим набором inductive biases, менее заточен под задачи компьютерного зрения, поэтому не столь эффективен.
С 2021 года появилось множество работ, совмещающих архитектурные элементы из трансформера и более привычных сверточных архитектур - Swin, ConvNext, PoolFormer, CrossViT, CoAT, MobileViT, EfficientFormer, NextViT, и многие другие.
Серьёзным недостатком трансформера с точки зрения вычислительной сложности является квадратичная сложность по длине последовательности. Потому приходится либо ограничиваться Attention на низких разрешениях, либо нарезать на крупные патчи. В литературе был предложен ряд способов удешевить attention за счет его локализации в окне (Swin), факторизации на локальный и глобальный attention (Twins).
В этой работе предложили по сути новую версию факторизации Attention. Заводят на каждое окно (аналогичное таковому в Swin) некоторое количество carrier токенов (которых гораздо меньше, чем патчей в окне). И в каждом HAT (Hierarchical ATtention) происходит обмен информацией между carrier токенами из разных окон, а затем carrier токены обмениваются информацией с патчами в окнах. После одного или несколько раундов HAT carrier токены сливаются с исходными патчами для передачи глобальной информации.
Кроме того, популярные в мобильных архитектурах depthwise свертки не эффективны по скорости, из-за memory-bound природы верхних слоев, поэтому используются обычные 3x3 свертки без факторизации.
Дизайн архитектуры довольно стандартный для эффективных гибридных архитектур на первых двух стадиях (высоком разрешении) сверточные блоки. На меньшем разрешении работают HAT блоки.
BY КПД
Share with your friend now:
tgoop.com/quant_prune_distill/94