QUANT_PRUNE_DISTILL Telegram 94
FasterViT: Fast Vision Transformers with Hierarchical Attention

Очередной гипер-мега-ультра эффективный гибрид трансформера и сверточной архитектуры - FasterViT от Nvidia.

Согласно кривой Парето throughput vs top-1 ImageNet accuracy, представленной в работе, FasterViT заметно опережает всех предшественников при замерах на A100.

В чем же секрет такого чудесного быстродействия?

Архитектура

Работа по ускорению и оптимизации vision (и не только) трансформеров активно ведется примерно со времени их младенчества. Исходный трансформер очень гибок и универсален, и в то же обладая меньшим набором inductive biases, менее заточен под задачи компьютерного зрения, поэтому не столь эффективен.

С 2021 года появилось множество работ, совмещающих архитектурные элементы из трансформера и более привычных сверточных архитектур - Swin, ConvNext, PoolFormer, CrossViT, CoAT, MobileViT, EfficientFormer, NextViT, и многие другие.

Серьёзным недостатком трансформера с точки зрения вычислительной сложности является квадратичная сложность по длине последовательности. Потому приходится либо ограничиваться Attention на низких разрешениях, либо нарезать на крупные патчи. В литературе был предложен ряд способов удешевить attention за счет его локализации в окне (Swin), факторизации на локальный и глобальный attention (Twins).

В этой работе предложили по сути новую версию факторизации Attention. Заводят на каждое окно (аналогичное таковому в Swin) некоторое количество carrier токенов (которых гораздо меньше, чем патчей в окне). И в каждом HAT (Hierarchical ATtention) происходит обмен информацией между carrier токенами из разных окон, а затем carrier токены обмениваются информацией с патчами в окнах. После одного или несколько раундов HAT carrier токены сливаются с исходными патчами для передачи глобальной информации.

Кроме того, популярные в мобильных архитектурах depthwise свертки не эффективны по скорости, из-за memory-bound природы верхних слоев, поэтому используются обычные 3x3 свертки без факторизации.

Дизайн архитектуры довольно стандартный для эффективных гибридных архитектур на первых двух стадиях (высоком разрешении) сверточные блоки. На меньшем разрешении работают HAT блоки.
🔥3👀2



tgoop.com/quant_prune_distill/94
Create:
Last Update:

FasterViT: Fast Vision Transformers with Hierarchical Attention

Очередной гипер-мега-ультра эффективный гибрид трансформера и сверточной архитектуры - FasterViT от Nvidia.

Согласно кривой Парето throughput vs top-1 ImageNet accuracy, представленной в работе, FasterViT заметно опережает всех предшественников при замерах на A100.

В чем же секрет такого чудесного быстродействия?

Архитектура

Работа по ускорению и оптимизации vision (и не только) трансформеров активно ведется примерно со времени их младенчества. Исходный трансформер очень гибок и универсален, и в то же обладая меньшим набором inductive biases, менее заточен под задачи компьютерного зрения, поэтому не столь эффективен.

С 2021 года появилось множество работ, совмещающих архитектурные элементы из трансформера и более привычных сверточных архитектур - Swin, ConvNext, PoolFormer, CrossViT, CoAT, MobileViT, EfficientFormer, NextViT, и многие другие.

Серьёзным недостатком трансформера с точки зрения вычислительной сложности является квадратичная сложность по длине последовательности. Потому приходится либо ограничиваться Attention на низких разрешениях, либо нарезать на крупные патчи. В литературе был предложен ряд способов удешевить attention за счет его локализации в окне (Swin), факторизации на локальный и глобальный attention (Twins).

В этой работе предложили по сути новую версию факторизации Attention. Заводят на каждое окно (аналогичное таковому в Swin) некоторое количество carrier токенов (которых гораздо меньше, чем патчей в окне). И в каждом HAT (Hierarchical ATtention) происходит обмен информацией между carrier токенами из разных окон, а затем carrier токены обмениваются информацией с патчами в окнах. После одного или несколько раундов HAT carrier токены сливаются с исходными патчами для передачи глобальной информации.

Кроме того, популярные в мобильных архитектурах depthwise свертки не эффективны по скорости, из-за memory-bound природы верхних слоев, поэтому используются обычные 3x3 свертки без факторизации.

Дизайн архитектуры довольно стандартный для эффективных гибридных архитектур на первых двух стадиях (высоком разрешении) сверточные блоки. На меньшем разрешении работают HAT блоки.

BY КПД


Share with your friend now:
tgoop.com/quant_prune_distill/94

View MORE
Open in Telegram


Telegram News

Date: |

Hashtags are a fast way to find the correct information on social media. To put your content out there, be sure to add hashtags to each post. We have two intelligent tips to give you: Hui said the time period and nature of some offences “overlapped” and thus their prison terms could be served concurrently. The judge ordered Ng to be jailed for a total of six years and six months. On June 7, Perekopsky met with Brazilian President Jair Bolsonaro, an avid user of the platform. According to the firm's VP, the main subject of the meeting was "freedom of expression." Commenting about the court's concerns about the spread of false information related to the elections, Minister Fachin noted Brazil is "facing circumstances that could put Brazil's democracy at risk." During the meeting, the information technology secretary at the TSE, Julio Valente, put forward a list of requests the court believes will disinformation.
from us


Telegram КПД
FROM American