partially unsupervised@partially

partially unsupervised

Еще на прошлой неделе закончился NeurIPS 2021, пора собрать в кучу хотя бы некоторые заметки оттуда.

В этом году он проходил в онлайне; в целом все, кроме постер-сессий, было сделано довольно удобно - например, видео можно было смотреть на удобной скорости, можно листать слайды и синхронизировать с ними спикера, и так далее. Я смотрел не все и не очень внимательно, но кое-что запомнилось.

Главный хайп в сфере компьютерного зрения - это трансформеры. ViT был очень перспективен, но несовершенен (сложно обучать, долгий инференс, неустойчивость к изменению размера входных картинок...), и лучшие академические умы бросились исправлять это несовершенство. Например:

CAPE: Encoding Relative Positions with Continuous Augmented Positional Embeddings представляет новый тип positional embeddings, которые улучшают сходимость, повышают точность и устойчивость к размеру входа. Работает для CV, NLP, ASR задач.

All Tokens Matter: Token Labeling for Training Better Vision Transformers добавляет новую задачу, похожую на weak/self-supervised semantic segmentation для улучшения сходимости.

Not All Images are Worth 16x16 Words: Dynamic Transformers for Efficient Image Recognition предлагает способ динамически находить требуемое количество входных патчей, что повышает эффективность (напомню, трансформерам свойственна сложность O(n²) от количества токенов на входе).

TokenLearner: What Can 8 Learned Tokens Do for Images and Videos? предлагает скомбинировать сверточную сеть и трансформер: сначала сверточным блоком учим малое количество токенов, дальше засовываем их в трансформер.

ResT: An Efficient Transformer for Visual Recognition - очередной подход, как прикрутить свертки для оптимизации ViT и исправить родовые травмы positional encoding.

XCiT: Cross-Covariance Image Transformers предложили cross-covariance attention - еще один способ привести трансформер к линейной сложности. Бонусом идут повышение точности, визуализируемость, устойчивость к изменению входного разрешения.

В следующем посте: дистилляция, self-supervision, metric learning.

www.tgoop.com/partially_unsupervised/135

12.6K viewsDec 23, 2021 at 15:09

tgoop.com/partially_unsupervised/135

Create: 2021-12-23
Last Update: 2025-10-22 08:50:47

BY partially unsupervised

Share with your friend now:
tgoop.com/partially_unsupervised/135

Telegram News

Еще на прошлой неделе закончился NeurIPS 2021