PARTIALLY_UNSUPERVISED Telegram 135
Еще на прошлой неделе закончился NeurIPS 2021, пора собрать в кучу хотя бы некоторые заметки оттуда.

В этом году он проходил в онлайне; в целом все, кроме постер-сессий, было сделано довольно удобно - например, видео можно было смотреть на удобной скорости, можно листать слайды и синхронизировать с ними спикера, и так далее. Я смотрел не все и не очень внимательно, но кое-что запомнилось.

Главный хайп в сфере компьютерного зрения - это трансформеры. ViT был очень перспективен, но несовершенен (сложно обучать, долгий инференс, неустойчивость к изменению размера входных картинок...), и лучшие академические умы бросились исправлять это несовершенство. Например:

CAPE: Encoding Relative Positions with Continuous Augmented Positional Embeddings представляет новый тип positional embeddings, которые улучшают сходимость, повышают точность и устойчивость к размеру входа. Работает для CV, NLP, ASR задач.

All Tokens Matter: Token Labeling for Training Better Vision Transformers добавляет новую задачу, похожую на weak/self-supervised semantic segmentation для улучшения сходимости.

Not All Images are Worth 16x16 Words: Dynamic Transformers for Efficient Image Recognition предлагает способ динамически находить требуемое количество входных патчей, что повышает эффективность (напомню, трансформерам свойственна сложность O(n²) от количества токенов на входе).

TokenLearner: What Can 8 Learned Tokens Do for Images and Videos? предлагает скомбинировать сверточную сеть и трансформер: сначала сверточным блоком учим малое количество токенов, дальше засовываем их в трансформер.

ResT: An Efficient Transformer for Visual Recognition - очередной подход, как прикрутить свертки для оптимизации ViT и исправить родовые травмы positional encoding.

XCiT: Cross-Covariance Image Transformers предложили cross-covariance attention - еще один способ привести трансформер к линейной сложности. Бонусом идут повышение точности, визуализируемость, устойчивость к изменению входного разрешения.

В следующем посте: дистилляция, self-supervision, metric learning.



tgoop.com/partially_unsupervised/135
Create:
Last Update:

Еще на прошлой неделе закончился NeurIPS 2021, пора собрать в кучу хотя бы некоторые заметки оттуда.

В этом году он проходил в онлайне; в целом все, кроме постер-сессий, было сделано довольно удобно - например, видео можно было смотреть на удобной скорости, можно листать слайды и синхронизировать с ними спикера, и так далее. Я смотрел не все и не очень внимательно, но кое-что запомнилось.

Главный хайп в сфере компьютерного зрения - это трансформеры. ViT был очень перспективен, но несовершенен (сложно обучать, долгий инференс, неустойчивость к изменению размера входных картинок...), и лучшие академические умы бросились исправлять это несовершенство. Например:

CAPE: Encoding Relative Positions with Continuous Augmented Positional Embeddings представляет новый тип positional embeddings, которые улучшают сходимость, повышают точность и устойчивость к размеру входа. Работает для CV, NLP, ASR задач.

All Tokens Matter: Token Labeling for Training Better Vision Transformers добавляет новую задачу, похожую на weak/self-supervised semantic segmentation для улучшения сходимости.

Not All Images are Worth 16x16 Words: Dynamic Transformers for Efficient Image Recognition предлагает способ динамически находить требуемое количество входных патчей, что повышает эффективность (напомню, трансформерам свойственна сложность O(n²) от количества токенов на входе).

TokenLearner: What Can 8 Learned Tokens Do for Images and Videos? предлагает скомбинировать сверточную сеть и трансформер: сначала сверточным блоком учим малое количество токенов, дальше засовываем их в трансформер.

ResT: An Efficient Transformer for Visual Recognition - очередной подход, как прикрутить свертки для оптимизации ViT и исправить родовые травмы positional encoding.

XCiT: Cross-Covariance Image Transformers предложили cross-covariance attention - еще один способ привести трансформер к линейной сложности. Бонусом идут повышение точности, визуализируемость, устойчивость к изменению входного разрешения.

В следующем посте: дистилляция, self-supervision, metric learning.

BY partially unsupervised


Share with your friend now:
tgoop.com/partially_unsupervised/135

View MORE
Open in Telegram


Telegram News

Date: |

While some crypto traders move toward screaming as a coping mechanism, many mental health experts have argued that “scream therapy” is pseudoscience. Scientific research or no, it obviously feels good. As of Thursday, the SUCK Channel had 34,146 subscribers, with only one message dated August 28, 2020. It was an announcement stating that police had removed all posts on the channel because its content “contravenes the laws of Hong Kong.” Done! Now you’re the proud owner of a Telegram channel. The next step is to set up and customize your channel. To view your bio, click the Menu icon and select “View channel info.” Some Telegram Channels content management tips
from us


Telegram partially unsupervised
FROM American