КПД@quant_prune_distill P.95

КПД

Результаты

FasterViT оказывается значительно эффективнее альтернатив по throughput, хоть и не по количеству параметров. Кроме того, архитектура неплохо себя показывает в качестве бэкбоуна на задачах сегментации и детекции.

Далее в статье есть ablation компонент, подтверждающий необходимость того или иного решения. Эффект от каждой из них по отдельности, честного говоря, небольшой.

Выводы

Если верить представленным результатам, то вышло довольно эффективное решение, с относительно простой структурой. Вопрос в том, насколько ускорение на GPU будет переноситься на мобильные архитектуры, кои скорее всего и будут являться целевой аудиторией. Комбинация локальной и глобальной агрегации признаков - выглядит универсальным подходом в разработке современных архитектур, и дальнейший прогресс носит скорее инкрементальный характер. Кроме того, процедура обучения, если присмотреться, включает некоторый тюнинг гиперпараметров (learning rate, dropout, drop path), по сравнению со стандарнтыми рецептами, и неизвестно насколько выигрыш обусловлен самой архитектурой, а насколько удачным оптимизационным рецептом.

Отдельный вопрос, насколько наработки в области эффективных архитектур переносятся на CLIP-модели и self-supervised претрейны. Есть ли какая-то польза от специфичных архитектур, или базовый трансформер всех победит?

www.tgoop.com/quant_prune_distill/95

190 viewsAug 15, 2023 at 08:52

tgoop.com/quant_prune_distill/95

Create: 2023-08-15
Last Update: 2025-08-28 08:39:55

BY КПД

Share with your friend now:
tgoop.com/quant_prune_distill/95

Telegram News

Результаты