tgoop.com/quant_prune_distill/95
Last Update:
Результаты
FasterViT оказывается значительно эффективнее альтернатив по throughput, хоть и не по количеству параметров. Кроме того, архитектура неплохо себя показывает в качестве бэкбоуна на задачах сегментации и детекции.
Далее в статье есть ablation компонент, подтверждающий необходимость того или иного решения. Эффект от каждой из них по отдельности, честного говоря, небольшой.
Выводы
Если верить представленным результатам, то вышло довольно эффективное решение, с относительно простой структурой. Вопрос в том, насколько ускорение на GPU будет переноситься на мобильные архитектуры, кои скорее всего и будут являться целевой аудиторией. Комбинация локальной и глобальной агрегации признаков - выглядит универсальным подходом в разработке современных архитектур, и дальнейший прогресс носит скорее инкрементальный характер. Кроме того, процедура обучения, если присмотреться, включает некоторый тюнинг гиперпараметров (learning rate, dropout, drop path), по сравнению со стандарнтыми рецептами, и неизвестно насколько выигрыш обусловлен самой архитектурой, а насколько удачным оптимизационным рецептом.
Отдельный вопрос, насколько наработки в области эффективных архитектур переносятся на CLIP-модели и self-supervised претрейны. Есть ли какая-то польза от специфичных архитектур, или базовый трансформер всех победит?
BY КПД
Share with your friend now:
tgoop.com/quant_prune_distill/95