tgoop.com/jdata_blog/397
Last Update:
🪻Привет, друзья!
Помните пост про архитектурный bias в CNN? Меня уже недельки две мучает вопрос — какой bias дают другие компоненты архитектур, и сегодня я наконец-то довела мини-ресерч на эту тему.
Часть 0. Зачем это знать, если ты не ресёрчер?
Понимание архитектурных bias’ов — это про:
— подходы к обучению — раз.
— про интерпретируемость — два.
Например, если CNN ориентирована на текстуры, а вы анализируете Grad-CAM или SHAP-карту, то вы скорее— вы увидите пятно на мехе, а не форму животного.
ViT может подсветить глобальный контур, но проигнорировать локальную деталь.
Визуализация градиетными методами покажет, куда смотрит модель, но не зачем. Важно понимать архитектурные предпосылки для более гранулярных выводов.
Часть 1. Про модели зрения. Key insights:
1. CNN — сильные текстурные биасы.
— имеют сдвиг в сторону текстур, а не форм, что контрастирует с тем, как картинку воспринимает человек. Это мы с вами видели в статье из прошлого поста по теме. Да-да, слонокот снова в деле.
— Отсутствие встроенной ротационной инвариантности – еще один пример: без аугментаций CNN будут “предвзято” считать объект под новым углом другим классом. Просто повертите 9 в голове.
2. ViT — сильная устойчивость.
— При правильном обучении трансформеры хорошо распознают глобальную форму объекта, подобно тому, как это делает человек.
— Устойчивее CNN при random patch masking — случайно «прячем» часть изображения. ViT сохранял ~60% точности ImageNet даже при 80% зашумлениях в данных.
— Нюанс: ViT требует гораздо большего объема данных для успешного обучения.
3.MLP — вроде не эффективно, но можно ухитриться.
— Чистые MLP выглядят как неэффективное решение — слишком много параметров, слишком медленно, особенно на изображениях. Но! Есть ходы.
— MLP-Mixer — архитектура основанная исключительно на многослойных персептронах (MLP). При этом, он сохраняет преимущество трансформеров (инвариантен к перестановке пикселей), и решает проблему CNN — имеет меньший текстурный перекос, чем у обычных CNN. Но при этом он требует тоже много данных.
— При этом, увеличение параметров в MLP тоже дает хорошую производительность (но нужно учитывать, что вычислительно это не совсем приятно).
The end на эту часть. Если вам интересно продолжение дайте знать (реакциями, всегда рада им)! Докопаюсь до других моделек.
Чудных выходных, не болейте, дышите весной!
Ваш Дата-автор!
❤️
P.S.
Если ничего писать не удается, значит я в прямом и переносном смыслу сижу под бумажками и за ноутбком. Сейчас заканчиваю безумно красивую работу с Mrs Wallbreaker. А ещё на упорстве у меня быть может получится начать сотрудничать с профессором (не из РФ!), так что я барахтаюсь лапками, чтобы меня не реджектнули. А если не выйдет — попытаемся снова. Такие дела!
BY Data Blog
Share with your friend now:
tgoop.com/jdata_blog/397