tgoop.com/quant_prune_distill/98
Last Update:
Dataset Quantization
[Статья][Код]
Вопреки обыкновению, данная статья не про квантование нейронных сетей, и даже не про квантование векторов, а про квантование датасетов
.
Как известно, чем больше данных, тем лучше итоговая модель.
Однако, обучение на большом датасете требует значительных затрат по времени. Да и данные надо где-то хранить.
Потому возникает естественный вопрос - можно ли как-то уменьшить количество данных, не потеряв при этом существенно в качестве?
Существующие методы отбирают примеры либо на основе градиентов по примерам для фиксированной архитектуры, либо model-agnostic способами на основе некоторых эвристик.
Проблема первого семейства подходов, что они не обобщаются на другие модели и архитектуры, а качество работы второго класса методов обычно оставляет желать лучшего. Кроме того, первый класс методов требует весьма значительных вычислительных затрат.
И в данной работе предлагают метод, который, с одной стороны, не привязан к конкретной модели, и с хорошим качеством.
Метод
Хочется, чтобы полученный набор данных был как можно более разнообразным.
За основу берут метод GraphCut, который стартует с произвольно выбранного примера, и каждый следующий пример подбирают так, чтобы он был как можно дальше от выбранных ранее, и ближе к еще не выбранным.
Однако, проблема исходной постановки в том, что пока примеров выбрано мало по сравнению с размером всех данных, будут браться примеры, наиболее близкие к центроиде еще не выбранных, и разнообразие примеров выйдет довольно ограниченным.
Авторы предлагают пройтись по примерам в порядке, определенном GraphCut, и добавлять разбить примеры на несколько корзин. И затем равномерно выбирать примеры из каждой полученной корзины. Утверждается, что образованный таким образом датасет будет обладать достаточным разнообразием и репрезентативностью.
Для дальнейшего сжатия, авторы оценивают информативность патчей с помощью модифицированной версии GradCam и заменяют на черные квадраты наименее информативные.
BY КПД
Share with your friend now:
tgoop.com/quant_prune_distill/98