tgoop.com/quant_prune_distill/142
Last Update:
Эксперименты
UltraFastBert - бертоподобная модель с 12 блоками с деревьями глубины 11 (т.е 4095 = 2^12 - 1 нейронами в скрытой размерности ffn).
В качестве бейзлайна авторы берут crammedBERT из статьи, где обучили бертоподобную модель на MLM до качества, немного уступающему оригинальному BERT за день на одной GPU. Сравниваются со стандартной версией со скрытой размерностью 3072, и версией, в которой feedforward_dim=4095. Из этой же статьи берут гиперпараметры обучения.
Для валидации замеряют точность на бенчмарках из GLUE.
Авторы обучают вариации UltraFastBERT разной глубины, от 1 до максимально возможной, при примерно постоянной ширине.
По качеству все смотрится довольно неплохо: с ростом глубины среднее качество на GLUE просаживается, что ожидаемо, учитывая, что все меньше и меньше параметров используется на инференсе, но не драматически. Сильнее всего страдает качество на CoLA, оно и тянет усредненный результат вниз.
Гораздо веселее история с замерами. Свою реализацию FFF авторы сравнивают со своими же самописными реализациями операций для бейзлайновой архитектуры. Сетап сравнения тоже довольно экзотический - батч размера 128 последовательностей длины 128, и в качестве L1 бейзлайна они пробегают циклом по всем строкам матриц и вызывают скалярные произведения. В качестве L2 бейзлайна копируют матрицы весов batch_size раз и запускают batched matvec, что крайне неэффективно по памяти к тому же.
Отсюда и берутся невероятные цифры по ускорению.
Абсолютные цифры по времени инференса в статье тактично опущены.
Вывод
Идея статьи на самом деле не так уж безумна, и если бы существовало железо, способное претворить предложенную идею в жизнь эффективно, то она бы могла найти широкое применение на практике. Однако, у реальных ускорителей есть множество нюансов с доступами к памяти, аппаратной реализацией операций. Если бы авторы честно упомянули все limitations и провели честное сравнение с бейзлайнами, то была бы вполне неплохая статья уровня типичного постера NeurIPS/ICLR, с разумной идеей, но не оставившей большого следа. Но авторы решили сорвать хайп. Геростратова слава, тоже слава. По итоге имеем LK-99 из мира DL.
BY КПД
Share with your friend now:
tgoop.com/quant_prune_distill/142