QUANT_PRUNE_DISTILL Telegram 142
Эксперименты

UltraFastBert - бертоподобная модель с 12 блоками с деревьями глубины 11 (т.е 4095 = 2^12 - 1 нейронами в скрытой размерности ffn).

В качестве бейзлайна авторы берут crammedBERT из статьи, где обучили бертоподобную модель на MLM до качества, немного уступающему оригинальному BERT за день на одной GPU. Сравниваются со стандартной версией со скрытой размерностью 3072, и версией, в которой feedforward_dim=4095. Из этой же статьи берут гиперпараметры обучения.

Для валидации замеряют точность на бенчмарках из GLUE.

Авторы обучают вариации UltraFastBERT разной глубины, от 1 до максимально возможной, при примерно постоянной ширине.

По качеству все смотрится довольно неплохо: с ростом глубины среднее качество на GLUE просаживается, что ожидаемо, учитывая, что все меньше и меньше параметров используется на инференсе, но не драматически. Сильнее всего страдает качество на CoLA, оно и тянет усредненный результат вниз.

Гораздо веселее история с замерами. Свою реализацию FFF авторы сравнивают со своими же самописными реализациями операций для бейзлайновой архитектуры. Сетап сравнения тоже довольно экзотический - батч размера 128 последовательностей длины 128, и в качестве L1 бейзлайна они пробегают циклом по всем строкам матриц и вызывают скалярные произведения. В качестве L2 бейзлайна копируют матрицы весов batch_size раз и запускают batched matvec, что крайне неэффективно по памяти к тому же.

Отсюда и берутся невероятные цифры по ускорению.

Абсолютные цифры по времени инференса в статье тактично опущены.

Вывод

Идея статьи на самом деле не так уж безумна, и если бы существовало железо, способное претворить предложенную идею в жизнь эффективно, то она бы могла найти широкое применение на практике. Однако, у реальных ускорителей есть множество нюансов с доступами к памяти, аппаратной реализацией операций. Если бы авторы честно упомянули все limitations и провели честное сравнение с бейзлайнами, то была бы вполне неплохая статья уровня типичного постера NeurIPS/ICLR, с разумной идеей, но не оставившей большого следа. Но авторы решили сорвать хайп. Геростратова слава, тоже слава. По итоге имеем LK-99 из мира DL.
👍4



tgoop.com/quant_prune_distill/142
Create:
Last Update:

Эксперименты

UltraFastBert - бертоподобная модель с 12 блоками с деревьями глубины 11 (т.е 4095 = 2^12 - 1 нейронами в скрытой размерности ffn).

В качестве бейзлайна авторы берут crammedBERT из статьи, где обучили бертоподобную модель на MLM до качества, немного уступающему оригинальному BERT за день на одной GPU. Сравниваются со стандартной версией со скрытой размерностью 3072, и версией, в которой feedforward_dim=4095. Из этой же статьи берут гиперпараметры обучения.

Для валидации замеряют точность на бенчмарках из GLUE.

Авторы обучают вариации UltraFastBERT разной глубины, от 1 до максимально возможной, при примерно постоянной ширине.

По качеству все смотрится довольно неплохо: с ростом глубины среднее качество на GLUE просаживается, что ожидаемо, учитывая, что все меньше и меньше параметров используется на инференсе, но не драматически. Сильнее всего страдает качество на CoLA, оно и тянет усредненный результат вниз.

Гораздо веселее история с замерами. Свою реализацию FFF авторы сравнивают со своими же самописными реализациями операций для бейзлайновой архитектуры. Сетап сравнения тоже довольно экзотический - батч размера 128 последовательностей длины 128, и в качестве L1 бейзлайна они пробегают циклом по всем строкам матриц и вызывают скалярные произведения. В качестве L2 бейзлайна копируют матрицы весов batch_size раз и запускают batched matvec, что крайне неэффективно по памяти к тому же.

Отсюда и берутся невероятные цифры по ускорению.

Абсолютные цифры по времени инференса в статье тактично опущены.

Вывод

Идея статьи на самом деле не так уж безумна, и если бы существовало железо, способное претворить предложенную идею в жизнь эффективно, то она бы могла найти широкое применение на практике. Однако, у реальных ускорителей есть множество нюансов с доступами к памяти, аппаратной реализацией операций. Если бы авторы честно упомянули все limitations и провели честное сравнение с бейзлайнами, то была бы вполне неплохая статья уровня типичного постера NeurIPS/ICLR, с разумной идеей, но не оставившей большого следа. Но авторы решили сорвать хайп. Геростратова слава, тоже слава. По итоге имеем LK-99 из мира DL.

BY КПД


Share with your friend now:
tgoop.com/quant_prune_distill/142

View MORE
Open in Telegram


Telegram News

Date: |

Healing through screaming therapy Users are more open to new information on workdays rather than weekends. Those being doxxed include outgoing Chief Executive Carrie Lam Cheng Yuet-ngor, Chung and police assistant commissioner Joe Chan Tung, who heads police's cyber security and technology crime bureau. The initiatives announced by Perekopsky include monitoring the content in groups. According to the executive, posts identified as lacking context or as containing false information will be flagged as a potential source of disinformation. The content is then forwarded to Telegram's fact-checking channels for analysis and subsequent publication of verified information. Activate up to 20 bots
from us


Telegram КПД
FROM American