КПД@quant_prune_distill P.92

КПД

Эксперименты

Предложенную архитектуру RetNet обучают на задаче CausalLM на смеси из The Pile, C4, The Stack. В качестве бейзлайна берут стандартный трансформер.

Для оценки качества модели используют 0-shot и few-shot бенчмарки из LM Evaluation Harness.

Retention Network достигает меньшей перплексии на валидации по сравнению с Transformer на размерах 2.7B, 6.7B, и по форме кривой авторы утверждают, что Retention Network масштабируется лучше трансформера (сильноватое заявление на основе графика из 3-х точек). Аналогично, Retention Network превосходит Transformer на 0-shot и few-shot.

Далее следуют замеры расхода памяти и скорости инференса, и RetNet оказывается быстрее и экономичнее по расходу GPU RAM даже оптимизированной версии Flash Attention на тритоне.

Расход памяти, при работе в рекуррентном режиме не растет с размером последовательности, как и скорость генерации одного токена не зависит от длины последовательности.

При сравнении на ряде бенчмарков по Language modelling RetNet превосходит другие альтернативы трансформера - State-Space модели, RWKV, линейный трансформер.

Удивительно, что нет сравнения на Long Range Arena, которое является признанным мерилом способности сети работать с длинным контекстом, каким бы данный бенчмарк ограниченным не несовершенным ни был.

Авторы проводят ablation компонент архитектуры и все компоненты - GroupNorm, multi-head, экспоненциальный спад γ с разным коэффициентом в разных головах оказывается важен. Хоть разница, не сказать, чтобы кардинальная для каждой из компонент.

www.tgoop.com/quant_prune_distill/92

227 viewsAug 1, 2023 at 12:34

tgoop.com/quant_prune_distill/92

Create: 2023-08-01
Last Update: 2025-08-28 08:37:37

BY КПД

Share with your friend now:
tgoop.com/quant_prune_distill/92

Telegram News

Эксперименты