QUANT_PRUNE_DISTILL Telegram 129
Эксперименты

Предложенную архитектуру валидируют на ряде задач и архитектур:
1️⃣️️️️️ Masked Language Modeling на BERT
2️⃣️️️️️ классификации изображений с ViT
3️⃣️️️️️ Causal Language Modeling по типу GPT.

При тех же скрытых размерностях M2-BERT, M2-ViT имеет на 25-27% меньше параметров, чем базовая Transformer модель, при этом не уступая в качестве. А если увеличить ширину модели, чтобы сравняться по числу параметров, то имеет место даже некоторый прирост.
На Causal-Language Modeling предложенная модель тоже показывает себя немного лучше GPT-2.

Monarch Mixer заметно лучше масштабируется с длиной последовательности в соотвествии с теоретическими выкладками. На больших длинах последовательностей прирост порядка 9x против BERT-base с vanilla attention и 2x против Flash Attention. Ускорение наблюдается как на GPU, так и на CPU.

Вывод

Использование структурных матриц вместо матриц общего вида - интересное направление в разработке нейросетевых архитектур. При том же количестве вычислений возможно работать с картами признаков большей размерности. Однако, без крупномасштабных экспериментов на современных больших языковых моделях нельзя доподлинно оценить, обладают ли Монархи и иные представители бабочек лучшей масштабируемостью по сравнению с первозданным трансформером. Кроме того в сравнениях по throughput везде фигурирует Flash-Attention-1, а есть Flash-Attention-2 с еще лушчей утилизацией железа.
🔥4



tgoop.com/quant_prune_distill/129
Create:
Last Update:

Эксперименты

Предложенную архитектуру валидируют на ряде задач и архитектур:
1️⃣️️️️️ Masked Language Modeling на BERT
2️⃣️️️️️ классификации изображений с ViT
3️⃣️️️️️ Causal Language Modeling по типу GPT.

При тех же скрытых размерностях M2-BERT, M2-ViT имеет на 25-27% меньше параметров, чем базовая Transformer модель, при этом не уступая в качестве. А если увеличить ширину модели, чтобы сравняться по числу параметров, то имеет место даже некоторый прирост.
На Causal-Language Modeling предложенная модель тоже показывает себя немного лучше GPT-2.

Monarch Mixer заметно лучше масштабируется с длиной последовательности в соотвествии с теоретическими выкладками. На больших длинах последовательностей прирост порядка 9x против BERT-base с vanilla attention и 2x против Flash Attention. Ускорение наблюдается как на GPU, так и на CPU.

Вывод

Использование структурных матриц вместо матриц общего вида - интересное направление в разработке нейросетевых архитектур. При том же количестве вычислений возможно работать с картами признаков большей размерности. Однако, без крупномасштабных экспериментов на современных больших языковых моделях нельзя доподлинно оценить, обладают ли Монархи и иные представители бабочек лучшей масштабируемостью по сравнению с первозданным трансформером. Кроме того в сравнениях по throughput везде фигурирует Flash-Attention-1, а есть Flash-Attention-2 с еще лушчей утилизацией железа.

BY КПД


Share with your friend now:
tgoop.com/quant_prune_distill/129

View MORE
Open in Telegram


Telegram News

Date: |

With the “Bear Market Screaming Therapy Group,” we’ve now transcended language. best-secure-messaging-apps-shutterstock-1892950018.jpg Channel login must contain 5-32 characters Find your optimal posting schedule and stick to it. The peak posting times include 8 am, 6 pm, and 8 pm on social media. Try to publish serious stuff in the morning and leave less demanding content later in the day. In 2018, Telegram’s audience reached 200 million people, with 500,000 new users joining the messenger every day. It was launched for iOS on 14 August 2013 and Android on 20 October 2013.
from us


Telegram КПД
FROM American