QUANT_PRUNE_DISTILL Telegram 141
Теперь про сам метод.

FastFeedForward network, которая предлагается в качестве альтернатива обычной FFN, представляет собой следующее: две матрицы размера 2^D - 1 x H, где D глубина дерева, а H - embedding dim, соответствующие входной и выходной проекции, и функция активации. Вернее даже правильнее будет сказать, что это последовательности матриц размеров 1, 2, … 2^{D-1}, отвечающие разным уровням дерева.

Прямой проход выглядит следующим образом:

Для входной последовательности на каждом уровне
l
дерева считается скалярное произведение со столбцом соответствующим узлу, в который мы попали по результатам предыдущего шага, матрицы весов для данного уровня, и если полученное скалярное произведение положительно, то переходим в правый узел, и в левый узел в противном случае. Проходясь от корня к листьям, записываем индексы узлов на всех уровнях и результат произведения. Итого имеем после первой проекции матрицу индексов
N
вершина размера длина последовательности на глубину дерева, и матрицу логитов
L
- промежуточных активаций. К матрице логитов применяем функцию активации и считаем произведение с матрицей выходной проекции, откуда мы берем столбцы из матрицы индексов
N
.


Асимптотическая сложность алгоритма - O(log N) по промежуточной размерности против O(N) у обычный FFN из двух линейных слоев и активации.

Красиво? Красиво.

Несколько таких деревьев можно прогонять параллельно. Вариации описанной выше архитектуры называют UltraFastBERT-KxD, где K - количество деревьев, а D - глубина дерева. Внутренняя размерность, таким образом, равна K x (2^D - 1). В частном случае K - деревьев глубины 1 имеем привычную архитектуру трансформера.
👍3



tgoop.com/quant_prune_distill/141
Create:
Last Update:

Теперь про сам метод.

FastFeedForward network, которая предлагается в качестве альтернатива обычной FFN, представляет собой следующее: две матрицы размера 2^D - 1 x H, где D глубина дерева, а H - embedding dim, соответствующие входной и выходной проекции, и функция активации. Вернее даже правильнее будет сказать, что это последовательности матриц размеров 1, 2, … 2^{D-1}, отвечающие разным уровням дерева.

Прямой проход выглядит следующим образом:

Для входной последовательности на каждом уровне
l
дерева считается скалярное произведение со столбцом соответствующим узлу, в который мы попали по результатам предыдущего шага, матрицы весов для данного уровня, и если полученное скалярное произведение положительно, то переходим в правый узел, и в левый узел в противном случае. Проходясь от корня к листьям, записываем индексы узлов на всех уровнях и результат произведения. Итого имеем после первой проекции матрицу индексов
N
вершина размера длина последовательности на глубину дерева, и матрицу логитов
L
- промежуточных активаций. К матрице логитов применяем функцию активации и считаем произведение с матрицей выходной проекции, откуда мы берем столбцы из матрицы индексов
N
.


Асимптотическая сложность алгоритма - O(log N) по промежуточной размерности против O(N) у обычный FFN из двух линейных слоев и активации.

Красиво? Красиво.

Несколько таких деревьев можно прогонять параллельно. Вариации описанной выше архитектуры называют UltraFastBERT-KxD, где K - количество деревьев, а D - глубина дерева. Внутренняя размерность, таким образом, равна K x (2^D - 1). В частном случае K - деревьев глубины 1 имеем привычную архитектуру трансформера.

BY КПД


Share with your friend now:
tgoop.com/quant_prune_distill/141

View MORE
Open in Telegram


Telegram News

Date: |

Add the logo from your device. Adjust the visible area of your image. Congratulations! Now your Telegram channel has a face Click “Save”.! On June 7, Perekopsky met with Brazilian President Jair Bolsonaro, an avid user of the platform. According to the firm's VP, the main subject of the meeting was "freedom of expression." “Hey degen, are you stressed? Just let it all out,” he wrote, along with a link to join the group. So far, more than a dozen different members have contributed to the group, posting voice notes of themselves screaming, yelling, groaning, and wailing in various pitches and rhythms. The public channel had more than 109,000 subscribers, Judge Hui said. Ng had the power to remove or amend the messages in the channel, but he “allowed them to exist.”
from us


Telegram КПД
FROM American