tgoop.com/proglib_academy/3237
Last Update:
В этом посте разберем, как вручную пройти через процесс работы трансформера, от входных данных до финального слоя.
Входные признаки из предыдущего блока (5 позиций).
Все 5 признаков передаются в модуль внимания запрос-ключ (QK) для получения матрицы весов внимания (A).
Умножаем входные данные на матрицу весов внимания, чтобы получить взвешенные признаки (Z). Этим объединяем признаки по горизонтали, например, X1 := X1 + X2, X2 := X2 + X3 и так далее.
Процессинг всех 5 признаков через первый слой. Умножаем их на веса и смещения, увеличивая размерность с 3 до 4, комбинируя признаки по вертикали.
Отрицательные значения заменяются нулями.
Подаем данные во второй слой, уменьшаем размерность с 4 до 3 и отправляем результат в следующий блок для повторения процесса.
#буст