PROGLIB_ACADEMY Telegram 3237
This media is not supported in your browser
VIEW IN TELEGRAM
Это база: трансформеры вручную — как понять, что происходит за кулисами LLM

В этом посте разберем, как вручную пройти через процесс работы трансформера, от входных данных до финального слоя.

⬇️ Пошаговый процесс

1️⃣ Исходные данные:
Входные признаки из предыдущего блока (5 позиций).

2️⃣ Внимание:
Все 5 признаков передаются в модуль внимания запрос-ключ (QK) для получения матрицы весов внимания (A).

3️⃣ Взвешивание внимания:
Умножаем входные данные на матрицу весов внимания, чтобы получить взвешенные признаки (Z). Этим объединяем признаки по горизонтали, например, X1 := X1 + X2, X2 := X2 + X3 и так далее.

4️⃣ FFN — первый слой:
Процессинг всех 5 признаков через первый слой. Умножаем их на веса и смещения, увеличивая размерность с 3 до 4, комбинируя признаки по вертикали.

5️⃣ ReLU:
Отрицательные значения заменяются нулями.

6️⃣ FFN — второй слой:
Подаем данные во второй слой, уменьшаем размерность с 4 до 3 и отправляем результат в следующий блок для повторения процесса.

🏃‍♀️ Proglib Academy

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM



tgoop.com/proglib_academy/3237
Create:
Last Update:

Это база: трансформеры вручную — как понять, что происходит за кулисами LLM

В этом посте разберем, как вручную пройти через процесс работы трансформера, от входных данных до финального слоя.

⬇️ Пошаговый процесс

1️⃣ Исходные данные:
Входные признаки из предыдущего блока (5 позиций).

2️⃣ Внимание:
Все 5 признаков передаются в модуль внимания запрос-ключ (QK) для получения матрицы весов внимания (A).

3️⃣ Взвешивание внимания:
Умножаем входные данные на матрицу весов внимания, чтобы получить взвешенные признаки (Z). Этим объединяем признаки по горизонтали, например, X1 := X1 + X2, X2 := X2 + X3 и так далее.

4️⃣ FFN — первый слой:
Процессинг всех 5 признаков через первый слой. Умножаем их на веса и смещения, увеличивая размерность с 3 до 4, комбинируя признаки по вертикали.

5️⃣ ReLU:
Отрицательные значения заменяются нулями.

6️⃣ FFN — второй слой:
Подаем данные во второй слой, уменьшаем размерность с 4 до 3 и отправляем результат в следующий блок для повторения процесса.

🏃‍♀️ Proglib Academy

#буст

BY Proglib.academy | IT-курсы


Share with your friend now:
tgoop.com/proglib_academy/3237

View MORE
Open in Telegram


Telegram News

Date: |

More>> fire bomb molotov November 18 Dylan Hollingsworth yau ma tei The initiatives announced by Perekopsky include monitoring the content in groups. According to the executive, posts identified as lacking context or as containing false information will be flagged as a potential source of disinformation. The content is then forwarded to Telegram's fact-checking channels for analysis and subsequent publication of verified information. Telegram has announced a number of measures aiming to tackle the spread of disinformation through its platform in Brazil. These features are part of an agreement between the platform and the country's authorities ahead of the elections in October. Read now
from us


Telegram Proglib.academy | IT-курсы
FROM American