DSPROGLIB Telegram 6337
This media is not supported in your browser
VIEW IN TELEGRAM
Это база: трансформеры вручную — как понять, что происходит за кулисами LLM

В этом посте разберем, как вручную пройти через процесс работы трансформера, от входных данных до финального слоя.

⬇️ Пошаговый процесс

1️⃣ Исходные данные:
Входные признаки из предыдущего блока (5 позиций).

2️⃣ Внимание:
Все 5 признаков передаются в модуль внимания запрос-ключ (QK) для получения матрицы весов внимания (A).

3️⃣ Взвешивание внимания:
Умножаем входные данные на матрицу весов внимания, чтобы получить взвешенные признаки (Z). Этим объединяем признаки по горизонтали, например, X1 := X1 + X2, X2 := X2 + X3 и так далее.

4️⃣ FFN — первый слой:
Процессинг всех 5 признаков через первый слой. Умножаем их на веса и смещения, увеличивая размерность с 3 до 4, комбинируя признаки по вертикали.

5️⃣ ReLU:
Отрицательные значения заменяются нулями.

6️⃣ FFN — второй слой:
Подаем данные во второй слой, уменьшаем размерность с 4 до 3 и отправляем результат в следующий блок для повторения процесса.

Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
9👍2❤‍🔥1



tgoop.com/dsproglib/6337
Create:
Last Update:

Это база: трансформеры вручную — как понять, что происходит за кулисами LLM

В этом посте разберем, как вручную пройти через процесс работы трансформера, от входных данных до финального слоя.

⬇️ Пошаговый процесс

1️⃣ Исходные данные:
Входные признаки из предыдущего блока (5 позиций).

2️⃣ Внимание:
Все 5 признаков передаются в модуль внимания запрос-ключ (QK) для получения матрицы весов внимания (A).

3️⃣ Взвешивание внимания:
Умножаем входные данные на матрицу весов внимания, чтобы получить взвешенные признаки (Z). Этим объединяем признаки по горизонтали, например, X1 := X1 + X2, X2 := X2 + X3 и так далее.

4️⃣ FFN — первый слой:
Процессинг всех 5 признаков через первый слой. Умножаем их на веса и смещения, увеличивая размерность с 3 до 4, комбинируя признаки по вертикали.

5️⃣ ReLU:
Отрицательные значения заменяются нулями.

6️⃣ FFN — второй слой:
Подаем данные во второй слой, уменьшаем размерность с 4 до 3 и отправляем результат в следующий блок для повторения процесса.

Библиотека дата-сайентиста #буст

BY Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение


Share with your friend now:
tgoop.com/dsproglib/6337

View MORE
Open in Telegram


Telegram News

Date: |

To delete a channel with over 1,000 subscribers, you need to contact user support Telegram Android app: Open the chats list, click the menu icon and select “New Channel.” Telegram is a leading cloud-based instant messages platform. It became popular in recent years for its privacy, speed, voice and video quality, and other unmatched features over its main competitor Whatsapp. The optimal dimension of the avatar on Telegram is 512px by 512px, and it’s recommended to use PNG format to deliver an unpixelated avatar. Select: Settings – Manage Channel – Administrators – Add administrator. From your list of subscribers, select the correct user. A new window will appear on the screen. Check the rights you’re willing to give to your administrator.
from us


Telegram Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
FROM American