DSPROGLIB Telegram 6800
👉 В чём разница между self-attention и cross-attention

Self-attention:
➡️ Queries, keys и values берутся из одной последовательности.
➡️ Каждый токен «смотрит» на остальные, включая себя, чтобы учесть контекст.
➡️ Пример: слово bank может учитывать соседние слова river или money, чтобы выбрать правильное значение.
➡️ Используется для поиска зависимостей внутри последовательности (текста, документа и т.д.).

🔹 Cross-attention:
➡️ Queries берутся из одной последовательности, а keys и values — из другой.
➡️ Позволяет одной последовательности «фокусироваться» на информации из другой.
➡️ Примеры:
• В машинном переводе декодер через cross-attention обращается к репрезентациям энкодера.
• В мультимодальных моделях текст может «смотреть» на признаки изображения, чтобы сгенерировать описание.

📌 Легко запомнить:
• Self-attention → внутри одного источника (понимание контекста).
• Cross-attention → связывание двух источников (перевод, мультимодальные задачи, RAG).

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍73😍1



tgoop.com/dsproglib/6800
Create:
Last Update:

👉 В чём разница между self-attention и cross-attention

Self-attention:
➡️ Queries, keys и values берутся из одной последовательности.
➡️ Каждый токен «смотрит» на остальные, включая себя, чтобы учесть контекст.
➡️ Пример: слово bank может учитывать соседние слова river или money, чтобы выбрать правильное значение.
➡️ Используется для поиска зависимостей внутри последовательности (текста, документа и т.д.).

🔹 Cross-attention:
➡️ Queries берутся из одной последовательности, а keys и values — из другой.
➡️ Позволяет одной последовательности «фокусироваться» на информации из другой.
➡️ Примеры:
• В машинном переводе декодер через cross-attention обращается к репрезентациям энкодера.
• В мультимодальных моделях текст может «смотреть» на признаки изображения, чтобы сгенерировать описание.

📌 Легко запомнить:
• Self-attention → внутри одного источника (понимание контекста).
• Cross-attention → связывание двух источников (перевод, мультимодальные задачи, RAG).

🐸 Библиотека дата-сайентиста

#буст

BY Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение




Share with your friend now:
tgoop.com/dsproglib/6800

View MORE
Open in Telegram


Telegram News

Date: |

Step-by-step tutorial on desktop: Healing through screaming therapy End-to-end encryption is an important feature in messaging, as it's the first step in protecting users from surveillance. Developing social channels based on exchanging a single message isn’t exactly new, of course. Back in 2014, the “Yo” app was launched with the sole purpose of enabling users to send each other the greeting “Yo.” Invite up to 200 users from your contacts to join your channel
from us


Telegram Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
FROM American