JDATA_BLOG Telegram 149
И про Patch Embedding.

Patch Embedding — преобразование картинки в матрицу признаков размерностью (n+1, d).

Simple описание преобразования (все цифры 1-7 на картинке 1:

1. Берем картинку (H, W, C) – высота, ширина, число каналов (1)
2. Режем её на N патчей (патч — квадрат меньшего размера), с размерностями (p, p, c), где p — сторона квадрата (2)
3. Эти патчи разглаживаем в вектор, выходит N векторов размерностью p*2xC (3)
4. Массив патчей, размерностью (N, p*2xC) умножается на обучаемый тензор
с размерностями (p*2xC, d) (4)
5. В результате получаем N патчей с размерностями (1, d) (5)
6. Добавляем [cls] токен, аналогичный BERT (картинка и интуитивный ответ тут, храни боже stack overflow) с размерностью (1, d), итого у нас вход – (N+1, d) (6)
6. К каждому патчу добавляем позиционный эмбеддинг с такой-же размерностью (1, d) (7)

Получаем z0 (картинка 2, 1) , вход, который далее проходит в слои энкодера (изучаем более абстрактные признаки в патчах) следующего вида (картинка 2, 2, 3):

MSA здесь multiheaded self-attention, слой же MLP — Multilayer perceptron c двумя слоями. Процесс совсем подробнее можно изучить в оригинале - статье, подробнее также про MSA в ViT описано здесь.
🔥3



tgoop.com/jdata_blog/149
Create:
Last Update:

И про Patch Embedding.

Patch Embedding — преобразование картинки в матрицу признаков размерностью (n+1, d).

Simple описание преобразования (все цифры 1-7 на картинке 1:

1. Берем картинку (H, W, C) – высота, ширина, число каналов (1)
2. Режем её на N патчей (патч — квадрат меньшего размера), с размерностями (p, p, c), где p — сторона квадрата (2)
3. Эти патчи разглаживаем в вектор, выходит N векторов размерностью p*2xC (3)
4. Массив патчей, размерностью (N, p*2xC) умножается на обучаемый тензор
с размерностями (p*2xC, d) (4)
5. В результате получаем N патчей с размерностями (1, d) (5)
6. Добавляем [cls] токен, аналогичный BERT (картинка и интуитивный ответ тут, храни боже stack overflow) с размерностью (1, d), итого у нас вход – (N+1, d) (6)
6. К каждому патчу добавляем позиционный эмбеддинг с такой-же размерностью (1, d) (7)

Получаем z0 (картинка 2, 1) , вход, который далее проходит в слои энкодера (изучаем более абстрактные признаки в патчах) следующего вида (картинка 2, 2, 3):

MSA здесь multiheaded self-attention, слой же MLP — Multilayer perceptron c двумя слоями. Процесс совсем подробнее можно изучить в оригинале - статье, подробнее также про MSA в ViT описано здесь.

BY Data Blog




Share with your friend now:
tgoop.com/jdata_blog/149

View MORE
Open in Telegram


Telegram News

Date: |

To upload a logo, click the Menu icon and select “Manage Channel.” In a new window, hit the Camera icon. How to Create a Private or Public Channel on Telegram? Channel login must contain 5-32 characters Some Telegram Channels content management tips Deputy District Judge Peter Hui sentenced computer technician Ng Man-ho on Thursday, a month after the 27-year-old, who ran a Telegram group called SUCK Channel, was found guilty of seven charges of conspiring to incite others to commit illegal acts during the 2019 extradition bill protests and subsequent months.
from us


Telegram Data Blog
FROM American