Warning: mkdir(): No space left on device in /var/www/tgoop/post.php on line 37

Warning: file_put_contents(aCache/aDaily/post/nlpwanderer/--): Failed to open stream: No such file or directory in /var/www/tgoop/post.php on line 50
NLP Wanderer@nlpwanderer P.129
NLPWANDERER Telegram 129
Forwarded from AI - Arseny Ivanov
2) Perceiver IO (Google DeepMind, 2021) - у персивера есть проблема, хоть он и скейлится на разные входы, его выходы являются простыми — годится для классификации по заданному числу классов, но не подходит для генерации сложных выходов произвольного размера. Основное улучшение сделано в процедуре декодирования, через специально задизайненные query к латентным переменным можно получить выходы нужной структуры (заданной этими query).

3) Flamingo (NeurIPS 2022) - VLM на 80B параметров от DeepMind. Где для visual взята модель а-ля CLIP с Normalizer-Free ResNet картиночным энкодером. А языковая модель это Chinchilla 70B. Использует Perceiver Resampler (про который написано выше) для генерации фиксированного набора визуальных токенов и слои кросс-аттеншена, куда в качестве K и V приходят визуальные токены из Resampler, а в качестве Q приходят токены языка. Используют tanh-гейтинг: выходы новых слоёв умножаются на tanh(α), где α — обучаемый параметр, инициализированный нулём, чтобы модель плавно переходила в VLM. Для лучшего понимания рекомендую почитать из блога.

4) BLIP-2 (CVPR 2023) - использует замороженные visual и text энкодеры, а основной частью является Q-former, который служит связующим звеном между визуальной и текстовой модальностями. И делают это за счет обучаемых query-эмбеддингов, взаимодействующих с визуальными признаками через cross-attention.

5) LLAVA (NeurIPS 2023 Oral) - в качестве LLM для генерации текста используют LLAMA, картинки энкодят через ViT. Вводят дополнительное преобразование векторов ViT (Z) в новые векторы (H) с помощью обучаемой проекционной матрицы, которые понятны трансформеру LLAMA.

6) FROMAGE (2023, Carnegie Mellon) - вместо отдельных энкодеров-декодеров она объединяет визуальные токены (закодированные через CLIP и линейный слой) и текст в единую последовательность в interleaved стиле, понятную llm'ке OPT. Также добавляют специальный токен [RET], сигнализирующий модели о завершении текстового ввода и переключении на вывод или сравнение изображений. FROMAGe обучается сразу на две задачки: captioning изображений (NTP task, cross-entropy loss) и retrieval текст-картинка (InfoNCE loss), что позволяет эффективно решать сложные задачи, сочетающие текст и визуальную информацию.

7) GILL (NeurIPS 2023) - для меня выглядит как развитие работы FROMAGE, где модель, помимо задач генерации текста и ретривала, может еще генерировать изображения. GILL использует замороженные OPT-6.7B и CLIP-ViT-L/14 и обучает специальный проектор GILLMapper, который отображает выходы LLM в эмбеддинг-пространство SD. Добавляют токены [IMG1]...[IMG{r}] которые в выходной последовательности задают, латентные представления для картинок, которые мы пропускаем через GILLMapper и подаем на вход в SD. Обучаются также как в FROMAGE, только для генераций картинок еще MSE loss.

8) PaliGemma (2024, Google DeepMind) - VLM на основе двух моделей - PaLI и Gemma. На вход - картинки или видео (seq кадров). Учат модель в 4 этапа: (1) Unimodal pretraining — отдельное обучение PaLI и Gemma. (2) Multimodal pretraining — совместное дообучение всего (без заморозки!) на миллиард мультимодальных пар. (3) Resolution tuning - адаптация к высоким разрешениям (до 896 пикселей). (4) Transfer learning — дообучение под задачи VQA, captioning и др. Добавляют prefix-LM: изображения и текст-префиксы обрабатываются с полным bidirectional вниманием, а текст-суффиксы — с автогрессивным casual, что повышает эффективность reasoning и генерации. Уже вышла PaliGemma 2.

9) Qwen2.5-VL (2025, Alibaba) - около SOTA VLM, ориентированная на точную локализацию объектов, анализ документов и длинных видео (до 1 часа). Внутри использует: (1) ViT энкодер, обученный с нуля, с window attention (Swin?), 2D-RoPE и патчами 14×14. (2) Адаптер, агрегирующий патчи в группы по 4 с помощью MLP, что уменьшает вычисления. (3) LLM Qwen2.5 с улучшенным MRoPE (Multimodal Rotary Position Embedding Aligned to Absolute Time). (4) Динамический сэмплинг кадров для видео и interleaved обучение на текст+изображение.
🔥4



tgoop.com/nlpwanderer/129
Create:
Last Update:

2) Perceiver IO (Google DeepMind, 2021) - у персивера есть проблема, хоть он и скейлится на разные входы, его выходы являются простыми — годится для классификации по заданному числу классов, но не подходит для генерации сложных выходов произвольного размера. Основное улучшение сделано в процедуре декодирования, через специально задизайненные query к латентным переменным можно получить выходы нужной структуры (заданной этими query).

3) Flamingo (NeurIPS 2022) - VLM на 80B параметров от DeepMind. Где для visual взята модель а-ля CLIP с Normalizer-Free ResNet картиночным энкодером. А языковая модель это Chinchilla 70B. Использует Perceiver Resampler (про который написано выше) для генерации фиксированного набора визуальных токенов и слои кросс-аттеншена, куда в качестве K и V приходят визуальные токены из Resampler, а в качестве Q приходят токены языка. Используют tanh-гейтинг: выходы новых слоёв умножаются на tanh(α), где α — обучаемый параметр, инициализированный нулём, чтобы модель плавно переходила в VLM. Для лучшего понимания рекомендую почитать из блога.

4) BLIP-2 (CVPR 2023) - использует замороженные visual и text энкодеры, а основной частью является Q-former, который служит связующим звеном между визуальной и текстовой модальностями. И делают это за счет обучаемых query-эмбеддингов, взаимодействующих с визуальными признаками через cross-attention.

5) LLAVA (NeurIPS 2023 Oral) - в качестве LLM для генерации текста используют LLAMA, картинки энкодят через ViT. Вводят дополнительное преобразование векторов ViT (Z) в новые векторы (H) с помощью обучаемой проекционной матрицы, которые понятны трансформеру LLAMA.

6) FROMAGE (2023, Carnegie Mellon) - вместо отдельных энкодеров-декодеров она объединяет визуальные токены (закодированные через CLIP и линейный слой) и текст в единую последовательность в interleaved стиле, понятную llm'ке OPT. Также добавляют специальный токен [RET], сигнализирующий модели о завершении текстового ввода и переключении на вывод или сравнение изображений. FROMAGe обучается сразу на две задачки: captioning изображений (NTP task, cross-entropy loss) и retrieval текст-картинка (InfoNCE loss), что позволяет эффективно решать сложные задачи, сочетающие текст и визуальную информацию.

7) GILL (NeurIPS 2023) - для меня выглядит как развитие работы FROMAGE, где модель, помимо задач генерации текста и ретривала, может еще генерировать изображения. GILL использует замороженные OPT-6.7B и CLIP-ViT-L/14 и обучает специальный проектор GILLMapper, который отображает выходы LLM в эмбеддинг-пространство SD. Добавляют токены [IMG1]...[IMG{r}] которые в выходной последовательности задают, латентные представления для картинок, которые мы пропускаем через GILLMapper и подаем на вход в SD. Обучаются также как в FROMAGE, только для генераций картинок еще MSE loss.

8) PaliGemma (2024, Google DeepMind) - VLM на основе двух моделей - PaLI и Gemma. На вход - картинки или видео (seq кадров). Учат модель в 4 этапа: (1) Unimodal pretraining — отдельное обучение PaLI и Gemma. (2) Multimodal pretraining — совместное дообучение всего (без заморозки!) на миллиард мультимодальных пар. (3) Resolution tuning - адаптация к высоким разрешениям (до 896 пикселей). (4) Transfer learning — дообучение под задачи VQA, captioning и др. Добавляют prefix-LM: изображения и текст-префиксы обрабатываются с полным bidirectional вниманием, а текст-суффиксы — с автогрессивным casual, что повышает эффективность reasoning и генерации. Уже вышла PaliGemma 2.

9) Qwen2.5-VL (2025, Alibaba) - около SOTA VLM, ориентированная на точную локализацию объектов, анализ документов и длинных видео (до 1 часа). Внутри использует: (1) ViT энкодер, обученный с нуля, с window attention (Swin?), 2D-RoPE и патчами 14×14. (2) Адаптер, агрегирующий патчи в группы по 4 с помощью MLP, что уменьшает вычисления. (3) LLM Qwen2.5 с улучшенным MRoPE (Multimodal Rotary Position Embedding Aligned to Absolute Time). (4) Динамический сэмплинг кадров для видео и interleaved обучение на текст+изображение.

BY NLP Wanderer


Share with your friend now:
tgoop.com/nlpwanderer/129

View MORE
Open in Telegram


Telegram News

Date: |

Other crimes that the SUCK Channel incited under Ng’s watch included using corrosive chemicals to make explosives and causing grievous bodily harm with intent. The court also found Ng responsible for calling on people to assist protesters who clashed violently with police at several universities in November 2019. As the broader market downturn continues, yelling online has become the crypto trader’s latest coping mechanism after the rise of Goblintown Ethereum NFTs at the end of May and beginning of June, where holders made incoherent groaning sounds and role-played as urine-loving goblin creatures in late-night Twitter Spaces. Hui said the messages, which included urging the disruption of airport operations, were attempts to incite followers to make use of poisonous, corrosive or flammable substances to vandalize police vehicles, and also called on others to make weapons to harm police. With the administration mulling over limiting access to doxxing groups, a prominent Telegram doxxing group apparently went on a "revenge spree." Select: Settings – Manage Channel – Administrators – Add administrator. From your list of subscribers, select the correct user. A new window will appear on the screen. Check the rights you’re willing to give to your administrator.
from us


Telegram NLP Wanderer
FROM American