tgoop.com/nlpwanderer/129
Last Update:
2) Perceiver IO (Google DeepMind, 2021) - у персивера есть проблема, хоть он и скейлится на разные входы, его выходы являются простыми — годится для классификации по заданному числу классов, но не подходит для генерации сложных выходов произвольного размера. Основное улучшение сделано в процедуре декодирования, через специально задизайненные query к латентным переменным можно получить выходы нужной структуры (заданной этими query).
3) Flamingo (NeurIPS 2022) - VLM на 80B параметров от DeepMind. Где для visual взята модель а-ля CLIP с Normalizer-Free ResNet картиночным энкодером. А языковая модель это Chinchilla 70B. Использует Perceiver Resampler (про который написано выше) для генерации фиксированного набора визуальных токенов и слои кросс-аттеншена, куда в качестве K и V приходят визуальные токены из Resampler, а в качестве Q приходят токены языка. Используют tanh-гейтинг: выходы новых слоёв умножаются на tanh(α), где α — обучаемый параметр, инициализированный нулём, чтобы модель плавно переходила в VLM. Для лучшего понимания рекомендую почитать из блога.
4) BLIP-2 (CVPR 2023) - использует замороженные visual и text энкодеры, а основной частью является Q-former, который служит связующим звеном между визуальной и текстовой модальностями. И делают это за счет обучаемых query-эмбеддингов, взаимодействующих с визуальными признаками через cross-attention.
5) LLAVA (NeurIPS 2023 Oral) - в качестве LLM для генерации текста используют LLAMA, картинки энкодят через ViT. Вводят дополнительное преобразование векторов ViT (Z) в новые векторы (H) с помощью обучаемой проекционной матрицы, которые понятны трансформеру LLAMA.
6) FROMAGE (2023, Carnegie Mellon) - вместо отдельных энкодеров-декодеров она объединяет визуальные токены (закодированные через CLIP и линейный слой) и текст в единую последовательность в interleaved стиле, понятную llm'ке OPT. Также добавляют специальный токен [RET], сигнализирующий модели о завершении текстового ввода и переключении на вывод или сравнение изображений. FROMAGe обучается сразу на две задачки: captioning изображений (NTP task, cross-entropy loss) и retrieval текст-картинка (InfoNCE loss), что позволяет эффективно решать сложные задачи, сочетающие текст и визуальную информацию.
7) GILL (NeurIPS 2023) - для меня выглядит как развитие работы FROMAGE, где модель, помимо задач генерации текста и ретривала, может еще генерировать изображения. GILL использует замороженные OPT-6.7B и CLIP-ViT-L/14 и обучает специальный проектор GILLMapper, который отображает выходы LLM в эмбеддинг-пространство SD. Добавляют токены [IMG1]...[IMG{r}] которые в выходной последовательности задают, латентные представления для картинок, которые мы пропускаем через GILLMapper и подаем на вход в SD. Обучаются также как в FROMAGE, только для генераций картинок еще MSE loss.
8) PaliGemma (2024, Google DeepMind) - VLM на основе двух моделей - PaLI и Gemma. На вход - картинки или видео (seq кадров). Учат модель в 4 этапа: (1) Unimodal pretraining — отдельное обучение PaLI и Gemma. (2) Multimodal pretraining — совместное дообучение всего (без заморозки!) на миллиард мультимодальных пар. (3) Resolution tuning - адаптация к высоким разрешениям (до 896 пикселей). (4) Transfer learning — дообучение под задачи VQA, captioning и др. Добавляют prefix-LM: изображения и текст-префиксы обрабатываются с полным bidirectional вниманием, а текст-суффиксы — с автогрессивным casual, что повышает эффективность reasoning и генерации. Уже вышла PaliGemma 2.
9) Qwen2.5-VL (2025, Alibaba) - около SOTA VLM, ориентированная на точную локализацию объектов, анализ документов и длинных видео (до 1 часа). Внутри использует: (1) ViT энкодер, обученный с нуля, с window attention (Swin?), 2D-RoPE и патчами 14×14. (2) Адаптер, агрегирующий патчи в группы по 4 с помощью MLP, что уменьшает вычисления. (3) LLM Qwen2.5 с улучшенным MRoPE (Multimodal Rotary Position Embedding Aligned to Absolute Time). (4) Динамический сэмплинг кадров для видео и interleaved обучение на текст+изображение.
BY NLP Wanderer
Share with your friend now:
tgoop.com/nlpwanderer/129
