Борис опять@boris

Борис опять

В общем, коротко: SigLIP 2 это лучший на текущий момент CLIP.

К нему приделали все идеи из разных self-supervised методов современного CV и получилось хорошо:
1. Self-distillation при обучении как в DINO/DINOv2. Модель-ученик видит только локальный кроп изображения, модель-учитель (ema от обучаемой модели) глобальный кроп. Так что модель учится по деталям получать те же репрезентации, что и по всей картинке. Это, например, заставляет модель видя нос собаки мысленно "достраивать" всю собаку.
2. Маскировка патчей, что ставит некоторую задачу реконструкции, как в MAE (который Masked Autoencoders от FAIR).
3. Декодер. Прямо при обучении заставляют модель генерировать подписи, ббоксы и подписи к ббоксам. Это, по идее, самое важное: напрямую учат модель связывать детали изображений и текст.

Все это должно полечить вечную проблему клипов, что они хорошо понимают на уровне изображения и плохо понимают детали. Таким образом прошло долгожданное объединение contrastive learning и self supervised подходов.

Ещё подвезли версию устойчивую к разным разрешениям и размерам изображений, а так же мультиязычность.

Это конечно Франкенштейн с несколькими лоссами и стадиями тренировки, так что bitter lesson еще придет, но все равно круто.

Короче если нужны какие-то эмбеддинги изображений и текстов берем с полки SigLIP2.

Так же ждем прокачанные энкодеры изображений во всех VLM.

12👍43❤13🔥9

www.tgoop.com/boris_again/3050

8.67K viewsedited Feb 23 at 13:38

tgoop.com/boris_again/3050

Create: 2025-02-23
Last Update: 2025-08-09 20:04:21

BY Борис опять

Share with your friend now:
tgoop.com/boris_again/3050

Telegram News

В общем