tgoop.com/machinelearning_ru/2876
Last Update:
🚀 Отличный релиз компактной модели VLM!
LiquidA представили LFM2-VL — vision-language модели, которпя эффективно работают на всём: от смартфонов и ноутбуков до носимых и встраиваемых устройств.
Что внутри:
- Расширение системы LFM2 в мультимодальность (текст + изображения)
- Поддержка нативного разрешения до 512×512
- Модульная архитектура: language-backbone + SigLIP2 NaFlex vision encoder + лёгкий мультимодальный проектор для сжатия image tokens
- Крупные изображения разбиваются на патчи + миниатюры для контекста, что сохраняет детали и общий вид сцены
Две версии под разные задачи:
- LFM2-VL-450M (<0.5B параметров) — для ограниченных устройств
- LFM2-VL-1.6B — больше возможностей, но всё ещё подходит для single-GPU и мобильных сценариев
Обе модели позволяют настраивать лимит image tokens и количество патчей для баланса скорости и качества без повторного обучения.
Тренировка:
- 100B мультимодальных токенов из открытых и синтетических датасетов
- Поэтапное смешение текстового и визуального обучения
- На бенчмарках RealWorldQA и OCRBench — конкурентные результаты
- На GPU — до 2× быстрее аналогов
📌 Доступны на huggingface под лицензией Apache 2.0
https://www.liquid.ai/blog/lfm2-vl-efficient-vision-language-models
BY Машинное обучение RU

Share with your friend now:
tgoop.com/machinelearning_ru/2876