MACHINELEARNING_RU Telegram 2876
🚀 Отличный релиз компактной модели VLM!

LiquidA представили LFM2-VL — vision-language модели, которпя эффективно работают на всём: от смартфонов и ноутбуков до носимых и встраиваемых устройств.

Что внутри:
- Расширение системы LFM2 в мультимодальность (текст + изображения)
- Поддержка нативного разрешения до 512×512
- Модульная архитектура: language-backbone + SigLIP2 NaFlex vision encoder + лёгкий мультимодальный проектор для сжатия image tokens
- Крупные изображения разбиваются на патчи + миниатюры для контекста, что сохраняет детали и общий вид сцены

Две версии под разные задачи:
- LFM2-VL-450M (<0.5B параметров) — для ограниченных устройств
- LFM2-VL-1.6B — больше возможностей, но всё ещё подходит для single-GPU и мобильных сценариев

Обе модели позволяют настраивать лимит image tokens и количество патчей для баланса скорости и качества без повторного обучения.

Тренировка:
- 100B мультимодальных токенов из открытых и синтетических датасетов
- Поэтапное смешение текстового и визуального обучения
- На бенчмарках RealWorldQA и OCRBench — конкурентные результаты
- На GPU — до 2× быстрее аналогов

📌 Доступны на huggingface под лицензией Apache 2.0

https://www.liquid.ai/blog/lfm2-vl-efficient-vision-language-models
👍42



tgoop.com/machinelearning_ru/2876
Create:
Last Update:

🚀 Отличный релиз компактной модели VLM!

LiquidA представили LFM2-VL — vision-language модели, которпя эффективно работают на всём: от смартфонов и ноутбуков до носимых и встраиваемых устройств.

Что внутри:
- Расширение системы LFM2 в мультимодальность (текст + изображения)
- Поддержка нативного разрешения до 512×512
- Модульная архитектура: language-backbone + SigLIP2 NaFlex vision encoder + лёгкий мультимодальный проектор для сжатия image tokens
- Крупные изображения разбиваются на патчи + миниатюры для контекста, что сохраняет детали и общий вид сцены

Две версии под разные задачи:
- LFM2-VL-450M (<0.5B параметров) — для ограниченных устройств
- LFM2-VL-1.6B — больше возможностей, но всё ещё подходит для single-GPU и мобильных сценариев

Обе модели позволяют настраивать лимит image tokens и количество патчей для баланса скорости и качества без повторного обучения.

Тренировка:
- 100B мультимодальных токенов из открытых и синтетических датасетов
- Поэтапное смешение текстового и визуального обучения
- На бенчмарках RealWorldQA и OCRBench — конкурентные результаты
- На GPU — до 2× быстрее аналогов

📌 Доступны на huggingface под лицензией Apache 2.0

https://www.liquid.ai/blog/lfm2-vl-efficient-vision-language-models

BY Машинное обучение RU




Share with your friend now:
tgoop.com/machinelearning_ru/2876

View MORE
Open in Telegram


Telegram News

Date: |

Telegram users themselves will be able to flag and report potentially false content. With Bitcoin down 30% in the past week, some crypto traders have taken to Telegram to “voice” their feelings. As the broader market downturn continues, yelling online has become the crypto trader’s latest coping mechanism after the rise of Goblintown Ethereum NFTs at the end of May and beginning of June, where holders made incoherent groaning sounds and role-played as urine-loving goblin creatures in late-night Twitter Spaces. In handing down the sentence yesterday, deputy judge Peter Hui Shiu-keung of the district court said that even if Ng did not post the messages, he cannot shirk responsibility as the owner and administrator of such a big group for allowing these messages that incite illegal behaviors to exist. The public channel had more than 109,000 subscribers, Judge Hui said. Ng had the power to remove or amend the messages in the channel, but he “allowed them to exist.”
from us


Telegram Машинное обучение RU
FROM American