MACHINELEARNING_RU Telegram 2876
🚀 Отличный релиз компактной модели VLM!

LiquidA представили LFM2-VL — vision-language модели, которпя эффективно работают на всём: от смартфонов и ноутбуков до носимых и встраиваемых устройств.

Что внутри:
- Расширение системы LFM2 в мультимодальность (текст + изображения)
- Поддержка нативного разрешения до 512×512
- Модульная архитектура: language-backbone + SigLIP2 NaFlex vision encoder + лёгкий мультимодальный проектор для сжатия image tokens
- Крупные изображения разбиваются на патчи + миниатюры для контекста, что сохраняет детали и общий вид сцены

Две версии под разные задачи:
- LFM2-VL-450M (<0.5B параметров) — для ограниченных устройств
- LFM2-VL-1.6B — больше возможностей, но всё ещё подходит для single-GPU и мобильных сценариев

Обе модели позволяют настраивать лимит image tokens и количество патчей для баланса скорости и качества без повторного обучения.

Тренировка:
- 100B мультимодальных токенов из открытых и синтетических датасетов
- Поэтапное смешение текстового и визуального обучения
- На бенчмарках RealWorldQA и OCRBench — конкурентные результаты
- На GPU — до 2× быстрее аналогов

📌 Доступны на huggingface под лицензией Apache 2.0

https://www.liquid.ai/blog/lfm2-vl-efficient-vision-language-models
👍42



tgoop.com/machinelearning_ru/2876
Create:
Last Update:

🚀 Отличный релиз компактной модели VLM!

LiquidA представили LFM2-VL — vision-language модели, которпя эффективно работают на всём: от смартфонов и ноутбуков до носимых и встраиваемых устройств.

Что внутри:
- Расширение системы LFM2 в мультимодальность (текст + изображения)
- Поддержка нативного разрешения до 512×512
- Модульная архитектура: language-backbone + SigLIP2 NaFlex vision encoder + лёгкий мультимодальный проектор для сжатия image tokens
- Крупные изображения разбиваются на патчи + миниатюры для контекста, что сохраняет детали и общий вид сцены

Две версии под разные задачи:
- LFM2-VL-450M (<0.5B параметров) — для ограниченных устройств
- LFM2-VL-1.6B — больше возможностей, но всё ещё подходит для single-GPU и мобильных сценариев

Обе модели позволяют настраивать лимит image tokens и количество патчей для баланса скорости и качества без повторного обучения.

Тренировка:
- 100B мультимодальных токенов из открытых и синтетических датасетов
- Поэтапное смешение текстового и визуального обучения
- На бенчмарках RealWorldQA и OCRBench — конкурентные результаты
- На GPU — до 2× быстрее аналогов

📌 Доступны на huggingface под лицензией Apache 2.0

https://www.liquid.ai/blog/lfm2-vl-efficient-vision-language-models

BY Машинное обучение RU




Share with your friend now:
tgoop.com/machinelearning_ru/2876

View MORE
Open in Telegram


Telegram News

Date: |

With the sharp downturn in the crypto market, yelling has become a coping mechanism for many crypto traders. This screaming therapy became popular after the surge of Goblintown Ethereum NFTs at the end of May or early June. Here, holders made incoherent groaning sounds in late-night Twitter spaces. They also role-played as urine-loving Goblin creatures. Telegram iOS app: In the “Chats” tab, click the new message icon in the right upper corner. Select “New Channel.” Earlier, crypto enthusiasts had created a self-described “meme app” dubbed “gm” app wherein users would greet each other with “gm” or “good morning” messages. However, in September 2021, the gm app was down after a hacker reportedly gained access to the user data. How to build a private or public channel on Telegram? Among the requests, the Brazilian electoral Court wanted to know if they could obtain data on the origins of malicious content posted on the platform. According to the TSE, this would enable the authorities to track false content and identify the user responsible for publishing it in the first place.
from us


Telegram Машинное обучение RU
FROM American