Машинное обучение RU@machinelearning_ru P.2876

MACHINELEARNING_RU Telegram 2876

Машинное обучение RU

🚀 Отличный релиз компактной модели VLM!

LiquidA представили LFM2-VL — vision-language модели, которпя эффективно работают на всём: от смартфонов и ноутбуков до носимых и встраиваемых устройств.

Что внутри:
- Расширение системы LFM2 в мультимодальность (текст + изображения)
- Поддержка нативного разрешения до 512×512
- Модульная архитектура: language-backbone + SigLIP2 NaFlex vision encoder + лёгкий мультимодальный проектор для сжатия image tokens
- Крупные изображения разбиваются на патчи + миниатюры для контекста, что сохраняет детали и общий вид сцены

Две версии под разные задачи:
- LFM2-VL-450M (<0.5B параметров) — для ограниченных устройств
- LFM2-VL-1.6B — больше возможностей, но всё ещё подходит для single-GPU и мобильных сценариев

Обе модели позволяют настраивать лимит image tokens и количество патчей для баланса скорости и качества без повторного обучения.

Тренировка:
- 100B мультимодальных токенов из открытых и синтетических датасетов
- Поэтапное смешение текстового и визуального обучения
- На бенчмарках RealWorldQA и OCRBench — конкурентные результаты
- На GPU — до 2× быстрее аналогов

📌 Доступны на huggingface под лицензией Apache 2.0

https://www.liquid.ai/blog/lfm2-vl-efficient-vision-language-models

👍4❤2

www.tgoop.com/machinelearning_ru/2876

1.67K viewsAug 13 at 11:21

tgoop.com/machinelearning_ru/2876

Create: 2025-08-13
Last Update: 2025-10-03 03:06:35

🚀 Отличный релиз компактной модели VLM!

LiquidA представили LFM2-VL — vision-language модели, которпя эффективно работают на всём: от смартфонов и ноутбуков до носимых и встраиваемых устройств.

Что внутри:
- Расширение системы LFM2 в мультимодальность (текст + изображения)
- Поддержка нативного разрешения до 512×512
- Модульная архитектура: language-backbone + SigLIP2 NaFlex vision encoder + лёгкий мультимодальный проектор для сжатия image tokens
- Крупные изображения разбиваются на патчи + миниатюры для контекста, что сохраняет детали и общий вид сцены

Две версии под разные задачи:
- LFM2-VL-450M (<0.5B параметров) — для ограниченных устройств
- LFM2-VL-1.6B — больше возможностей, но всё ещё подходит для single-GPU и мобильных сценариев

Обе модели позволяют настраивать лимит image tokens и количество патчей для баланса скорости и качества без повторного обучения.

Тренировка:
- 100B мультимодальных токенов из открытых и синтетических датасетов
- Поэтапное смешение текстового и визуального обучения
- На бенчмарках RealWorldQA и OCRBench — конкурентные результаты
- На GPU — до 2× быстрее аналогов

📌 Доступны на huggingface под лицензией Apache 2.0

https://www.liquid.ai/blog/lfm2-vl-efficient-vision-language-models

BY Машинное обучение RU

Share with your friend now:
tgoop.com/machinelearning_ru/2876

Open in Telegram

Telegram News

Date: 2025-10-03|

Telegram users themselves will be able to flag and report potentially false content. With Bitcoin down 30% in the past week, some crypto traders have taken to Telegram to “voice” their feelings. As the broader market downturn continues, yelling online has become the crypto trader’s latest coping mechanism after the rise of Goblintown Ethereum NFTs at the end of May and beginning of June, where holders made incoherent groaning sounds and role-played as urine-loving goblin creatures in late-night Twitter Spaces. In handing down the sentence yesterday, deputy judge Peter Hui Shiu-keung of the district court said that even if Ng did not post the messages, he cannot shirk responsibility as the owner and administrator of such a big group for allowing these messages that incite illegal behaviors to exist. The public channel had more than 109,000 subscribers, Judge Hui said. Ng had the power to remove or amend the messages in the channel, but he “allowed them to exist.”
from us

Telegram Машинное обучение RU
FROM American