DATA_ANALYSIS_ML Telegram 3433
🔥 SmolVLM — маленький, но мощный мультимодальный прорыв.

Сегодня вышел технический отчёт о SmolVLM — ультра-компактной VLM-модели (всего 256M параметров), которая работает в менее чем 1 ГБ ОЗУ и обходит старые модели 80B, выпущенные полтора года назад!

📏 Контекст — это наше всё: Увеличение длины контекста с 2K до 16K дало +60% к качеству. Даже маленькие модели выигрывают от увелечения памяти.

🔬 SigLIP: меньше — лучше: Вместо классического 400M SigLIP авторы использовали базовую 80M версию — и получили тот же результат при 20% размера.

🧩 Pixel shuffling : Аggressive pixel shuffling помог сократить длину последовательностей в 16 раз без потери качества.

📍 Learnable positional tokens > raw tokens: В маленьких моделях обучаемые позиционные токены дали значительный прирост точности.

🎬 Спец-токены: Специальные "intro/outro" токены и системные промпты дали буст особенно для задач работы видео.

🧠 CoT — с умом: Слишком много Chain-of-Thought данных ухудшает результаты маленьких моделей. Меньше = умнее.

📽 Длиннее видео = лучше: Увеличение длины видео во время обучения улучшило понимание и изображений, и видео.

🚀 SmolVLM — это:
Три версии: 256M, 500M, 2.2B — каждая задаёт новую планку для low-resource inference.

Real-time inference на iPhone 15 — прямо с камеры, без серверов.

В браузере? Да! 40–80 токенов/сек — напрямую в вебе, без ухищрений.

📄 Подробности в репорте

#SmolVLM #EfficientAI #Multimodal #VLM #EdgeAI #SigLIP #AIonMobile
🔥14👍75



tgoop.com/data_analysis_ml/3433
Create:
Last Update:

🔥 SmolVLM — маленький, но мощный мультимодальный прорыв.

Сегодня вышел технический отчёт о SmolVLM — ультра-компактной VLM-модели (всего 256M параметров), которая работает в менее чем 1 ГБ ОЗУ и обходит старые модели 80B, выпущенные полтора года назад!

📏 Контекст — это наше всё: Увеличение длины контекста с 2K до 16K дало +60% к качеству. Даже маленькие модели выигрывают от увелечения памяти.

🔬 SigLIP: меньше — лучше: Вместо классического 400M SigLIP авторы использовали базовую 80M версию — и получили тот же результат при 20% размера.

🧩 Pixel shuffling : Аggressive pixel shuffling помог сократить длину последовательностей в 16 раз без потери качества.

📍 Learnable positional tokens > raw tokens: В маленьких моделях обучаемые позиционные токены дали значительный прирост точности.

🎬 Спец-токены: Специальные "intro/outro" токены и системные промпты дали буст особенно для задач работы видео.

🧠 CoT — с умом: Слишком много Chain-of-Thought данных ухудшает результаты маленьких моделей. Меньше = умнее.

📽 Длиннее видео = лучше: Увеличение длины видео во время обучения улучшило понимание и изображений, и видео.

🚀 SmolVLM — это:
Три версии: 256M, 500M, 2.2B — каждая задаёт новую планку для low-resource inference.

Real-time inference на iPhone 15 — прямо с камеры, без серверов.

В браузере? Да! 40–80 токенов/сек — напрямую в вебе, без ухищрений.

📄 Подробности в репорте

#SmolVLM #EfficientAI #Multimodal #VLM #EdgeAI #SigLIP #AIonMobile

BY Анализ данных (Data analysis)




Share with your friend now:
tgoop.com/data_analysis_ml/3433

View MORE
Open in Telegram


Telegram News

Date: |

It’s yet another bloodbath on Satoshi Street. As of press time, Bitcoin (BTC) and the broader cryptocurrency market have corrected another 10 percent amid a massive sell-off. Ethereum (EHT) is down a staggering 15 percent moving close to $1,000, down more than 42 percent on the weekly chart. Ng was convicted in April for conspiracy to incite a riot, public nuisance, arson, criminal damage, manufacturing of explosives, administering poison and wounding with intent to do grievous bodily harm between October 2019 and June 2020. Read now 2How to set up a Telegram channel? (A step-by-step tutorial) fire bomb molotov November 18 Dylan Hollingsworth yau ma tei
from us


Telegram Анализ данных (Data analysis)
FROM American