📱 MobileLLM-Pro - языковая модель (~1B параметров) , оптимизированная для эффективной работы *на устройстве* (on-device).
Модель превосходит Gemma 3 1B и Llama 3.2 1B по задачам рассуждения, знаний и длинного контекста, поддерживая до 128 000 токенов.
Благодаря гибридному вниманию (локальное + глобальное в соотношении 3:1, окно 512) достигается низкая задержка и экономия памяти KV-кэша.
Квантование в 4-бит (int4) почти не снижает качество:
• CPU - групповое квантование весов и динамическая активация
• GPU - поканальное квантование
Модель дополнительно прошла instruction fine-tuning, что делает её подходящей для задач общения, генерации и обработки текста.
https://huggingface.co/facebook/MobileLLM-Pro
Модель превосходит Gemma 3 1B и Llama 3.2 1B по задачам рассуждения, знаний и длинного контекста, поддерживая до 128 000 токенов.
Благодаря гибридному вниманию (локальное + глобальное в соотношении 3:1, окно 512) достигается низкая задержка и экономия памяти KV-кэша.
Квантование в 4-бит (int4) почти не снижает качество:
• CPU - групповое квантование весов и динамическая активация
• GPU - поканальное квантование
Модель дополнительно прошла instruction fine-tuning, что делает её подходящей для задач общения, генерации и обработки текста.
https://huggingface.co/facebook/MobileLLM-Pro
❤10👍4🔥3
tgoop.com/data_analysis_ml/4265
Create:
Last Update:
Last Update:
📱 MobileLLM-Pro - языковая модель (~1B параметров) , оптимизированная для эффективной работы *на устройстве* (on-device).
Модель превосходит Gemma 3 1B и Llama 3.2 1B по задачам рассуждения, знаний и длинного контекста, поддерживая до 128 000 токенов.
Благодаря гибридному вниманию (локальное + глобальное в соотношении 3:1, окно 512) достигается низкая задержка и экономия памяти KV-кэша.
Квантование в 4-бит (int4) почти не снижает качество:
• CPU - групповое квантование весов и динамическая активация
• GPU - поканальное квантование
Модель дополнительно прошла instruction fine-tuning, что делает её подходящей для задач общения, генерации и обработки текста.
https://huggingface.co/facebook/MobileLLM-Pro
Модель превосходит Gemma 3 1B и Llama 3.2 1B по задачам рассуждения, знаний и длинного контекста, поддерживая до 128 000 токенов.
Благодаря гибридному вниманию (локальное + глобальное в соотношении 3:1, окно 512) достигается низкая задержка и экономия памяти KV-кэша.
Квантование в 4-бит (int4) почти не снижает качество:
• CPU - групповое квантование весов и динамическая активация
• GPU - поканальное квантование
Модель дополнительно прошла instruction fine-tuning, что делает её подходящей для задач общения, генерации и обработки текста.
https://huggingface.co/facebook/MobileLLM-Pro
BY Анализ данных (Data analysis)



Share with your friend now:
tgoop.com/data_analysis_ml/4265