ML_MAXIM Telegram 84
Положить LLM в карман: стоит ли выносить языковую модель из облака?

В какой-то момент гонка за облачными мощностями начинает утомлять. Ты привыкаешь, что для любой серьезной задачи с LLM нужен API-ключ и хороший бюджет. Но в IT, как известно, все циклично, и вот снова набирает силу тренд на on-device AI - возвращение вычислений с небес на землю, прямо на наши устройства

Поработав с разными облачными провайдерами, начинаешь задумывался об альтернативе - запуске LLM на собственном железе.

Для меня последней каплей стал пост Иэна Баллантайна (Linkedin), где он заставил свежую Gemma 3 270M от Google летать на Raspberry Pi 5. Его цифры - около 30-32 токенов в секунду на голом CPU - звучали слишком хорошо, чтобы быть правдой (ниже будет видео от автора)

Цитата автора:

как быстро работает Gemma 3 270M "из коробки" на Raspberry Pi 5? Около 30 токенов/сек на CPU для квантизованной модели Q4_0 при использовании Ollama. Я также попробовал Llama.cpp и получил около 32 токенов/сек


Увидев такие цифры, я окончательно решился повторить его эксперимент

Мой тестовый стенд
Конечно, в мечтах - домашний мини-кластер на четырех GPU, но начнем с малого. Мой сетап для эксперимента:

Устройство: Orange Pi 5 Pro с 16 ГБ оперативной памяти (оно по некоторым параметрам даже превосходит то, что было у Иэна)

Кандидаты на запуск:
Frida - компактная русскоязычная модель от команды ai-forever, удобная для экспериментов за счёт небольшого размера (<300 M параметров) и открытых QAT-чекпоинтов
Gemma 3 270M - свежая модель от Google, оптимизированная для энергоэффективности и быстрой тонкой настройки

Главный вопрос: какая в этом мотивация?
Прежде чем погружаться в технические дебри, я решил посчитать, имеет ли эта затея экономический смысл

Окупаемость железа
- Аренда схожего по характеристикам облачного CPU-сервера – ≈ 5 300 ₽/мес
- Покупка Orange Pi 5 Pro – ≈ 12 000 ₽
- Разделив, получаем ≈ 2.3 месяца до полной окупаемости оборудования

Дополнительные затраты
Конечно, в расчёт не вошла стоимость моего времени на настройку. Но для энтузиаста это скорее удовольствие, а потребление энергии устройством (≈ 6–10 Вт под нагрузкой) сравнимо с ежемесячным счетом за лампочку, в то время как облачные серверы обходятся в сотни рублей за час работы.
📌 Вывод: локальный деплой выгоден при регулярных нагрузках; для редких задач облако остаётся привлекательным

Экономия на API-токенах
А вот здесь все не так однозначно. Если вам нужно лишь изредка обращаться к модели, использование API через облако может быть очень дешевым. Например, для редких задач вызовы самой доступной русскоязычной модели обошлись бы примерно в 0,02 ₽ за 1 000 000 токенов. Очевидно, что покупать отдельное устройство из-за такой низкой цены токена бессмысленно.
📌 Вывод: Локальный деплой выгоден, если вы заменяете им постоянно работающий облачный сервер, а не редкие API-вызовы

Зачем это нужно в глобальном смысле?
Экономия - это приятно, но потенциал локальных моделей гораздо шире. Вы думаете, успехи Китая в роботизации - это шутки? Локальные LLM играют в этом ключевую роль. Робот на производстве или дрон-курьер не могут зависеть от стабильности интернет-соединения с дата-центром. Им нужна автономия

Перенос AI на устройства дает:
🔵Приватность: Данные обрабатываются локально и не утекают на сторонние серверы
🔵Низкую задержку: Отклик модели происходит мгновенно, что критически важно для систем реального времени
🔵Надежность: Устройство работает даже без подключения к сети

Что дальше?
Я пока только приступил к тестам и в ближайших планах развернуть Frida и Gemma 3 270m на своем Orange Pi. Очень интересно, какие результаты удастся получить и насколько они будут близки к показателям на Raspberry Pi

#hardware
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9🔥42👀111



tgoop.com/ml_maxim/84
Create:
Last Update:

Положить LLM в карман: стоит ли выносить языковую модель из облака?

В какой-то момент гонка за облачными мощностями начинает утомлять. Ты привыкаешь, что для любой серьезной задачи с LLM нужен API-ключ и хороший бюджет. Но в IT, как известно, все циклично, и вот снова набирает силу тренд на on-device AI - возвращение вычислений с небес на землю, прямо на наши устройства

Поработав с разными облачными провайдерами, начинаешь задумывался об альтернативе - запуске LLM на собственном железе.

Для меня последней каплей стал пост Иэна Баллантайна (Linkedin), где он заставил свежую Gemma 3 270M от Google летать на Raspberry Pi 5. Его цифры - около 30-32 токенов в секунду на голом CPU - звучали слишком хорошо, чтобы быть правдой (ниже будет видео от автора)

Цитата автора:

как быстро работает Gemma 3 270M "из коробки" на Raspberry Pi 5? Около 30 токенов/сек на CPU для квантизованной модели Q4_0 при использовании Ollama. Я также попробовал Llama.cpp и получил около 32 токенов/сек


Увидев такие цифры, я окончательно решился повторить его эксперимент

Мой тестовый стенд
Конечно, в мечтах - домашний мини-кластер на четырех GPU, но начнем с малого. Мой сетап для эксперимента:

Устройство: Orange Pi 5 Pro с 16 ГБ оперативной памяти (оно по некоторым параметрам даже превосходит то, что было у Иэна)

Кандидаты на запуск:
Frida - компактная русскоязычная модель от команды ai-forever, удобная для экспериментов за счёт небольшого размера (<300 M параметров) и открытых QAT-чекпоинтов
Gemma 3 270M - свежая модель от Google, оптимизированная для энергоэффективности и быстрой тонкой настройки

Главный вопрос: какая в этом мотивация?
Прежде чем погружаться в технические дебри, я решил посчитать, имеет ли эта затея экономический смысл

Окупаемость железа
- Аренда схожего по характеристикам облачного CPU-сервера – ≈ 5 300 ₽/мес
- Покупка Orange Pi 5 Pro – ≈ 12 000 ₽
- Разделив, получаем ≈ 2.3 месяца до полной окупаемости оборудования

Дополнительные затраты
Конечно, в расчёт не вошла стоимость моего времени на настройку. Но для энтузиаста это скорее удовольствие, а потребление энергии устройством (≈ 6–10 Вт под нагрузкой) сравнимо с ежемесячным счетом за лампочку, в то время как облачные серверы обходятся в сотни рублей за час работы.
📌 Вывод: локальный деплой выгоден при регулярных нагрузках; для редких задач облако остаётся привлекательным

Экономия на API-токенах
А вот здесь все не так однозначно. Если вам нужно лишь изредка обращаться к модели, использование API через облако может быть очень дешевым. Например, для редких задач вызовы самой доступной русскоязычной модели обошлись бы примерно в 0,02 ₽ за 1 000 000 токенов. Очевидно, что покупать отдельное устройство из-за такой низкой цены токена бессмысленно.
📌 Вывод: Локальный деплой выгоден, если вы заменяете им постоянно работающий облачный сервер, а не редкие API-вызовы

Зачем это нужно в глобальном смысле?
Экономия - это приятно, но потенциал локальных моделей гораздо шире. Вы думаете, успехи Китая в роботизации - это шутки? Локальные LLM играют в этом ключевую роль. Робот на производстве или дрон-курьер не могут зависеть от стабильности интернет-соединения с дата-центром. Им нужна автономия

Перенос AI на устройства дает:
🔵Приватность: Данные обрабатываются локально и не утекают на сторонние серверы
🔵Низкую задержку: Отклик модели происходит мгновенно, что критически важно для систем реального времени
🔵Надежность: Устройство работает даже без подключения к сети

Что дальше?
Я пока только приступил к тестам и в ближайших планах развернуть Frida и Gemma 3 270m на своем Orange Pi. Очень интересно, какие результаты удастся получить и насколько они будут близки к показателям на Raspberry Pi

#hardware

BY Maxim.ML - канал




Share with your friend now:
tgoop.com/ml_maxim/84

View MORE
Open in Telegram


Telegram News

Date: |

As five out of seven counts were serious, Hui sentenced Ng to six years and six months in jail. ZDNET RECOMMENDS Some Telegram Channels content management tips It’s yet another bloodbath on Satoshi Street. As of press time, Bitcoin (BTC) and the broader cryptocurrency market have corrected another 10 percent amid a massive sell-off. Ethereum (EHT) is down a staggering 15 percent moving close to $1,000, down more than 42 percent on the weekly chart. The Channel name and bio must be no more than 255 characters long
from us


Telegram Maxim.ML - канал
FROM American