MAX_ABOUT_AI Telegram 22
Как запускать LLM локально

Три наиболее популярных способа запускать LLM локально:

- из Python с помощью библиотеки transformers от Hugging Face (отличный туториал)
- запустив самостоятельно модели при помощи llama.cpp
- используя уже готовые приложения: GPT4All, LM Studio, Ollama и другие

Требования к железу: минимум 16 Gb RAM и наличие GPU.

Из готовых приложений мне больше всего понравились Ollama и LM Studio. Помимо работы в режиме чата, они запускаются в режиме сервера с удобным API.

Ollama запускается из консоли. Набор команд очень простой и чем-то напоминает git. С её помощи мне удалось запустить более тяжеловесные модельки (70B) с 4-битной квантизацией, но на MacBook Ollama не задействовала GPU. Ollama распространяется с открытым исходным кодом (repo) и MIT License пригодной для коммерческого использования.

LM Studio позволяет настраивать запуск LLM более тонко, но при этом при попытке запустить 72B Qwen с 4 битной квантизацией, 32Гб MacBook намертво завис и пришлось его выключать чтобы он ожил. Еще у LM Studio есть довольно удобный интерфейс для чата с запущенной LLM, так что для бытовых целей возможно она немного удобнее. LM Studio имеет не прозрачную лицензию, которая не позволяет использовать LM Studio в коммерческих целях без одобрения авторов.

Чтобы выбрать наиболее подходящий вариант есть смысл попробовать оба тула и посмотреть как они будут работать на вашем железе и что больше подходит для конкретно ваших целей.
#llm



tgoop.com/max_about_ai/22
Create:
Last Update:

Как запускать LLM локально

Три наиболее популярных способа запускать LLM локально:

- из Python с помощью библиотеки transformers от Hugging Face (отличный туториал)
- запустив самостоятельно модели при помощи llama.cpp
- используя уже готовые приложения: GPT4All, LM Studio, Ollama и другие

Требования к железу: минимум 16 Gb RAM и наличие GPU.

Из готовых приложений мне больше всего понравились Ollama и LM Studio. Помимо работы в режиме чата, они запускаются в режиме сервера с удобным API.

Ollama запускается из консоли. Набор команд очень простой и чем-то напоминает git. С её помощи мне удалось запустить более тяжеловесные модельки (70B) с 4-битной квантизацией, но на MacBook Ollama не задействовала GPU. Ollama распространяется с открытым исходным кодом (repo) и MIT License пригодной для коммерческого использования.

LM Studio позволяет настраивать запуск LLM более тонко, но при этом при попытке запустить 72B Qwen с 4 битной квантизацией, 32Гб MacBook намертво завис и пришлось его выключать чтобы он ожил. Еще у LM Studio есть довольно удобный интерфейс для чата с запущенной LLM, так что для бытовых целей возможно она немного удобнее. LM Studio имеет не прозрачную лицензию, которая не позволяет использовать LM Studio в коммерческих целях без одобрения авторов.

Чтобы выбрать наиболее подходящий вариант есть смысл попробовать оба тула и посмотреть как они будут работать на вашем железе и что больше подходит для конкретно ваших целей.
#llm

BY Max: AI, Engineering and Startups


Share with your friend now:
tgoop.com/max_about_ai/22

View MORE
Open in Telegram


Telegram News

Date: |

How to create a business channel on Telegram? (Tutorial) Today, we will address Telegram channels and how to use them for maximum benefit. As of Thursday, the SUCK Channel had 34,146 subscribers, with only one message dated August 28, 2020. It was an announcement stating that police had removed all posts on the channel because its content “contravenes the laws of Hong Kong.” Choose quality over quantity. Remember that one high-quality post is better than five short publications of questionable value. Matt Hussey, editorial director of NEAR Protocol (and former editor-in-chief of Decrypt) responded to the news of the Telegram group with “#meIRL.”
from us


Telegram Max: AI, Engineering and Startups
FROM American