tgoop.com/neuraldeep/1076
Create:
Last Update:
Last Update:
Мне тут в голову пришла странная мысль после постов о том как один парень запустил на 2 Mac Pro 405b int4 локально
Думаю а чем я хуже завтра перелет хочу потыкать LLM на ноуте
Но у меня ноут на M1 16GB
В общем cпека получились такая
1) ollama качем и ставим
Далее
2)
ollama run llama3.1
В любом терминале
Потом если у вас запущен сервер Ollama то можно запустить интерфейс с RAG там под капотом Chroma с простым чанкингом с перекрытием можно вектора через llama получить
Интерфейс у нас будет openweb я к нему привык
Значит можно запустить его через докер что бы не парится с зависимостями
docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main
Дальше проходим регистрацию и получаем локальную LLM для полетов или мест где нету интернета)))
Скорость работы на видосе
ollama user llama.cpp
Старые бенчи вот тут
https://github.com/ggerganov/llama.cpp/discussions/4167
Если у вас по больше памяти то дотступны модели для скачивания
8b
latest
4.7GB
70b
40GB
405b
229GB
8b-instruct-fp16
16GB
8b-instruct-q2_K
3.2GB
8b-instruct-q3_K_S
(список огромный)
BY Neural Deep
Share with your friend now:
tgoop.com/neuraldeep/1076