tgoop.com/quant_prune_distill/517
Last Update:
Прилетает, значится, письмецо на почту, что, мол, появился новый движок для инференса LLMов на яблочном силиконе, написанный на ржавчине (почему-то не назвали просто llama.rs
). Движок этот называется uzu (что по 🇯🇵-ски называется вихрь). С названием явно не оригинальничали и беспринципно слизали. В письмеце утверждается, что якобы движок на 30-40% процентов быстрее, чем знаменитая llama.cpp.
В целом из README и документации не многое понятно. На Apple M2 для некоторых моделей (Qwen2.5-1.5B-Instruct, Gemma-3-1B-Instruct) tokens/s быстрее на 10% (непонятно с каким батчом, и на каких длинах последовательности). На квенах 3 ускорение якобы в 10 раз, но очень уж странный безлайн у llama.cpp (Qwen3-0.6B
в 5 раз медленее Qwen2.5-1.5B-Instruct
).
И самое забавное из всего - ишшуя, в которой народ жалуется, что авторы соскрапили аккаунты с гитхаба (поставившими звездочку над llama.cpp и подобными проектами) и отравили всем письмецо.
Дерзкий и беспринципный заход на рыночек, ничего не скажешь) В будущем обещают добавить инференс на Андроидных устройствах, VLM, TTS. Правда, с такими фортелями скорее получат бан от модераторов гитхаба.
BY КПД
Share with your friend now:
tgoop.com/quant_prune_distill/517