КПД@quant_prune_distill P.517

QUANT_PRUNE_DISTILL Telegram 517

Прилетает, значится, письмецо на почту, что, мол, появился новый движок для инференса LLMов на яблочном силиконе, написанный на ржавчине (почему-то не назвали просто llama.rs). Движок этот называется uzu (что по 🇯🇵-ски называется вихрь). С названием явно не оригинальничали и беспринципно слизали. В письмеце утверждается, что якобы движок на 30-40% процентов быстрее, чем знаменитая llama.cpp.

В целом из README и документации не многое понятно. На Apple M2 для некоторых моделей (Qwen2.5-1.5B-Instruct, Gemma-3-1B-Instruct) tokens/s быстрее на 10% (непонятно с каким батчом, и на каких длинах последовательности). На квенах 3 ускорение якобы в 10 раз, но очень уж странный безлайн у llama.cpp (Qwen3-0.6B в 5 раз медленее Qwen2.5-1.5B-Instruct).

И самое забавное из всего - ишшуя, в которой народ жалуется, что авторы соскрапили аккаунты с гитхаба (поставившими звездочку над llama.cpp и подобными проектами) и отравили всем письмецо.

Дерзкий и беспринципный заход на рыночек, ничего не скажешь) В будущем обещают добавить инференс на Андроидных устройствах, VLM, TTS. Правда, с такими фортелями скорее получат бан от модераторов гитхаба.

😁15🤨2❤1👍1

www.tgoop.com/quant_prune_distill/517

1.84K viewsedited Jul 31 at 20:25

tgoop.com/quant_prune_distill/517

Create: 2025-07-31
Last Update: 2025-08-25 14:36:28

Прилетает, значится, письмецо на почту, что, мол, появился новый движок для инференса LLMов на яблочном силиконе, написанный на ржавчине (почему-то не назвали просто llama.rs). Движок этот называется uzu (что по 🇯🇵-ски называется вихрь). С названием явно не оригинальничали и беспринципно слизали. В письмеце утверждается, что якобы движок на 30-40% процентов быстрее, чем знаменитая llama.cpp.

В целом из README и документации не многое понятно. На Apple M2 для некоторых моделей (Qwen2.5-1.5B-Instruct, Gemma-3-1B-Instruct) tokens/s быстрее на 10% (непонятно с каким батчом, и на каких длинах последовательности). На квенах 3 ускорение якобы в 10 раз, но очень уж странный безлайн у llama.cpp (Qwen3-0.6B в 5 раз медленее Qwen2.5-1.5B-Instruct).

И самое забавное из всего - ишшуя, в которой народ жалуется, что авторы соскрапили аккаунты с гитхаба (поставившими звездочку над llama.cpp и подобными проектами) и отравили всем письмецо.

Дерзкий и беспринципный заход на рыночек, ничего не скажешь) В будущем обещают добавить инференс на Андроидных устройствах, VLM, TTS. Правда, с такими фортелями скорее получат бан от модераторов гитхаба.

BY КПД

Share with your friend now:
tgoop.com/quant_prune_distill/517

Open in Telegram

Telegram News

Date: 2025-08-25|

Read now Telegram is a leading cloud-based instant messages platform. It became popular in recent years for its privacy, speed, voice and video quality, and other unmatched features over its main competitor Whatsapp. How to create a business channel on Telegram? (Tutorial) During the meeting with TSE Minister Edson Fachin, Perekopsky also mentioned the TSE channel on the platform as one of the firm's key success stories. Launched as part of the company's commitments to tackle the spread of fake news in Brazil, the verified channel has attracted more than 184,000 members in less than a month. Co-founder of NFT renting protocol Rentable World emiliano.eth shared the group Tuesday morning on Twitter, calling out the "degenerate" community, or crypto obsessives that engage in high-risk trading.
from us

Telegram КПД
FROM American