Warning: Undefined array key 0 in /var/www/tgoop/function.php on line 65

Warning: Trying to access array offset on value of type null in /var/www/tgoop/function.php on line 65
532 - Telegram Web
Telegram Web
话说之前一直都看到有人说MLX比llama.cpp快,但是实际测下来好像mlx 4bit vs ggml iq4_xs并没有快多少啊……
它又开始犯病了……
昨天还在群里夸Intel 13700H核显SR-IOV有用,今天就被一小时崩溃一次的moonlight以及疑似每次连接都漏200MB显存的RDP server打脸了🙃🙃
不知道Intel在倒闭的那一天之前能不能把各种场景漏显存的bug全都修完,从当年刚毕业入职开始这种核显漏内存的场景就没有停过,我怀疑等到我退休它还是这个鬼样。
我还以为知乎上看不到这个问题呢。。这年头的上海生活真的越来越刺激了😆
看很多讨论Framework STXH的顶配,但实际反而低配更好玩

799刀门槛低,在北美买套7700板u内存+4060都不止这个价格,这方面STXH居然有性价比。再一个之前讨论过这些设备运行LLM的尴尬,256b位宽适合32B q4模型,就算追求LLM用途也没必要上更大的内存

当然价格方面的结论仅限北美,国内还得深圳系努力
b站上面那一堆fsd翻车视频其实是不是都在免费帮马老板完善edge case训练集。。。
试了下由于rocWMMA是个C++模板库,所以尽管它并不官方支持Windows,想在Windows上用它还是非常简单。

简单的patch就可以加速Windows上llama.cpp在ROCm/HIP下的flash attention推理性能(尤其是prefill和高batch size),需要的可以自行取用。

https://github.com/hjc4869/llama.cpp/releases/tag/b4786
https://github.com/hjc4869/llama.cpp/commit/1e0d34ec232b30913225a4f37cd4bdd173777d3d
现在搞本地部署主要目标群体是企业而不是个人,个人因为门槛高+利用率上不去会血亏。理论上几个熟人凑一块搭一套出来用也可以搞。

性能方面,本地Windows/Mac部署流行的基于llama.cpp的方案确实是并发差了点。vLLM/SGLang虽然并发性能好很多,但是环境和硬件上的门槛又要更进一步,所以也就这样了吧。

https://x.com/wwwyesterday/status/1895820270901887358
去年一直觉得Exynos 2400在上海用4G网络经常断流是Exynos的modem有问题,直到最近我把高通8 gen 2机器切换到4G模式用了一段时间,得到了几乎一样的体验……
你乎现在是真的一点正经内容都找不到了。这么多回答居然高赞没一个正经讲讲什么是商业定价合同,甚至连项目本身只花了一个亿$都没怎么讲。

b站虽然也粉红泛滥,但是好歹找找还是能找到认真做科普的,不至于像现在的知乎这样一点都没有啊。

https://www.zhihu.com/question/13843765292
llama.cpp的rocWMMA flash attention进入主线了,现在可以用RDNA3/3.5/CDNA1+的tensor core加速flash attention实现更好性能的prefill和batch decode。较小模型的单用户吐字速度也有些许提升,应该不会再落后于Vulkan。不过目前主线版本暂时还需要手动打开编译选项。

https://github.com/ggml-org/llama.cpp/commit/becade5de77674696539163dfbaf5c041a1a8e97
Qwen QwQ实际用起来效果比几个DS蒸馏模型要强得多,试了之前几个经典问题都比DS用更少的token做出来。

可惜因为vocab有一些细微差异导致没法用qwen 2.5小模型来做draft model,以及因为众所周知的原因大概率热度远不如DS😆
试着往Open WebUI里扔50k token的内容,结果Chrome毫无压力,Firefox死了……🙃
厉害了他的国!
看起来前阵子进pytorch main branch的RDNA4支持现在已经有nightly build出来可以用了。。。。。然而我首发没抢到原价卡🙃
2025/06/26 17:59:12
Back to Top
HTML Embed Code: