David's random thoughts

9070XT当前运行llama.cpp的性能/效率如图（开启FA并且使用q8_0的kvcache量化）

ROCm尚未正式支持RDNA4，需要dev分支rocWMMA/hipBLASLt并对llama.cpp进行修改

可以看到虽然整体效率比起RDNA3已经有明显改进，但依然有进步空间。考虑到目前单独测试hipBLASLt性能也不太理想，此处需要高情商：未来可期

1.8K views06:12

Llama 4这个17B active weight的架构是大容量DDR/LPDDR设备的福音，不过M4 Pro的64G内存刚好用不了……😅

1.7K views07:36

David's random thoughts

Llama 4这个17B active weight的架构是大容量DDR/LPDDR设备的福音，不过M4 Pro的64G内存刚好用不了……😅

好吧，看了一圈llama4的风评，我已经开始心疼月初就用了将近1TB的流量下载这货把整个月的vps流量都快用完了……

1.6K views15:52

David's random thoughts

HP这台是我多年来买过的首发笔记本新平台机器里对Linux支持最好的，没有之一。不过都已经拿去做Ubuntu认证了也不意外。。

LLM暂时简单测了一个Linux ROCm UMA的llama.cpp运行70B投机解码，理想情况下可以做到大约8.7 t/s左右。后面有空再做详细测试。

2.1K views02:32

David's random thoughts

Strix Halo的SMU地址跟Strix Point一模一样，pm table因为供电多了一个rail所以看起来有一点小变化。感觉是送分题（

1.5K views14:57

David's random thoughts

简单测试Strix Halo (395)单线程SPECint2017的CPU核心与Package能效。

核心方面395比HX370强不少。同样5.1GHz频率下，370峰值电压高达1.45V，而395只有大约1.13V。

Package则没那么乐观，两倍位宽也带来了两倍低频功耗。当然这是插电测试，拔电单线程负载uncore会降频所以实际续航没有减半这么极端。

1.6K views05:07

David's random thoughts

一个标榜隐私为卖点的产品内置LLM功能时居然不提供自定义API endpoint选项，不知道pm脑子里在想什么。连被自由软件界一部分人骂的狗血淋头的MS vscode现在都支持本地ollama了。

还是说，这些产品出现在列表里，也像默认搜索引擎一样是个交易？在我看来不管是哪种情况他们都已经彻底背离了初衷。

1.8K views17:16

David's random thoughts

之前尝试拿B580在linux下亮机和玩一些小游戏，遭遇了无数次显卡从总线上直接消失以及proton游戏渲染错误，最后不得不又把卡换回去……这都发售小半年了还在调查

https://www.phoronix.com/news/Intel-Xe-Linux-6.16-Fan-Speeds

Phoronix

Intel Xe Driver Adds Fan Speed Reporting For Linux 6.16, BMG Instability Being Debugged

Back in the Linux 6.12 kernel cycle the Intel i915 kernel graphics driver added fan speed reporting support

1.8K views06:00

David's random thoughts

HP这台是我多年来买过的首发笔记本新平台机器里对Linux支持最好的，没有之一。不过都已经拿去做Ubuntu认证了也不意外。。 LLM暂时简单测了一个Linux ROCm UMA的llama.cpp运行70B投机解码，理想情况下可以做到大约8.7 t/s左右。后面有空再做详细测试。

8-9 t/s并没有完全发挥8060S的潜力，llama.cpp的llama-server有一个小问题导致server配speculative decoding时性能欠佳（与具体硬件无关）：https://github.com/ggml-org/llama.cpp/issues/12968

动手简单修一下这个问题之后Qwen 2.5 72B iq4_xs + 1.5B draft在acceptance rate理想时可达到10-12 t/s左右
https://github.com/hjc4869/llama.cpp/commit/0b32f64ffbe973e99e0dc7097be31d4d966d476e

1.6K views11:57

David's random thoughts

难得见识一次现代Xeon的缓存/内存延迟数据（Xeon 6960P @ 3.8 GHz）

这60ns+的L3缓存延迟大概比很多PC DIY用户超频后的内存延迟都高了

1.5K views11:23

David's random thoughts

随手摸下B200 (148SM)。Vector性能相比H100的提升比较常规(+25%)。全局原子CAS延迟是H100的2x，达到200ns，这大概就是MCM的代价。

有意思的点在于wmma发生明显倒退，每SM性能回到了图形卡水平。本代大概只有tcgen05.mma可以跑出纸面tensor吞吐，这标志着计算卡重心逐渐转向类似NPU的TMEM？

2.4K views10:42

David's random thoughts

想了一下还是决定把知乎账号给注销了，去年开始走RSS关注发现好像也不是不能用😅

2.0K views11:32

David's random thoughts

Strix Halo (395)本地运行LLM测试 https://blog.hjc.im/strix-halo-local-llm.html

1.9K views17:54

David's random thoughts

三星OneUI 7把我最讨厌的iOS UX交互一字不漏原封不动的全抄过来了。。🙃

1.6K views01:06

2025/06/26 01:24:39
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.tgoop.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>