Warning: Undefined array key 0 in /var/www/tgoop/function.php on line 65

Warning: Trying to access array offset on value of type null in /var/www/tgoop/function.php on line 65
572 - Telegram Web
Telegram Web
9070XT当前运行llama.cpp的性能/效率如图(开启FA并且使用q8_0的kvcache量化)

ROCm尚未正式支持RDNA4,需要dev分支rocWMMA/hipBLASLt并对llama.cpp进行修改

可以看到虽然整体效率比起RDNA3已经有明显改进,但依然有进步空间。考虑到目前单独测试hipBLASLt性能也不太理想,此处需要高情商:未来可期
Llama 4这个17B active weight的架构是大容量DDR/LPDDR设备的福音,不过M4 Pro的64G内存刚好用不了……😅
David's random thoughts
Llama 4这个17B active weight的架构是大容量DDR/LPDDR设备的福音,不过M4 Pro的64G内存刚好用不了……😅
好吧,看了一圈llama4的风评,我已经开始心疼月初就用了将近1TB的流量下载这货把整个月的vps流量都快用完了……
HP这台是我多年来买过的首发笔记本新平台机器里对Linux支持最好的,没有之一。不过都已经拿去做Ubuntu认证了也不意外。。

LLM暂时简单测了一个Linux ROCm UMA的llama.cpp运行70B投机解码,理想情况下可以做到大约8.7 t/s左右。后面有空再做详细测试。
Strix Halo的SMU地址跟Strix Point一模一样,pm table因为供电多了一个rail所以看起来有一点小变化。感觉是送分题(
简单测试Strix Halo (395)单线程SPECint2017的CPU核心与Package能效。

核心方面395比HX370强不少。同样5.1GHz频率下,370峰值电压高达1.45V,而395只有大约1.13V。

Package则没那么乐观,两倍位宽也带来了两倍低频功耗。当然这是插电测试,拔电单线程负载uncore会降频所以实际续航没有减半这么极端。
一个标榜隐私为卖点的产品内置LLM功能时居然不提供自定义API endpoint选项,不知道pm脑子里在想什么。连被自由软件界一部分人骂的狗血淋头的MS vscode现在都支持本地ollama了。

还是说,这些产品出现在列表里,也像默认搜索引擎一样是个交易?在我看来不管是哪种情况他们都已经彻底背离了初衷。
之前尝试拿B580在linux下亮机和玩一些小游戏,遭遇了无数次显卡从总线上直接消失以及proton游戏渲染错误,最后不得不又把卡换回去……这都发售小半年了还在调查

https://www.phoronix.com/news/Intel-Xe-Linux-6.16-Fan-Speeds
难得见识一次现代Xeon的缓存/内存延迟数据(Xeon 6960P @ 3.8 GHz)

这60ns+的L3缓存延迟大概比很多PC DIY用户超频后的内存延迟都高了
随手摸下B200 (148SM)。Vector性能相比H100的提升比较常规(+25%)。全局原子CAS延迟是H100的2x,达到200ns,这大概就是MCM的代价。

有意思的点在于wmma发生明显倒退,每SM性能回到了图形卡水平。本代大概只有tcgen05.mma可以跑出纸面tensor吞吐,这标志着计算卡重心逐渐转向类似NPU的TMEM?
想了一下还是决定把知乎账号给注销了,去年开始走RSS关注发现好像也不是不能用😅
Strix Halo (395)本地运行LLM测试 https://blog.hjc.im/strix-halo-local-llm.html
三星OneUI 7把我最讨厌的iOS UX交互一字不漏原封不动的全抄过来了。。🙃
2025/06/26 01:24:39
Back to Top
HTML Embed Code: