448 - Telegram Web

Warning: Undefined array key 0 in /var/www/tgoop/function.php on line 65

Warning: Trying to access array offset on value of type null in /var/www/tgoop/function.php on line 65
448 - Telegram Web

David's random thoughts

llama.cpp用上SYCL之后终于展现出XMX的优势，B580的prefill性能赶上了规格比它大50%的7800 XT，不过decode的效率还是稍微低了点，带宽差距不应该这么大。

当然目前SYCL版本的flash attention kernel看起来性能还是不太好，性能会减半，目测有不少优化空间。提高batch size性能也会立刻锐减。

1.6K views15:54

David's random thoughts

当年的偷懒最后害的还是自己！

https://x.com/hjc4869/status/1332569705912041475

2.3K views08:26

David's random thoughts

B580虚拟化看起来也没什么问题，设备直通，驱动，虚拟显示器设备，以及关机重启reset之类的都ok。

1.5K views15:35

David's random thoughts

拿长5B这种大国重器打互联网卫星，放在美国是不是相当于拿SLS发星链🙃

1.4K views15:59

David's random thoughts

David's random thoughts

llama.cpp用上SYCL之后终于展现出XMX的优势，B580的prefill性能赶上了规格比它大50%的7800 XT，不过decode的效率还是稍微低了点，带宽差距不应该这么大。当然目前SYCL版本的flash attention kernel看起来性能还是不太好，性能会减半，目测有不少优化空间。提高batch size性能也会立刻锐减。

B580在Win下用最新驱动运行llama.cpp的Vulkan版本会获得比较正常的文本生成性能，与7800XT对比性能与显存带宽大致成比例，后者8B q8_0 >50 t/s。但是依然没有cooperative matrix所以prompt processing性能稀烂（vkpeak的matrix测试也跑不了）

SYCL则是全盘比Linux还差，flash attention也没什么好实现

1.6K views03:18

David's random thoughts

还真是

https://x.com/hjc4869/status/1833833836805038350

1.8K views17:04

David's random thoughts

一幅裁员裁到大动脉的感觉。。

https://x.com/aschilling/status/1869457604570657065

2.2K views02:47

David's random thoughts

我真是服了，Telegram一个需要手机号注册的平台能做到anti spam比马一龙裁员之后的Twitter还狗屎也是很厉害。每天打开channel评论区都是一大堆发广告的ban都ban不过来。就这还想做超级应用跟微信竞争？

2.5K views02:55

David's random thoughts

David's random thoughts

一幅裁员裁到大动脉的感觉。。 https://x.com/aschilling/status/1869457604570657065

细看了一眼，这个里面大部分问题都是Windows 11 26100.2161修掉的，而这个版本10月就已经发布，这阵子各家评测应该已经包含这个更新。

0x114微码官方认为游戏性能只有个位数百分点提升，目测就调调prefetcher参数之类的细枝末节。基本上可以认为ARL-S的游戏性能不会有本质变化了吧？

2.6K views05:21

David's random thoughts

真这么搞的话当年GitLab抢走GitHub的用户和开源项目怕不是要全部还回去

https://x.com/felixonmars/status/1870821742685663719

2.5K views13:25

David's random thoughts

Windows团队现在还有人能理得清这些边边角角的东西并且做好计划翻新一遍吗……我表示怀疑。

https://twitter.com/zacbowden/status/1873416567289200909

X (formerly Twitter)

Zac Bowden (@zacbowden) on X

It's been nearly a decade, and dark mode on Windows is still incomplete lol. Please Microsoft, just finish it... I beg you https://t.co/tyyeXqjbbd

2.4K views03:14

David's random thoughts

肉眼粗略观测了Orin的几个CPU频率对应的功耗之后我有点怀疑NS2的CPU会像NS1一样锁到1GHz附近……也许最多1.5GHz。

2.1K views13:37

David's random thoughts

翻了下手头的数据，发现居然只有Crestmont LPE适合拿来给Orin作对比。

2.3K views02:55

David's random thoughts

以后nvidia只需要每代把DLSS FG生成的帧数提高一倍就可以延续摩尔定律了

2.9K views03:52

David's random thoughts

用了一段时间发现严肃地用LLM还得用vLLM。llama.cpp 目前两方面不尽人意，以双W7900运行Qwen 72B为例

1. 多卡row split的prefill性能较低，之前的测试里提到过；
2. flash attn超长上下文性能：32K上下文后性能从17t/s降到个位数，而vLLM只从24t/s降到17t/s。

很多坑还是很难从简单跑分里反映出来。

2.0K views14:34

David's random thoughts

世纪大难题：Intel Xe2需要6.12+内核，amdgpu-dkms需要6.11-内核，那么如何让两个设备同时工作呢🙃

2.0K views09:58

David's random thoughts

我开始有点相信AMD CES不细讲RDNA4的说辞了，大概是时间真的不够吧（逃

https://x.com/0x22h/status/1877264593686233380

X (formerly Twitter)

0x22h (@0x22h) on X

1.9K views08:09

David's random thoughts

Windows商店做了十几年，结果能用的东西还不如flathub多🙃

2.6K views02:49

2025/06/27 16:16:25
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.tgoop.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>