为什么又聊到Mac跑LLM是行为艺术,因为Apple最近又开始吹一些非常不实际的应用场景(官网声称支持>600B LLM),还有一群KOL真的出来测DS 671B跑出将近20t/s
但是实际情况呢?刚开始确实可以接近20 t/s,但reasoning非常吃上下文长度。而13k上下文之后只剩6.3t/s,基本不可用。
https://www.reddit.com/r/LocalLLaMA/comments/1j9vjf1/comment/mhgksp9/
但是实际情况呢?刚开始确实可以接近20 t/s,但reasoning非常吃上下文长度。而13k上下文之后只剩6.3t/s,基本不可用。
https://www.reddit.com/r/LocalLLaMA/comments/1j9vjf1/comment/mhgksp9/
.NET Core这种LTS只支持3年还喜欢日常搞breaking change的support policy,后果就是我们一大群屎山业务逻辑代码费了老大的劲移植到 .NET Core 之后还要隔三差五的去升级 .NET 版本修兼容性问题,而隔壁躺平在 .NET 4.7.2 的业务则可以一直享受Windows的无感security patch + 无敌向下兼容。
这怎么能叫bug呢,明明是无敌feature好吧
https://www.windowslatest.com/2025/03/16/microsoft-windows-11-march-2025-update-bug-deletes-copilot-app-unpins-from-the-taskbar/
https://www.windowslatest.com/2025/03/16/microsoft-windows-11-march-2025-update-bug-deletes-copilot-app-unpins-from-the-taskbar/
Windows Latest
Microsoft: Windows 11 March 2025 update bug deletes Copilot app, unpins from the taskbar
Microsoft confirms Windows 11 March 2025 update bug deletes Copilot app, unpins from the taskbar. Offers fix.
2077 1080p路径追踪RDNA 3 vs 4,后者用上新的traversal指令之后RT shader寄存器压力骤降(240 -> 96),occupation也直接满了(6/16 -> 16/16)。
2077的RT shader不算特别复杂,因此没有观察到使用动态寄存器(s_alloc_vgpr)。在黑神话悟空里则有观察到5-20%的wave时间被用于循环等待动态分配。
2077的RT shader不算特别复杂,因此没有观察到使用动态寄存器(s_alloc_vgpr)。在黑神话悟空里则有观察到5-20%的wave时间被用于循环等待动态分配。
Mesa RADV哪都好,但新硬件上有两个问题:
1. 光追性能较差,看代码发现只用了image_bvh_intersect_ray没有ds_bvh_stack_rtn,也就是RDNA3/4都是RDNA2级别的纯软件traversal。
2. 没有支持RDNA4的cooperative matrix。
所以现在RDNA4在Linux下玩游戏或者跑LLM还是得用amdvlk……嗯现在ROCm也是废的。
1. 光追性能较差,看代码发现只用了image_bvh_intersect_ray没有ds_bvh_stack_rtn,也就是RDNA3/4都是RDNA2级别的纯软件traversal。
2. 没有支持RDNA4的cooperative matrix。
所以现在RDNA4在Linux下玩游戏或者跑LLM还是得用amdvlk……嗯现在ROCm也是废的。
David's random thoughts
Mesa RADV哪都好,但新硬件上有两个问题: 1. 光追性能较差,看代码发现只用了image_bvh_intersect_ray没有ds_bvh_stack_rtn,也就是RDNA3/4都是RDNA2级别的纯软件traversal。 2. 没有支持RDNA4的cooperative matrix。 所以现在RDNA4在Linux下玩游戏或者跑LLM还是得用amdvlk……嗯现在ROCm也是废的。
Phoronix
Mesa RADV vs. AMDVLK Vulkan Driver Performance For The AMD Radeon RX 9070 Series
.
David's random thoughts
2017年以来的每一年都是WoA元年,今后的每一年也将继续是🙃 https://x.com/tomshardware/status/1903489920632791148
在PC这种夕阳市场拿到份额有多不容易看隔壁AMD移动端有多难就知道
靠着i5价格实现i7甚至i9 CPU性能且无普遍兼容性问题,再免费送比竞品强的多能玩主流游戏的核显。同时满足这些才会实现份额增长,哪代做不到就停滞不前
为了节省成本,他们甚至移动SoC研发都在印度而非北美。相比之下高通大概还在梦里
靠着i5价格实现i7甚至i9 CPU性能且无普遍兼容性问题,再免费送比竞品强的多能玩主流游戏的核显。同时满足这些才会实现份额增长,哪代做不到就停滞不前
为了节省成本,他们甚至移动SoC研发都在印度而非北美。相比之下高通大概还在梦里
为什么前段时间说老美航天就算没马斯克也是断档领先。。图里这些火神芯级如果都拿去做VC4/6构型,那么每发都相当于长5运力。这个爆产能的能力恐怖如斯,国内见过这么多长5同框吗
不过这种事在媒体选择性报道下都排不上号,除了一些小圈子之外我接触的绝大多数人都觉得美国现在只有马斯克能搞航天了🤣
https://twitter.com/SUPERFRENCHBIGZ/status/1904260942441144636
不过这种事在媒体选择性报道下都排不上号,除了一些小圈子之外我接触的绝大多数人都觉得美国现在只有马斯克能搞航天了🤣
https://twitter.com/SUPERFRENCHBIGZ/status/1904260942441144636
X (formerly Twitter)
Zaki Qayoumi (aka Zack) iamzaki.eth (@SUPERFRENCHBIGZ) on X
For your visual enjoyment. The last set was in the Finished Goods Warehouse in Decatur. These are at the Cape. https://t.co/XFROBfCWnP via @torybruno @ulalaunch @LinkedIn #LinkedIn #ULA
David's random thoughts
世纪大难题:Intel Xe2需要6.12+内核,amdgpu-dkms需要6.11-内核,那么如何让两个设备同时工作呢🙃
之前纠结了好久的这个问题,最近才偶然发现70B模型tensor parallel=2直接把NCCL PCIe P2P关了也不影响性能,所以从最开始就完全没必要折腾amdgpu-dkms……
🙃🙃🙃
🙃🙃🙃
另外我也顺便明白了一件事情。最近的单机游戏很多玩不下去并不是因为我现在不喜欢玩游戏,而是因为游戏本身越来越不好玩了😡
https://x.com/hjc4869/status/1907109523023892647
https://x.com/hjc4869/status/1907109523023892647
X (formerly Twitter)
David Huang (@hjc4869) on X
@Yayoi_no_yume 刚换新显卡第一件事情就是拿这个版本重温剧情。。。画面确实强得多,老版本很多做的不够好的特效都有明显的提升