为什么又聊到Mac跑LLM是行为艺术,因为Apple最近又开始吹一些非常不实际的应用场景(官网声称支持>600B LLM),还有一群KOL真的出来测DS 671B跑出将近20t/s

但是实际情况呢?刚开始确实可以接近20 t/s,但reasoning非常吃上下文长度。而13k上下文之后只剩6.3t/s,基本不可用。

https://www.reddit.com/r/LocalLLaMA/comments/1j9vjf1/comment/mhgksp9/
 
 
Back to Top