为什么又聊到Mac跑LLM是行为艺术，因为Apple最近又开始吹一些非常不实际的应用场景(官网声称支持>600B LLM)，还有一群KOL真的出来测DS 671B跑出将近20t/s但是实际情况呢？刚开始确实可以接近20 t/s，但reasoning非常吃上下文长度

为什么又聊到Mac跑LLM是行为艺术，因为Apple最近又开始吹一些非常不实际的应用场景(官网声称支持>600B LLM)，还有一群KOL真的出来测DS 671B跑出将近20t/s

但是实际情况呢？刚开始确实可以接近20 t/s，但reasoning非常吃上下文长度。而13k上下文之后只剩6.3t/s，基本不可用。

https://www.reddit.com/r/LocalLLaMA/comments/1j9vjf1/comment/mhgksp9/