苹果测试工程师的日常
18 小时前
发现之前对 MTP(Multi-Token Prediction) 理解有错误,我之前以为是一次预测多个 Token 会降低整体的计算成本,但实际上在长输出过程中,输出的多个 Token 会变成输入,也还是要走一遍 Transformer,一次预测多个并不会降低计算量,反而由于多了一个 MTP 模块和验证模块计算量会上升。MTP 的主要好处一个是迫使模型主动思考更长距离的预测,模型的能力会得到提升。另一个是可以多个Token并行,降低整体的延迟。
Home
Powered by
BroadcastChannel
&
Sepia