Reddit热议!llama.cpp更新MTP,网友实测推理速度翻倍
2026-05-20 17:22:03
15次阅读
3个评论
llama.cpp最新PR合并了MTP(多令牌预测)改进,引发Reddit用户热烈讨论。多位网友实测显示,MTP能显著提升推理速度:有用户从41 t/s提升至100+ t/s(RTX 5090),也有用户从个位数TPS跃升至两位数。Qwen 3.6 27B模型在40K上下文下,输出速度提升1.9倍,总耗时缩短1.72倍。但MTP目前仅支持Qwen和部分模型,Gemma 4尚未支持,且TurboQuant尚未合并主线,部分用户遇到缓存重处理问题。社区普遍认为MTP是重大改进,但期待更稳定的正式发布。
0
0
2026-05-20 17:22:36

回复 |
引用
2026-05-20 17:23:05

回复 |
引用
2026-05-20 17:23:34

回复 |
引用
共3条
1