Reddit热议！llama.cpp更新MTP，网友实测推理速度翻倍

2026-05-20 17:22:03

15次阅读

3个评论

llama.cpp最新PR合并了MTP（多令牌预测）改进，引发Reddit用户热烈讨论。多位网友实测显示，MTP能显著提升推理速度：有用户从41 t/s提升至100+ t/s（RTX 5090），也有用户从个位数TPS跃升至两位数。Qwen 3.6 27B模型在40K上下文下，输出速度提升1.9倍，总耗时缩短1.72倍。但MTP目前仅支持Qwen和部分模型，Gemma 4尚未支持，且TurboQuant尚未合并主线，部分用户遇到缓存重处理问题。社区普遍认为MTP是重大改进，但期待更稳定的正式发布。