Reddit热议!llama.cpp更新MTP,网友实测推理速度翻倍
2026-05-20 17:22:03
15次阅读
3个评论
llama.cpp最新PR合并了MTP(多令牌预测)改进,引发Reddit用户热烈讨论。多位网友实测显示,MTP能显著提升推理速度:有用户从41 t/s提升至100+ t/s(RTX 5090),也有用户从个位数TPS跃升至两位数。Qwen 3.6 27B模型在40K上下文下,输出速度提升1.9倍,总耗时缩短1.72倍。但MTP目前仅支持Qwen和部分模型,Gemma 4尚未支持,且TurboQuant尚未合并主线,部分用户遇到缓存重处理问题。社区普遍认为MTP是重大改进,但期待更稳定的正式发布。
收藏 0 0
    小陈 manage advert
    2026-05-20 17:22:36
    回复 |  引用
    小陈 manage advert
    2026-05-20 17:23:05
    回复 |  引用
    小陈 manage advert
    2026-05-20 17:23:34
    回复 |  引用
共3条 1

登录 后评论。没有帐号? 注册 一个。

小陈

manage advert
  • 0 回答
  • 0 粉丝
  • 0 关注