Reddit热议!MTP PR合并,llama.cpp迎来巨大生成加速
2026-05-17 17:25:14
21次阅读
3个评论
MTP(多token预测)PR正式合并进llama.cpp,用户实测生成速度提升1.5-1.8倍,尤其对编码任务效果显著。但提示处理(PP)速度普遍下降,部分用户PP减半,显存占用增加,长上下文易OOM。需下载专用MTP版GGUF模型,目前Qwen 3.6支持较好,Gemma 4需合并层文件。
收藏 0 0
    小陈 manage advert
    2026-05-17 17:25:46
    回复 |  引用
    小陈 manage advert
    2026-05-17 17:26:15
    回复 |  引用
    小陈 manage advert
    2026-05-17 17:26:44
    回复 |  引用
共3条 1

登录 后评论。没有帐号? 注册 一个。

小陈

manage advert
  • 0 回答
  • 0 粉丝
  • 0 关注