Reddit热议!MTP PR合并,llama.cpp迎来巨大生成加速
2026-05-17 17:25:14
21次阅读
3个评论
MTP(多token预测)PR正式合并进llama.cpp,用户实测生成速度提升1.5-1.8倍,尤其对编码任务效果显著。但提示处理(PP)速度普遍下降,部分用户PP减半,显存占用增加,长上下文易OOM。需下载专用MTP版GGUF模型,目前Qwen 3.6支持较好,Gemma 4需合并层文件。
0
0
2026-05-17 17:25:46

回复 |
引用
2026-05-17 17:26:15

回复 |
引用
2026-05-17 17:26:44

回复 |
引用
共3条
1