Reddit热议!LM Studio新增MTP推测解码,性能实测引争议
2026-05-20 23:05:28
12次阅读
3个评论
LM Studio 0.4.14测试版新增MTP推测解码支持,用户需手动启用。实测显示Qwen 3.6-27B在3090上速度翻倍至42 tok/s,但部分用户反映比原生llama.cpp慢,且不支持Gemma 4外部助理模型。MTP显著降低首令牌延迟,但生成速度略有下降,社区对优化效果分歧明显。
0
0
2026-05-20 23:06:00

回复 |
引用
2026-05-20 23:06:29

回复 |
引用
2026-05-20 23:06:58

回复 |
引用
共3条
1