Reddit热议!12GB显存跑35B模型飙到110 tok/s,老外怎么做到的?
2026-05-22 01:38:04
14次阅读
3个评论
一位Reddit用户在RTX 4070 Super 12GB显卡上,使用ik_llama.cpp运行Qwen3.6 35B A3B模型,通过MTP(多令牌预测)技术实现了110 tok/s的惊人速度,比官方llama.cpp提升了23%。网友讨论指出,ik_llama.cpp在MTP实现上更优,接受率更高,且CachyOS系统优化和特定参数设置(如--fit-margin)是关键。部分用户反馈在Windows或Ubuntu上效果不佳,但整体认为此方案为低显存用户提供了新可能。
0
0
2026-05-22 01:38:36

回复 |
引用
2026-05-22 01:39:05

回复 |
引用
2026-05-22 01:39:34

回复 |
引用
共3条
1