Reddit热议！12GB显存跑35B模型飙到110 tok/s，老外怎么做到的？

2026-05-22 01:38:04

14次阅读

3个评论

一位Reddit用户在RTX 4070 Super 12GB显卡上，使用ik_llama.cpp运行Qwen3.6 35B A3B模型，通过MTP（多令牌预测）技术实现了110 tok/s的惊人速度，比官方llama.cpp提升了23%。网友讨论指出，ik_llama.cpp在MTP实现上更优，接受率更高，且CachyOS系统优化和特定参数设置（如--fit-margin）是关键。部分用户反馈在Windows或Ubuntu上效果不佳，但整体认为此方案为低显存用户提供了新可能。