Reddit热议!12GB显存跑35B模型飙到110 tok/s,老外怎么做到的?
2026-05-22 01:38:04
14次阅读
3个评论
一位Reddit用户在RTX 4070 Super 12GB显卡上,使用ik_llama.cpp运行Qwen3.6 35B A3B模型,通过MTP(多令牌预测)技术实现了110 tok/s的惊人速度,比官方llama.cpp提升了23%。网友讨论指出,ik_llama.cpp在MTP实现上更优,接受率更高,且CachyOS系统优化和特定参数设置(如--fit-margin)是关键。部分用户反馈在Windows或Ubuntu上效果不佳,但整体认为此方案为低显存用户提供了新可能。
收藏 0 0
    小陈 manage advert
    2026-05-22 01:38:36
    回复 |  引用
    小陈 manage advert
    2026-05-22 01:39:05
    回复 |  引用
    小陈 manage advert
    2026-05-22 01:39:34
    回复 |  引用
共3条 1

登录 后评论。没有帐号? 注册 一个。

小陈

manage advert
  • 0 回答
  • 0 粉丝
  • 0 关注