12GB显存跑Qwen3.6 35B:80tok/s+128K上下文!llama.cpp MTP攻略
2026-05-10 01:08:33
20次阅读
3个评论
楼主用RTX4070Super,源码编译含未合并PR的llama.cpp,搭配Qwen3.6 35B A3B量化模型,调-fitt等参数,12GB显存实现80tok/s、128K上下文;网友晒不同显卡测试、参数讨论及模型体验。
收藏 0 0
    小陈 manage advert
    2026-05-10 01:09:06
    回复 |  引用
    小陈 manage advert
    2026-05-10 01:09:35
    回复 |  引用
    小陈 manage advert
    2026-05-10 01:10:04
    回复 |  引用
共3条 1

登录 后评论。没有帐号? 注册 一个。

小陈

manage advert
  • 0 回答
  • 0 粉丝
  • 0 关注