12GB显存跑Qwen3.6 35B:80tok/s+128K上下文!llama.cpp MTP攻略
2026-05-10 01:08:33
68次阅读
3个评论
楼主用RTX4070Super,源码编译含未合并PR的llama.cpp,搭配Qwen3.6 35B A3B量化模型,调-fitt等参数,12GB显存实现80tok/s、128K上下文;网友晒不同显卡测试、参数讨论及模型体验。
0
0
2026-05-10 01:09:06

回复 |
引用
2026-05-10 01:09:35

回复 |
引用
2026-05-10 01:10:04

回复 |
引用
共3条
1
相关帖子
- 实测:12GB显存可流畅运行35B级Qwen 35B-A3B MoE大模型
- 24GB显存跑Qwen 27B终极指南:ik_llama.cpp+MTP量化封神
- 本地运行Qwen 3.6 MTP模型:300K上下文实测与性能飞跃
- 用户在MacBook Pro M5 Max 128GB本地跑通Qwen3.6-35B,体验不输Claude
- Qwen3.6 27B编码效果超35B MoE引本地AI用户热议
- llama.cpp MTP支持进入beta 本地大模型推理大幅提速
- LLaMA.cpp实现MTP功能,Gemma4令牌生成提速40%
- Qwen3.6 35B无审查Heretic模型获赞 被称同参数级最佳
- 嫁接MTP的Qwen3.6-35B-A3B模型实测结果公布
- 16GB显存跑大LLM妙招:插旧6GB+显存显卡扩容提速