双4060Ti跑Qwen3.6达125 tok/s，性价比碾压高端迷你主机

2026-05-31 03:02:55

73次阅读

3个评论

Reddit用户Chuyito分享，用两块4060Ti（32GB显存，总价不到1000美元）运行Qwen3.6-35B-A3B的Q4量化模型，在llama.cpp的tensor split和MTP加速下，生成速度高达125 tok/s，远超2026年售价5000美元的品牌迷你主机。网友热议中，有人质疑Q4量化质量，推荐Q6以上；有人比较API成本，认为本地部署性价比不高；还有用户分享实际编码体验，称27B模型在SQL生成中幻觉较多，而35B-A3B表现更稳定。