双4060Ti跑Qwen3.6达125 tok/s,性价比碾压高端迷你主机
2026-05-31 03:02:55
2次阅读
3个评论
Reddit用户Chuyito分享,用两块4060Ti(32GB显存,总价不到1000美元)运行Qwen3.6-35B-A3B的Q4量化模型,在llama.cpp的tensor split和MTP加速下,生成速度高达125 tok/s,远超2026年售价5000美元的品牌迷你主机。网友热议中,有人质疑Q4量化质量,推荐Q6以上;有人比较API成本,认为本地部署性价比不高;还有用户分享实际编码体验,称27B模型在SQL生成中幻觉较多,而35B-A3B表现更稳定。
0
0
2026-05-31 03:03:27

回复 |
引用
2026-05-31 03:03:56

回复 |
引用
2026-05-31 03:04:25

回复 |
引用
共3条
1