实测Qwen3.6-35B MoE:显存有限时更大量化反而性能更好
2026-04-26 00:16:55
176次阅读
0个评论
楼主用8GB显存RTX3070测试Qwen3.6-35B-A3B,发现更大的Q4、Q5量化比更小的IQ4_XS速度更快、长上下文表现更稳。评论解释IQ量化卸载到内存时速度慢,普通量化更适配,多位用户验证该规律,还有人分享llama.cpp优化参数。
0
0
相关帖子
- 实测:12GB显存可流畅运行35B级Qwen 35B-A3B MoE大模型
- 嫁接MTP的Qwen3.6-35B-A3B模型实测结果公布
- Qwen3.6-35B搭适配代理追平云模型引发社区热议
- Qwen3.6 27B编码效果超35B MoE引本地AI用户热议
- 用户在MacBook Pro M5 Max 128GB本地跑通Qwen3.6-35B,体验不输Claude
- Reddit热议!Qwen发布35B MoE世界模型,专为模拟代理环境而生
- 12GB显存跑Qwen3.6 35B:80tok/s+128K上下文!llama.cpp MTP攻略
- 24GB显存跑Qwen 27B终极指南:ik_llama.cpp+MTP量化封神
- 本地运行Qwen 3.6 MTP模型:300K上下文实测与性能飞跃
- 双显卡实测Qwen3.6-27B与Coder-Next:优劣依场景而定