实测Qwen3.6-35B MoE:显存有限时更大量化反而性能更好
2026-04-26 00:16:55
71次阅读
0个评论
楼主用8GB显存RTX3070测试Qwen3.6-35B-A3B,发现更大的Q4、Q5量化比更小的IQ4_XS速度更快、长上下文表现更稳。评论解释IQ量化卸载到内存时速度慢,普通量化更适配,多位用户验证该规律,还有人分享llama.cpp优化参数。
收藏 0 0

登录 后评论。没有帐号? 注册 一个。

小陈

manage advert
  • 0 回答
  • 0 粉丝
  • 0 关注