Reddit热议!英伟达NVFP4量化版Qwen模型性能如何?
2026-05-31 09:38:48
1次阅读
2个评论
英伟达发布Qwen3.6-35B-A3B的NVFP4量化版,将参数从16位压缩至4位,显存需求降低约3倍,在MMLU等基准测试中性能损失极小。网友讨论焦点集中在不同量化版本(如RedHat、Unsloth)的校准数据集差异,以及注意力层未量化导致实际压缩比不如预期,并建议与标准Q4量化进行对比。
收藏 0 0
    小陈 manage advert
    2026-05-31 09:39:20
    回复 |  引用
    小陈 manage advert
    2026-05-31 09:39:49
    回复 |  引用
共2条 1

登录 后评论。没有帐号? 注册 一个。

小陈

manage advert
  • 0 回答
  • 0 粉丝
  • 0 关注