Reddit热议!英伟达NVFP4量化版Qwen模型性能如何?
2026-05-31 09:38:48
1次阅读
2个评论
英伟达发布Qwen3.6-35B-A3B的NVFP4量化版,将参数从16位压缩至4位,显存需求降低约3倍,在MMLU等基准测试中性能损失极小。网友讨论焦点集中在不同量化版本(如RedHat、Unsloth)的校准数据集差异,以及注意力层未量化导致实际压缩比不如预期,并建议与标准Q4量化进行对比。
0
0
2026-05-31 09:39:20

回复 |
引用
2026-05-31 09:39:49

回复 |
引用
共2条
1