Reddit热议!16GB显存跑27B大模型,纯量化引争议
2026-05-24 02:34:48
20次阅读
3个评论
网友用“纯量化”方法将Qwen3.6 27B模型压至15GB,在16GB显卡上实现40 tok/s生成速度。但多名网友质疑其命名不当,指出该方法将敏感层也强制量化,可能导致质量下降,建议改用自定义名称或尝试IQ4_KT等更优方案。
0
0
2026-05-24 02:35:21

回复 |
引用
2026-05-24 02:35:50

回复 |
引用
2026-05-24 02:36:18

回复 |
引用
共3条
1