8GB显存+32GB内存跑Qwen3.6 35B:19万上下文最高51tok/s
2026-05-11 07:59:21
20次阅读
2个评论
楼主用配RTX4060 8GB显存、32GB DDR5的笔记本装Linux做服务器,借助带TurboQuant的llama.cpp分支,调参后可跑19万上下文的Q5量化Qwen3.6 35B A3B,最高达51tok/s,分享了运行配置;评论涉及蒸馏模型效果、调参建议及同配置用户体验。
0
0
2026-05-11 07:59:53

回复 |
引用
2026-05-11 08:00:23

回复 |
引用
共2条
1