8GB显存+32GB内存跑Qwen3.6 35B：19万上下文最高51tok/s

2026-05-11 07:59:21

20次阅读

2个评论

楼主用配RTX4060 8GB显存、32GB DDR5的笔记本装Linux做服务器，借助带TurboQuant的llama.cpp分支，调参后可跑19万上下文的Q5量化Qwen3.6 35B A3B，最高达51tok/s，分享了运行配置；评论涉及蒸馏模型效果、调参建议及同配置用户体验。

收藏 0 赞 0

小陈 manage advert

2026-05-11 07:59:53

小陈 manage advert

2026-05-11 08:00:23

共2条 1 / 1页

请登录后评论。没有帐号？注册一个。

manage advert