8GB显存+32GB内存跑Qwen3.6 35B:19万上下文最高51tok/s
2026-05-11 07:59:21
20次阅读
2个评论
楼主用配RTX4060 8GB显存、32GB DDR5的笔记本装Linux做服务器,借助带TurboQuant的llama.cpp分支,调参后可跑19万上下文的Q5量化Qwen3.6 35B A3B,最高达51tok/s,分享了运行配置;评论涉及蒸馏模型效果、调参建议及同配置用户体验。
收藏 0 0
    小陈 manage advert
    2026-05-11 07:59:53
    回复 |  引用
    小陈 manage advert
    2026-05-11 08:00:23
    回复 |  引用
共2条 1

登录 后评论。没有帐号? 注册 一个。

小陈

manage advert
  • 0 回答
  • 0 粉丝
  • 0 关注