16GB消费级GPU运行35B大模型提速优化分享
2026-04-19 04:34:40
1次阅读
0个评论
用户在RTX 5070 Ti+9800X3D上调试通义千问3.6-35B-A3B,发现改用`--n-cpu-moe`配合合理参数,相比通用的`--cpu-moe`生成速度提升54%,可实现79t/s+128K上下文。经社区讨论优化,最终得到适配不同显存的最优启动参数,还给出了LM Studio的对应配置,获得社区肯定。
收藏 0 0

登录 后评论。没有帐号? 注册 一个。

小陈

manage advert
  • 0 回答
  • 0 粉丝
  • 0 关注