16GB消费级GPU运行35B大模型提速优化分享

2026-04-19 04:34:40

1次阅读

0个评论

用户在RTX 5070 Ti+9800X3D上调试通义千问3.6-35B-A3B，发现改用`--n-cpu-moe`配合合理参数，相比通用的`--cpu-moe`生成速度提升54%，可实现79t/s+128K上下文。经社区讨论优化，最终得到适配不同显存的最优启动参数，还给出了LM Studio的对应配置，获得社区肯定。

收藏 0 赞 0

请登录后评论。没有帐号？注册一个。

小陈

manage advert

0 回答
0 粉丝
0 关注