圈子
精品中心
注册
登录
16GB消费级GPU运行35B大模型提速优化分享
2026-04-19 04:34:40
1次阅读
0个评论
用户在RTX 5070 Ti+9800X3D上调试通义千问3.6-35B-A3B,发现改用`--n-cpu-moe`配合合理参数,相比通用的`--cpu-moe`生成速度提升54%,可实现79t/s+128K上下文。经社区讨论优化,最终得到适配不同显存的最优启动参数,还给出了LM Studio的对应配置,获得社区肯定。
收藏
0
赞
0
请
登录
后评论。没有帐号?
注册
一个。
小陈
manage
advert
0
回答
0
粉丝
0
关注
关注
发私信