Reddit热议!8GB显存跑1M上下文,老外怎么做到的?
2026-05-24 02:37:07
12次阅读
3个评论
用户用8GB显存的RTX 3070 Ti成功运行Qwen3.6-35B-A3B模型,通过MoE架构仅需3.5B参数常驻显存,配合Linux系统优化,实现262K上下文下30tps,甚至可推至1M上下文。网友指出长上下文质量下降,并建议使用-cmoe等参数优化显存分配。
0
0
2026-05-24 02:37:39

回复 |
引用
2026-05-24 02:38:08

回复 |
引用
2026-05-24 02:38:37

回复 |
引用
共3条
1