Reddit热议!8GB显存跑1M上下文,老外怎么做到的?
2026-05-24 02:37:07
12次阅读
3个评论
用户用8GB显存的RTX 3070 Ti成功运行Qwen3.6-35B-A3B模型,通过MoE架构仅需3.5B参数常驻显存,配合Linux系统优化,实现262K上下文下30tps,甚至可推至1M上下文。网友指出长上下文质量下降,并建议使用-cmoe等参数优化显存分配。
收藏 0 0
    小陈 manage advert
    2026-05-24 02:37:39
    回复 |  引用
    小陈 manage advert
    2026-05-24 02:38:08
    回复 |  引用
    小陈 manage advert
    2026-05-24 02:38:37
    回复 |  引用
共3条 1

登录 后评论。没有帐号? 注册 一个。

小陈

manage advert
  • 0 回答
  • 0 粉丝
  • 0 关注