本地运行Qwen 3.6 MTP模型:300K上下文实测与性能飞跃
2026-05-16 16:17:03
60次阅读
3个评论
Reddit用户Jorlen在三个会话中消耗超百万tokens,测试Qwen 3.6 35B MTP模型。该模型在本地LLM中实现约1.5倍速度提升,成功支撑300K上下文窗口(VRAM占用28.3GB/32GB),用于构建pygame地牢游戏。网友Southern_Sun_2106称其为“历史性模型”,akmoney实测35B版MTP带来48%的速度提升(66→98 tps),但部分用户反映长上下文时出现崩溃或循环问题,建议使用Q8_0量化提升稳定性。
0
0
2026-05-16 16:17:36

回复 |
引用
2026-05-16 16:18:05

回复 |
引用
2026-05-16 16:18:34

回复 |
引用
共3条
1
相关帖子
- 12GB显存跑Qwen3.6 35B:80tok/s+128K上下文!llama.cpp MTP攻略
- 嫁接MTP的Qwen3.6-35B-A3B模型实测结果公布
- Reddit热议!MiniMax M3模型发布,百万上下文+多模态引期待
- 本地跑Qwen3.6/Gemma4体验佳?网友实测各模型优劣引热议
- Claude上下文token占用离谱引AI使用认知热议
- 网友实测Qwen3 TTS本地实时运行:表现力超强被严重低估
- Reddit热议本地大模型:Qwen3.6比肩前沿模型引争议
- 通义千问Qwen3.6 27B本地实测表现优异引网友热议
- 实测Qwen3.6-35B MoE:显存有限时更大量化反而性能更好
- 双显卡实测Qwen3.6-27B与Coder-Next:优劣依场景而定