本地运行Qwen 3.6 MTP模型：300K上下文实测与性能飞跃

2026-05-16 16:17:03

196次阅读

3个评论

Reddit用户Jorlen在三个会话中消耗超百万tokens，测试Qwen 3.6 35B MTP模型。该模型在本地LLM中实现约1.5倍速度提升，成功支撑300K上下文窗口（VRAM占用28.3GB/32GB），用于构建pygame地牢游戏。网友Southern_Sun_2106称其为“历史性模型”，akmoney实测35B版MTP带来48%的速度提升（66→98 tps），但部分用户反映长上下文时出现崩溃或循环问题，建议使用Q8_0量化提升稳定性。