旧显卡跑大模型：200美元二手机实现24+ tok/s

2026-05-15 02:54:59

20次阅读

3个评论

用户用200美元的二手机（GTX 1080/8GB显存）通过MoE卸载和KV缓存量化，成功运行30B级模型并达到24+ tok/s。网友指出其128k上下文测试未实际填满，长上下文时速度会大幅下降；同时发现Gemma 4的MTP推测解码因嵌入表在CPU上而效率低下，需强制移至GPU才能获得真正加速。