旧显卡跑大模型:200美元二手机实现24+ tok/s
2026-05-15 02:54:59
20次阅读
3个评论
用户用200美元的二手机(GTX 1080/8GB显存)通过MoE卸载和KV缓存量化,成功运行30B级模型并达到24+ tok/s。网友指出其128k上下文测试未实际填满,长上下文时速度会大幅下降;同时发现Gemma 4的MTP推测解码因嵌入表在CPU上而效率低下,需强制移至GPU才能获得真正加速。
0
0
2026-05-15 02:55:32

回复 |
引用
2026-05-15 02:56:02

回复 |
引用
2026-05-15 02:56:31

回复 |
引用
共3条
1