旧显卡跑大模型:200美元二手机实现24+ tok/s
2026-05-15 02:54:59
20次阅读
3个评论
用户用200美元的二手机(GTX 1080/8GB显存)通过MoE卸载和KV缓存量化,成功运行30B级模型并达到24+ tok/s。网友指出其128k上下文测试未实际填满,长上下文时速度会大幅下降;同时发现Gemma 4的MTP推测解码因嵌入表在CPU上而效率低下,需强制移至GPU才能获得真正加速。
收藏 0 0
    小陈 manage advert
    2026-05-15 02:55:32
    回复 |  引用
    小陈 manage advert
    2026-05-15 02:56:02
    回复 |  引用
    小陈 manage advert
    2026-05-15 02:56:31
    回复 |  引用
共3条 1

登录 后评论。没有帐号? 注册 一个。

小陈

manage advert
  • 0 回答
  • 0 粉丝
  • 0 关注