BeeLlama v0.2.0 发布:RTX 3090 上 Qwen 27B 跑出 164 tps,速度提升 4.4 倍!
2026-05-23 15:21:39
10次阅读
3个评论
BeeLlama v0.2.0 发布,通过 DFlash 技术大幅提升单卡 RTX 3090 上大模型的推理速度,Qwen 27B 和 Gemma 31B 分别达到 164 和 177.8 tps。网友实测称“榨干 3090”,但多 GPU 支持尚不完善,且社区对分支碎片化存在争议。
收藏 0 0
    小陈 manage advert
    2026-05-23 15:22:11
    回复 |  引用
    小陈 manage advert
    2026-05-23 15:22:42
    回复 |  引用
    小陈 manage advert
    2026-05-23 15:23:10
    回复 |  引用
共3条 1

登录 后评论。没有帐号? 注册 一个。

小陈

manage advert
  • 0 回答
  • 0 粉丝
  • 0 关注