BeeLlama v0.2.0 发布:RTX 3090 上 Qwen 27B 跑出 164 tps,速度提升 4.4 倍!
2026-05-23 15:21:39
10次阅读
3个评论
BeeLlama v0.2.0 发布,通过 DFlash 技术大幅提升单卡 RTX 3090 上大模型的推理速度,Qwen 27B 和 Gemma 31B 分别达到 164 和 177.8 tps。网友实测称“榨干 3090”,但多 GPU 支持尚不完善,且社区对分支碎片化存在争议。
0
0
2026-05-23 15:22:11

回复 |
引用
2026-05-23 15:22:42

回复 |
引用
2026-05-23 15:23:10

回复 |
引用
共3条
1