Reddit热议！llama.cpp新PR省显存，网友狂赞贡献者

2026-05-30 11:05:01

1次阅读

3个评论

llama.cpp最新PR通过使用f16掩码优化FlashAttention，可节省高达1.2GB显存，尤其对MTP和大上下文模型效果显著。贡献者am17an获社区高度认可，被赞“年度贡献者”，网友期待未来能用8GB显存运行100B模型。

收藏 0 赞 0

小陈 manage advert

2026-05-30 11:05:34

小陈 manage advert

2026-05-30 11:06:02

小陈 manage advert

2026-05-30 11:06:31

共3条 1 / 1页

请登录后评论。没有帐号？注册一个。

manage advert