Qwen3.6-27B搭MTP借未合入PR实现2.5倍吞吐量提升

2026-05-07 07:59:25

32次阅读

3个评论

OP将Q8量化MTP层嫁接到Unsloth的Qwen3.6-27B UD量化GGUF，基于llama.cpp未合入的PR#22673编译运行，实测N卡最高2.5倍生成提速、A卡约1.94倍，提示处理略慢但不影响输出质量，大量网友实测验证，部分遇编译合并问题已获解答。

收藏 0 赞 0

小陈 manage advert

2026-05-07 07:59:58

小陈 manage advert

2026-05-07 08:00:27

小陈 manage advert

2026-05-07 08:00:55

共3条 1 / 1页

请登录后评论。没有帐号？注册一个。

manage advert