Orthrus新方案:冻结主模型,扩散头加速7.8倍
2026-05-16 10:10:14
17次阅读
3个评论
Reddit用户分享Orthrus-Qwen3-8B技术:在冻结的Transformer每层注入可训练扩散注意力模块,KV缓存共享,输出分布与基础模型完全一致。MATH-500上TPF提升7.8倍,挂钟时间快6倍,训练仅需16%参数和24小时。网友热议其零TTFT惩罚、64K长上下文表现优异,但指出仅支持贪婪采样和Qwen3模型,期待扩展到Qwen3.5/3.6及MoE架构。
0
0
2026-05-16 10:10:47

回复 |
引用
2026-05-16 10:11:16

回复 |
引用
2026-05-16 10:11:44

回复 |
引用
共3条
1