Orthrus新方案：冻结主模型，扩散头加速7.8倍

2026-05-16 10:10:14

17次阅读

3个评论

Reddit用户分享Orthrus-Qwen3-8B技术：在冻结的Transformer每层注入可训练扩散注意力模块，KV缓存共享，输出分布与基础模型完全一致。MATH-500上TPF提升7.8倍，挂钟时间快6倍，训练仅需16%参数和24小时。网友热议其零TTFT惩罚、64K长上下文表现优异，但指出仅支持贪婪采样和Qwen3模型，期待扩展到Qwen3.5/3.6及MoE架构。