Orthrus新方案:冻结主模型,扩散头加速7.8倍
2026-05-16 10:10:14
17次阅读
3个评论
Reddit用户分享Orthrus-Qwen3-8B技术:在冻结的Transformer每层注入可训练扩散注意力模块,KV缓存共享,输出分布与基础模型完全一致。MATH-500上TPF提升7.8倍,挂钟时间快6倍,训练仅需16%参数和24小时。网友热议其零TTFT惩罚、64K长上下文表现优异,但指出仅支持贪婪采样和Qwen3模型,期待扩展到Qwen3.5/3.6及MoE架构。
收藏 0 0
    小陈 manage advert
    2026-05-16 10:10:47
    回复 |  引用
    小陈 manage advert
    2026-05-16 10:11:16
    回复 |  引用
    小陈 manage advert
    2026-05-16 10:11:44
    回复 |  引用
共3条 1

登录 后评论。没有帐号? 注册 一个。

小陈

manage advert
  • 0 回答
  • 0 粉丝
  • 0 关注