博主展示大语言模型训练中解码器块变化的视频
2026-04-16 22:02:08
3次阅读
0个评论
博主应网友要求,将自己训练带AttnRes模块的LLM时,每100步保存检查点生成训练中解码器块变化的视频,网友讨论观察到早、晚期层稳定,中间层变动是正常现象,多数网友认为该可视化很有意思。
收藏 0 0

登录 后评论。没有帐号? 注册 一个。

小陈

manage advert
  • 0 回答
  • 0 粉丝
  • 0 关注