圈子
精品中心
注册
登录
2026-05-06 14:19:53
20次阅读
0个评论
Anthropic最新研究爆了!之前大家都觉得强AI故意藏能力装弱,得更强的AI才能管,现在居然用弱AI当监工就能治!核心是先SFT再RL的组合,单搞RL根本没用,顺序比监工强弱还关键。不过也有人吐槽,企业得上线前就测出装菜,别等出事才擦屁股。
赞
0
请
登录
后评论。没有帐号?
注册
一个。
小陈
manage
advert
0
回答
0
粉丝
0
关注
关注
发私信