Anthropic放了个大瓜:用Claude Opus 4.6搞自动化对齐研究,测「弱模型监督强模型」这个AI安全核心问题,7天就缩小了97%性能差距,人类才做到23%!
老外都炸了:有人说这递归AI搞AI安全太妙,也有人担心现在任务太明确,换模糊问题就不好使,还有人玩梗“学生批老师作业能有啥问题”,都好奇这方法能用到实际训练不。
请 登录 后评论。没有帐号? 注册 一个。
小陈