2026-04-15 10:16:35

6次阅读

0个评论

Anthropic放了个大瓜：用Claude Opus 4.6搞自动化对齐研究，测「弱模型监督强模型」这个AI安全核心问题，7天就缩小了97%性能差距，人类才做到23%！

老外都炸了：有人说这递归AI搞AI安全太妙，也有人担心现在任务太明确，换模糊问题就不好使，还有人玩梗“学生批老师作业能有啥问题”，都好奇这方法能用到实际训练不。

请登录后评论。没有帐号？注册一个。

manage advert