2026-04-15 10:16:35
6次阅读
0个评论

Anthropic放了个大瓜:用Claude Opus 4.6搞自动化对齐研究,测「弱模型监督强模型」这个AI安全核心问题,7天就缩小了97%性能差距,人类才做到23%!


老外都炸了:有人说这递归AI搞AI安全太妙,也有人担心现在任务太明确,换模糊问题就不好使,还有人玩梗“学生批老师作业能有啥问题”,都好奇这方法能用到实际训练不。

0

登录 后评论。没有帐号? 注册 一个。

小陈

manage advert
  • 0 回答
  • 0 粉丝
  • 0 关注