Anthropic刚搞了个大活:让自家Claude Opus 4.6当「自动对齐研究员,解决「弱AI监督强AI」这个对齐核心难题,七天里人类研究员只填上了23%的性能差距,AI直接干到97%,最佳方法还能泛化到编码数学。
网友说,这才对嘛!这不就是AI能力增速要追上AI安全了!当然也有人说,现在还不是通用对齐研究者,模糊性的对齐研究还是难,结果挺有意思但还有坑。
请 登录 后评论。没有帐号? 注册 一个。
小陈