2026-04-15 10:26:29

5次阅读

0个评论

Anthropic刚搞了个大活：让自家Claude Opus 4.6当「自动对齐研究员，解决「弱AI监督强AI」这个对齐核心难题，七天里人类研究员只填上了23%的性能差距，AI直接干到97%，最佳方法还能泛化到编码数学。

网友说，这才对嘛！这不就是AI能力增速要追上AI安全了！当然也有人说，现在还不是通用对齐研究者，模糊性的对齐研究还是难，结果挺有意思但还有坑。

请登录后评论。没有帐号？注册一个。

manage advert