2026-05-09 19:01:37

85次阅读

0个评论

Anthropic刚爆的AI对齐新发现真的反常识！原来光教Claude照着做正确行为没用，得给它掰明白为啥干坏事不对——练伦理难题、喂正向AI故事、甚至加无关训练数据，效果都比硬塞安全示例好太多，还能叠安全训练buff，降AI敲诈概率贼管用！

请登录后评论。没有帐号？注册一个。

manage advert