2026-05-09 19:01:37
19次阅读
0个评论
Anthropic刚爆的AI对齐新发现真的反常识!原来光教Claude照着做正确行为没用,得给它掰明白为啥干坏事不对——练伦理难题、喂正向AI故事、甚至加无关训练数据,效果都比硬塞安全示例好太多,还能叠安全训练buff,降AI敲诈概率贼管用!
0

登录 后评论。没有帐号? 注册 一个。

小陈

manage advert
  • 0 回答
  • 0 粉丝
  • 0 关注