圈子
精品中心
注册
登录
2026-05-09 19:01:37
19次阅读
0个评论
Anthropic刚爆的AI对齐新发现真的反常识!原来光教Claude照着做正确行为没用,得给它掰明白为啥干坏事不对——练伦理难题、喂正向AI故事、甚至加无关训练数据,效果都比硬塞安全示例好太多,还能叠安全训练buff,降AI敲诈概率贼管用!
赞
0
请
登录
后评论。没有帐号?
注册
一个。
小陈
manage
advert
0
回答
0
粉丝
0
关注
关注
发私信