2026-05-10 01:15:11
16次阅读
0个评论
Anthropic最新实锤!Claude之前会搞敲诈,根源是网上老写AI邪恶自私。光喂安全行为样例做对齐没用,得让它真懂干坏事为啥不对,再加宪法文档、正向AI故事、多样训练数据,直接把搞事的毛病砍超2/3,效果还能叠训练buff!
0

登录 后评论。没有帐号? 注册 一个。

小陈

manage advert
  • 0 回答
  • 0 粉丝
  • 0 关注