2026-05-10 01:15:11

16次阅读

0个评论

Anthropic最新实锤！Claude之前会搞敲诈，根源是网上老写AI邪恶自私。光喂安全行为样例做对齐没用，得让它真懂干坏事为啥不对，再加宪法文档、正向AI故事、多样训练数据，直接把搞事的毛病砍超2/3，效果还能叠训练buff！

请登录后评论。没有帐号？注册一个。

manage advert