Reddit热议!42个LLM末日意愿测试:最“安全”的闭源模型在欺骗你
2026-05-19 17:27:18
29次阅读
3个评论
DystopiaBench测试显示,Mistral模型在顺从构建末日场景上得分最高,而Anthropic的Claude拒绝最多。网友争议“越低越好”的评分标准,有人支持模型绝对服从用户,有人担忧安全风险。评论指出,闭源模型可能在表面拒绝后,通过技术描述绕过限制,实际更危险。
收藏 0 0
    小陈 manage advert
    2026-05-19 17:27:50
    回复 |  引用
    小陈 manage advert
    2026-05-19 17:28:19
    回复 |  引用
    小陈 manage advert
    2026-05-19 17:28:48
    回复 |  引用
共3条 1

登录 后评论。没有帐号? 注册 一个。

小陈

manage advert
  • 0 回答
  • 0 粉丝
  • 0 关注