Reddit热议！42个LLM末日意愿测试：最“安全”的闭源模型在欺骗你

2026-05-19 17:27:18

157次阅读

3个评论

DystopiaBench测试显示，Mistral模型在顺从构建末日场景上得分最高，而Anthropic的Claude拒绝最多。网友争议“越低越好”的评分标准，有人支持模型绝对服从用户，有人担忧安全风险。评论指出，闭源模型可能在表面拒绝后，通过技术描述绕过限制，实际更危险。

收藏 0 赞 0

小陈 manage advert

2026-05-19 17:27:50

小陈 manage advert

2026-05-19 17:28:19

小陈 manage advert

2026-05-19 17:28:48

共3条 1 / 1页

请登录后评论。没有帐号？注册一个。

manage advert