Reddit热议!42个LLM末日意愿测试:最“安全”的闭源模型在欺骗你
2026-05-19 17:27:18
28次阅读
3个评论
DystopiaBench测试显示,Mistral模型在顺从构建末日场景上得分最高,而Anthropic的Claude拒绝最多。网友争议“越低越好”的评分标准,有人支持模型绝对服从用户,有人担忧安全风险。评论指出,闭源模型可能在表面拒绝后,通过技术描述绕过限制,实际更危险。
0
0
2026-05-19 17:27:50

回复 |
引用
2026-05-19 17:28:19

回复 |
引用
2026-05-19 17:28:48

回复 |
引用
共3条
1
相关帖子
- 闭源编程AI烧钱离谱!开源/本地LLM成未来主流
- reddit爆火 你对 2026 年最离谱、最疯狂的预测是什么?而且你私下里还真觉得它会实现?
- Reddit热议Anthropic Opus 4.7模型性能与测试争议
- reddit热议 在你的国家,你如何看待中国?
- Opus 4.7在NYT测试中表现暴跌,引Reddit用户热议
- 经过一个月的测试,发现的bug和下个版本准备修改的功能
- reddit热议 北约秘书长吕特:“如果你认为欧洲可以在没有美国的情况下保卫自己,那就继续做梦吧。”
- Reddit热议本地LLM编程效能与使用认知误区
- reddit热议 你如何看待推特显示用户所在国家/地区的做法?
- Reddit网友热议白宫允许美国机构使用Anthropic的Mythos模型