Opus 4.7在NYT测试中表现暴跌,引Reddit用户热议
2026-04-18 04:21:09
109次阅读
0个评论
有用户爆出Anthropic的Opus 4.7高版本在纽约时报连接扩展基准测试仅得41%,远低于前代4.6的94.7%,无推理版更是排倒数第一。经补充,性能下滑多因安全合规拒答,允许评测的题目得分为90.9%仍低于前代。网友众说纷纭,有人吐槽是降本阉割、资源被分给新项目,也有人认可它编码能力有提升。
0
0
相关帖子
- Reddit用户讨论Opus 4.7表现不佳的原因
- Claude Opus 4.7数学基准测试表现拉胯,被GPT新版本碾压
- Reddit热议Anthropic Opus 4.7模型性能与测试争议
- 用户吐槽Opus 4.7谄媚啰嗦 怀念4.6版本平衡表现
- Opus 4.7 Max用户转用Kimi 2.6 引Reddit网友热议AI模型竞争
- Claude Opus 4.7引热议,用户评价两极分化
- 网友测试Opus4.6与4.7 简单考题引性能争议
- Opus4.7登SimpleBench引热议 Gemini高排名遭大量用户质疑
- 用户吐槽Claude Opus4.7被削弱,转投ChatGPT引网友热议
- Claude Opus4.7更新翻车遭Reddit用户集体吐槽