Opus 4.7在NYT测试中表现暴跌,引Reddit用户热议
2026-04-18 04:21:09
9次阅读
0个评论
有用户爆出Anthropic的Opus 4.7高版本在纽约时报连接扩展基准测试仅得41%,远低于前代4.6的94.7%,无推理版更是排倒数第一。经补充,性能下滑多因安全合规拒答,允许评测的题目得分为90.9%仍低于前代。网友众说纷纭,有人吐槽是降本阉割、资源被分给新项目,也有人认可它编码能力有提升。
0
0
相关帖子