Claude Opus 4.7数学基准测试表现拉胯，被GPT新版本碾压 - 求真求是网

Claude Opus 4.7数学基准测试表现拉胯，被GPT新版本碾压

2026-04-27 16:09:31

111次阅读

0个评论

BrokenArxiv是测试模型诚实与批判性思维的假数学命题基准，Claude Opus 4.7在此测试表现极差，远逊于GPT 5.4、5.5且后者成本更低，网友除猜测相关原因外，也有人质疑测试内容是否在GPT训练数据中。

收藏 0 赞 0

请登录后评论。没有帐号？注册一个。

manage advert

0 回答
0 粉丝
0 关注

相关帖子