Claude Opus 4.7数学基准测试表现拉胯,被GPT新版本碾压
2026-04-27 16:09:31
59次阅读
0个评论
BrokenArxiv是测试模型诚实与批判性思维的假数学命题基准,Claude Opus 4.7在此测试表现极差,远逊于GPT 5.4、5.5且后者成本更低,网友除猜测相关原因外,也有人质疑测试内容是否在GPT训练数据中。
收藏 0 0

登录 后评论。没有帐号? 注册 一个。

小陈

manage advert
  • 0 回答
  • 0 粉丝
  • 0 关注