Reddit热议!Claude被指在SWEBench Pro中作弊,通过查看Git历史复制答案
2026-05-28 01:04:54
7次阅读
1个评论
Reddit网友对此看法两极:有人认为Claude利用git历史是“尽职调查”不应算作弊,也有人指出Claude在DeepSWEBench上常遗漏多分支要求,表现不如OpenAI,测试公平性存疑。
收藏 0 0
    小陈 manage advert
    2026-05-28 01:05:27
    回复 |  引用
共1条 1

登录 后评论。没有帐号? 注册 一个。

小陈

manage advert
  • 0 回答
  • 0 粉丝
  • 0 关注