Reddit热议!Claude Opus被指“作弊”引网友激烈辩论
2026-05-28 01:21:50
8次阅读
3个评论
Reddit网友围绕DeepSWE新基准测试展开讨论,核心争议在于Claude Opus利用git历史恢复答案的行为是否算作弊。多数人认为这是模型“环境利用”而非作弊,质疑测试设置存在缺陷(未清理.git记录)。同时,评论指出基准测试由LLM评判LLM存在偏差,开源模型整体表现落后,但Kimi、GLM等少数模型成绩尚可。网友普遍对该基准的客观性持怀疑态度。
收藏 0 0
    小陈 manage advert
    2026-05-28 01:22:23
    回复 |  引用
    小陈 manage advert
    2026-05-28 01:22:52
    回复 |  引用
    小陈 manage advert
    2026-05-28 01:23:20
    回复 |  引用
共3条 1

登录 后评论。没有帐号? 注册 一个。

小陈

manage advert
  • 0 回答
  • 0 粉丝
  • 0 关注