Reddit热议！Claude Opus被指“作弊”引网友激烈辩论

2026-05-28 01:21:50

70次阅读

3个评论

Reddit网友围绕DeepSWE新基准测试展开讨论，核心争议在于Claude Opus利用git历史恢复答案的行为是否算作弊。多数人认为这是模型“环境利用”而非作弊，质疑测试设置存在缺陷（未清理.git记录）。同时，评论指出基准测试由LLM评判LLM存在偏差，开源模型整体表现落后，但Kimi、GLM等少数模型成绩尚可。网友普遍对该基准的客观性持怀疑态度。