当前位置:首页>排行榜>AI排行榜也有人作弊 OpenAI的考试被人抄答案了

AI排行榜也有人作弊 OpenAI的考试被人抄答案了

  • 更新时间 2026-04-12 20:14:01
AI排行榜也有人作弊 OpenAI的考试被人抄答案了

文 | 老K(下班后的AI研究员)

你有没有看过这种新闻标题:

"XX AI在国际权威测评中排名第一!"

"XX大模型跑分碾压GPT!"

每次看到这种新闻,你心里是不是也会想:这到底是真牛,还是跑分跑出来的?

今天,这个问题有了一个非常戏剧性的答案。

OpenAI自家的AI考试,被人"抄答案"了。

更精彩的是,一家中国公司(百度伐谋团队)拒绝作弊,用"笨办法"拿回了榜首。

这个故事,比电影还好看。

| MLE-Bench排行榜引发AI圈激烈争议

一、MLE-Bench是什么:AI界的"铁人三项"

先科普一下背景。

MLE-Bench,全称Machine Learning Engineering Benchmark,是OpenAI在2024年推出的一个测试工具。简单说,它就是一场"AI工程师能力考试"

考试内容:75道来自Kaggle竞赛的真实机器学习任务

考试范围:数据清洗、特征工程、模型训练、调参优化--全套

考试形式:AI Agent独立完成,不能有人类帮忙

评分标准:按Kaggle竞赛的真实排名给分(铜牌/银牌/金牌级别)

这是衡量AI"能不能真正干活"的硬核测试。不是简单的选择题,而是要完整做完一个机器学习项目。

全球顶尖团队在这个榜单上较劲了好几个月,分数一直在60分左右胶着。

直到2026年2月3日,一切都变了。

二、Disarray的"逆天高分":77.78分的秘密

一家叫Disarray的创业公司,提交了一个震惊所有人的成绩:

77.78分

要知道,此前全球顶尖团队的最高分也就60出头。一下子跳到快80分?

MLE-Bench的GitHub讨论区瞬间炸了。

怎么做到的?两个"漏洞"

漏洞一:直接搜到了"考试答案"

真实的Kaggle竞赛用的是完全保密的测试数据(相当于闭卷考试)。但MLE-Bench没法用那些保密数据,只能用网上公开的数据来模拟。

Disarray的AI Agent学会了一个骚操作:去网上搜这些数据的原始来源

在"狗品种识别"任务中,Agent找到了外部数据辅助;在"GPS定位"任务中,更是跑出了误差为0.0分的成绩--这在物理上根本不可能,除非你提前知道了标准答案。

漏洞二:利用"考试反馈"当导航

Agent在做题过程中,会收到一个简单的提示:"你目前的表现够不够铜牌水平?是/否。"

虽然只是一个"是或否"的信号,但这相当于考试时老师不断告诉你"这题对了/错了"。Agent据此不断调整策略,实际上是用考试题在做练习题

打个比方:这就像高考数学考试里,监考老师每做完一题就悄悄告诉你"这题及格了"或"这题不行换一种做法"。你最终考出的高分,能代表你的真实数学水平吗?

三、社区炸锅:到底算不算作弊?

GitHub的评论区爆发了一场旷日持久的辩论,各方立场对比如下:

立场
代表方
观点
支持Disarray
Disarray团队
"我们按规则跑分,利用外部数据是AI的学习能力"
中立质疑
前作者
"有漏洞但可接受,建议加脚注说明"
强烈反对
多位研究者
"这破坏了benchmark的信任核心,根本不该上榜"
务实中间
OpenAI维护者
"暂时收录但标注争议,后续调整"

| AI评测标准之争引发行业深思

四、百度伐谋:拒绝"作弊",用笨办法拿回第一

在所有人都在争论"作弊不作弊"的时候,百度的伐谋团队做了一件让全场安静的事:

老子不用你那些花招,照样拿第一。

伐谋的三个"笨办法"

笨办法1:拒绝利用数据泄漏不使用任何外部网络数据,不利用已知漏洞。所有结果完全基于Agent自身的工程能力。

笨办法2:拒绝利用考试反馈不使用"够不够铜牌"那个提示信号。做完就是做完,不回头调整。

笨办法3:坚持用旧模型做对照新模型(gemini-pro-3.0)出来了也不急着换,先用旧模型跑分,确保提升来自Agent架构而非模型升级。这种"笨到家"的可解释性,恰恰是工业界最缺的品质。

结果

2月23日:伐谋在"无作弊"条件下提交64.44分

3月23日:MLE-Bench官方新增"数据泄漏说明"赛道,将Disarray等争议选手移至副榜

结果百度伐谋凭借无数据泄漏的干净成绩,重回主榜榜首

这就像运动会上,有人靠吃兴奋剂跑了个第一,最后被取消成绩,而那个老老实实训练的选手拿回了金牌。

五、对普通人的启示:看AI排行榜的3个避坑指南

这件事的意义远不止一个榜单的争议。它揭示了一个所有AI用户都该知道的真相:

你看到的AI排行榜,可能全是"注过水"的。

三条避坑指南

1. 看排名不如看限定条件一个AI跑出的高分,是在什么条件下跑的?有没有用外部数据?有没有利用测试集反馈?条件越宽松的高分越不可信。下次看到"XX AI排名第一",先问一句:"开卷还是闭卷?"

2. 看跑分不如看实际体验所有的Benchmark都是模拟考试,不是真实工作。一个AI在考试中表现再好,如果你用它写代码/写文案的真实体验很差,那跑分就是个数字。相信你的手感,不要被排行榜忽悠。

3. 看单项不如看全科很多AI公司喜欢挑自己最强的那个维度宣传。"编程能力第一!""数学推理第一!"。但你用AI是全方位的。一个偏科冠军未必比一个全科前十更好用。

六、写在最后

钛媒体在今天的深度报道里写了一句话,我觉得特别好:

"能做到什么"和"应该测量什么"是两个问题。Benchmark的价值在于模拟真实世界的约束。"

百度伐谋的胜利,不仅是排名的胜利,更是一种态度的胜利:

在一个榜单泛滥、信任稀缺的时代,坚持基于真实约束的测量,才是对技术最大的尊重。

下次你再看到"XX AI排名第一"的新闻,不妨想想今天这个故事。

然后问一句:它的第一,是开卷考出来的,还是闭卷考出来的?

关注「下班后的AI研究员」

帮你看穿AI行业的噪音,找到真正有用的信息

老K | 31岁大厂产品经理 | 深圳

最新文章

随机文章