当前位置：首页>排行榜>AI排行榜也有人作弊 OpenAI的考试被人抄答案了

AI排行榜也有人作弊 OpenAI的考试被人抄答案了

更新时间 2026-04-12 20:14:01

文 | 老K（下班后的AI研究员）

你有没有看过这种新闻标题：

"XX AI在国际权威测评中排名第一！"

"XX大模型跑分碾压GPT！"

每次看到这种新闻，你心里是不是也会想：这到底是真牛，还是跑分跑出来的？

今天，这个问题有了一个非常戏剧性的答案。

OpenAI自家的AI考试，被人"抄答案"了。

更精彩的是，一家中国公司（百度伐谋团队）拒绝作弊，用"笨办法"拿回了榜首。

这个故事，比电影还好看。

| MLE-Bench排行榜引发AI圈激烈争议

一、MLE-Bench是什么：AI界的"铁人三项"

先科普一下背景。

MLE-Bench，全称Machine Learning Engineering Benchmark，是OpenAI在2024年推出的一个测试工具。简单说，它就是一场"AI工程师能力考试"。

考试内容：75道来自Kaggle竞赛的真实机器学习任务

考试范围：数据清洗、特征工程、模型训练、调参优化--全套

考试形式：AI Agent独立完成，不能有人类帮忙

评分标准：按Kaggle竞赛的真实排名给分（铜牌/银牌/金牌级别）

这是衡量AI"能不能真正干活"的硬核测试。不是简单的选择题，而是要完整做完一个机器学习项目。

全球顶尖团队在这个榜单上较劲了好几个月，分数一直在60分左右胶着。

直到2026年2月3日，一切都变了。

二、Disarray的"逆天高分"：77.78分的秘密

一家叫Disarray的创业公司，提交了一个震惊所有人的成绩：

77.78分

要知道，此前全球顶尖团队的最高分也就60出头。一下子跳到快80分？

MLE-Bench的GitHub讨论区瞬间炸了。

怎么做到的？两个"漏洞"

漏洞一：直接搜到了"考试答案"

真实的Kaggle竞赛用的是完全保密的测试数据（相当于闭卷考试）。但MLE-Bench没法用那些保密数据，只能用网上公开的数据来模拟。

Disarray的AI Agent学会了一个骚操作：去网上搜这些数据的原始来源。

在"狗品种识别"任务中，Agent找到了外部数据辅助；在"GPS定位"任务中，更是跑出了误差为0.0分的成绩--这在物理上根本不可能，除非你提前知道了标准答案。

漏洞二：利用"考试反馈"当导航

Agent在做题过程中，会收到一个简单的提示："你目前的表现够不够铜牌水平？是/否。"

虽然只是一个"是或否"的信号，但这相当于考试时老师不断告诉你"这题对了/错了"。Agent据此不断调整策略，实际上是用考试题在做练习题。

打个比方：这就像高考数学考试里，监考老师每做完一题就悄悄告诉你"这题及格了"或"这题不行换一种做法"。你最终考出的高分，能代表你的真实数学水平吗？

三、社区炸锅：到底算不算作弊？

GitHub的评论区爆发了一场旷日持久的辩论，各方立场对比如下：

立场	代表方	观点
支持Disarray	Disarray团队	"我们按规则跑分，利用外部数据是AI的学习能力"
中立质疑	前作者	"有漏洞但可接受，建议加脚注说明"
强烈反对	多位研究者	"这破坏了benchmark的信任核心，根本不该上榜"
务实中间	OpenAI维护者	"暂时收录但标注争议，后续调整"

| AI评测标准之争引发行业深思

四、百度伐谋：拒绝"作弊"，用笨办法拿回第一

在所有人都在争论"作弊不作弊"的时候，百度的伐谋团队做了一件让全场安静的事：

老子不用你那些花招，照样拿第一。

伐谋的三个"笨办法"

笨办法1：拒绝利用数据泄漏不使用任何外部网络数据，不利用已知漏洞。所有结果完全基于Agent自身的工程能力。

笨办法2：拒绝利用考试反馈不使用"够不够铜牌"那个提示信号。做完就是做完，不回头调整。

笨办法3：坚持用旧模型做对照新模型（gemini-pro-3.0）出来了也不急着换，先用旧模型跑分，确保提升来自Agent架构而非模型升级。这种"笨到家"的可解释性，恰恰是工业界最缺的品质。

结果

2月23日：伐谋在"无作弊"条件下提交64.44分

3月23日：MLE-Bench官方新增"数据泄漏说明"赛道，将Disarray等争议选手移至副榜

结果：百度伐谋凭借无数据泄漏的干净成绩，重回主榜榜首

这就像运动会上，有人靠吃兴奋剂跑了个第一，最后被取消成绩，而那个老老实实训练的选手拿回了金牌。

五、对普通人的启示：看AI排行榜的3个避坑指南

这件事的意义远不止一个榜单的争议。它揭示了一个所有AI用户都该知道的真相：

你看到的AI排行榜，可能全是"注过水"的。

三条避坑指南

1. 看排名不如看限定条件一个AI跑出的高分，是在什么条件下跑的？有没有用外部数据？有没有利用测试集反馈？条件越宽松的高分越不可信。下次看到"XX AI排名第一"，先问一句："开卷还是闭卷？"

2. 看跑分不如看实际体验所有的Benchmark都是模拟考试，不是真实工作。一个AI在考试中表现再好，如果你用它写代码/写文案的真实体验很差，那跑分就是个数字。相信你的手感，不要被排行榜忽悠。

3. 看单项不如看全科很多AI公司喜欢挑自己最强的那个维度宣传。"编程能力第一！""数学推理第一！"。但你用AI是全方位的。一个偏科冠军未必比一个全科前十更好用。

六、写在最后

钛媒体在今天的深度报道里写了一句话，我觉得特别好：

"能做到什么"和"应该测量什么"是两个问题。Benchmark的价值在于模拟真实世界的约束。"

百度伐谋的胜利，不仅是排名的胜利，更是一种态度的胜利：

在一个榜单泛滥、信任稀缺的时代，坚持基于真实约束的测量，才是对技术最大的尊重。

下次你再看到"XX AI排名第一"的新闻，不妨想想今天这个故事。

然后问一句：它的第一，是开卷考出来的，还是闭卷考出来的？

关注「下班后的AI研究员」

帮你看穿AI行业的噪音，找到真正有用的信息

老K | 31岁大厂产品经理 | 深圳

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

AI排行榜也有人作弊 OpenAI的考试被人抄答案了

一、MLE-Bench是什么：AI界的"铁人三项"

二、Disarray的"逆天高分"：77.78分的秘密

怎么做到的？两个"漏洞"

三、社区炸锅：到底算不算作弊？

四、百度伐谋：拒绝"作弊"，用笨办法拿回第一

伐谋的三个"笨办法"

结果

五、对普通人的启示：看AI排行榜的3个避坑指南

三条避坑指南

六、写在最后

最新文章

热门文章

随机文章

AI排行榜也有人作弊 OpenAI的考试被人抄答案了

一、MLE-Bench是什么：AI界的"铁人三项"

二、Disarray的"逆天高分"：77.78分的秘密

怎么做到的？两个"漏洞"

三、社区炸锅：到底算不算作弊？

四、百度伐谋：拒绝"作弊"，用笨办法拿回第一

伐谋的三个"笨办法"

结果

五、对普通人的启示：看AI排行榜的3个避坑指南

三条避坑指南

六、写在最后

小孩子们可以玩什么手机游戏呢

二游排行榜 | 4月11日二次元手游流水排名

最新文章

热门文章

随机文章