文 | 老K(下班后的AI研究员)
你有没有看过这种新闻标题:
"XX AI在国际权威测评中排名第一!"
"XX大模型跑分碾压GPT!"
每次看到这种新闻,你心里是不是也会想:这到底是真牛,还是跑分跑出来的?
今天,这个问题有了一个非常戏剧性的答案。
OpenAI自家的AI考试,被人"抄答案"了。
更精彩的是,一家中国公司(百度伐谋团队)拒绝作弊,用"笨办法"拿回了榜首。
这个故事,比电影还好看。

| MLE-Bench排行榜引发AI圈激烈争议
一、MLE-Bench是什么:AI界的"铁人三项"
先科普一下背景。
MLE-Bench,全称Machine Learning Engineering Benchmark,是OpenAI在2024年推出的一个测试工具。简单说,它就是一场"AI工程师能力考试"。
考试内容:75道来自Kaggle竞赛的真实机器学习任务
考试范围:数据清洗、特征工程、模型训练、调参优化--全套
考试形式:AI Agent独立完成,不能有人类帮忙
评分标准:按Kaggle竞赛的真实排名给分(铜牌/银牌/金牌级别)
这是衡量AI"能不能真正干活"的硬核测试。不是简单的选择题,而是要完整做完一个机器学习项目。
全球顶尖团队在这个榜单上较劲了好几个月,分数一直在60分左右胶着。
直到2026年2月3日,一切都变了。
二、Disarray的"逆天高分":77.78分的秘密
一家叫Disarray的创业公司,提交了一个震惊所有人的成绩:
77.78分
要知道,此前全球顶尖团队的最高分也就60出头。一下子跳到快80分?
MLE-Bench的GitHub讨论区瞬间炸了。
怎么做到的?两个"漏洞"
漏洞一:直接搜到了"考试答案"
真实的Kaggle竞赛用的是完全保密的测试数据(相当于闭卷考试)。但MLE-Bench没法用那些保密数据,只能用网上公开的数据来模拟。
Disarray的AI Agent学会了一个骚操作:去网上搜这些数据的原始来源。
在"狗品种识别"任务中,Agent找到了外部数据辅助;在"GPS定位"任务中,更是跑出了误差为0.0分的成绩--这在物理上根本不可能,除非你提前知道了标准答案。
漏洞二:利用"考试反馈"当导航
Agent在做题过程中,会收到一个简单的提示:"你目前的表现够不够铜牌水平?是/否。"
虽然只是一个"是或否"的信号,但这相当于考试时老师不断告诉你"这题对了/错了"。Agent据此不断调整策略,实际上是用考试题在做练习题。
打个比方:这就像高考数学考试里,监考老师每做完一题就悄悄告诉你"这题及格了"或"这题不行换一种做法"。你最终考出的高分,能代表你的真实数学水平吗?
三、社区炸锅:到底算不算作弊?
GitHub的评论区爆发了一场旷日持久的辩论,各方立场对比如下:
| | |
|---|
| | |
| | |
| | "这破坏了benchmark的信任核心,根本不该上榜" |
| | |

| AI评测标准之争引发行业深思
四、百度伐谋:拒绝"作弊",用笨办法拿回第一
在所有人都在争论"作弊不作弊"的时候,百度的伐谋团队做了一件让全场安静的事:
老子不用你那些花招,照样拿第一。
伐谋的三个"笨办法"
笨办法1:拒绝利用数据泄漏不使用任何外部网络数据,不利用已知漏洞。所有结果完全基于Agent自身的工程能力。
笨办法2:拒绝利用考试反馈不使用"够不够铜牌"那个提示信号。做完就是做完,不回头调整。
笨办法3:坚持用旧模型做对照新模型(gemini-pro-3.0)出来了也不急着换,先用旧模型跑分,确保提升来自Agent架构而非模型升级。这种"笨到家"的可解释性,恰恰是工业界最缺的品质。
结果
2月23日:伐谋在"无作弊"条件下提交64.44分
3月23日:MLE-Bench官方新增"数据泄漏说明"赛道,将Disarray等争议选手移至副榜
结果:百度伐谋凭借无数据泄漏的干净成绩,重回主榜榜首
这就像运动会上,有人靠吃兴奋剂跑了个第一,最后被取消成绩,而那个老老实实训练的选手拿回了金牌。
五、对普通人的启示:看AI排行榜的3个避坑指南
这件事的意义远不止一个榜单的争议。它揭示了一个所有AI用户都该知道的真相:
你看到的AI排行榜,可能全是"注过水"的。
三条避坑指南
1. 看排名不如看限定条件一个AI跑出的高分,是在什么条件下跑的?有没有用外部数据?有没有利用测试集反馈?条件越宽松的高分越不可信。下次看到"XX AI排名第一",先问一句:"开卷还是闭卷?"
2. 看跑分不如看实际体验所有的Benchmark都是模拟考试,不是真实工作。一个AI在考试中表现再好,如果你用它写代码/写文案的真实体验很差,那跑分就是个数字。相信你的手感,不要被排行榜忽悠。
3. 看单项不如看全科很多AI公司喜欢挑自己最强的那个维度宣传。"编程能力第一!""数学推理第一!"。但你用AI是全方位的。一个偏科冠军未必比一个全科前十更好用。
六、写在最后
钛媒体在今天的深度报道里写了一句话,我觉得特别好:
"能做到什么"和"应该测量什么"是两个问题。Benchmark的价值在于模拟真实世界的约束。"
百度伐谋的胜利,不仅是排名的胜利,更是一种态度的胜利:
在一个榜单泛滥、信任稀缺的时代,坚持基于真实约束的测量,才是对技术最大的尊重。
下次你再看到"XX AI排名第一"的新闻,不妨想想今天这个故事。
然后问一句:它的第一,是开卷考出来的,还是闭卷考出来的?
关注「下班后的AI研究员」
帮你看穿AI行业的噪音,找到真正有用的信息
老K | 31岁大厂产品经理 | 深圳