排行榜第一的AI模型,用起来为什么反而不如第三名?从Llama 4成绩造假到280万场对战数据揭露的系统性作弊,一条1975年的经济学定律解释了AI评测的全部荒诞——以及你以后该怎么选模型。
你一定有过这种经历:看到某个AI模型在排行榜上名列前茅,兴冲冲地拿来用,结果发现它连一个简单的实际问题都搞不定。你以为是自己的打开方式不对,反复调整prompt,依然不行。最后换了个排名低两档的模型,反而效果好得多。
这不是你的问题。是排行榜在骗你。
事情在2025年4月彻底炸开。Meta发布了万众期待的Llama 4系列模型,官方数据显示它在多个benchmark上全面超越GPT-4o和Gemini 2.0 Flash。Llama 4 Maverick甚至冲到了LMArena(前身是Chatbot Arena,AI界最权威的众包评测平台)排行榜的第二名。
但用户拿到手里一测,傻眼了。
有人用它处理法律文件,得到的是空洞的通用建议;有人拿它写代码,发现它的实际表现跟小好几倍的模型差不多。最打脸的数据来自独立测试:在一个专门测编程能力的评估中,Llama 4 Maverick的准确率只有70%,不仅被竞品碾压,甚至比自己的上一代Llama 3.3还差了2个百分点。
几天之内,Llama 4 Maverick从排行榜第2直坠到第32。Scout更惨,直接跌出了前100。
这中间到底发生了什么?
答案来自Meta自己人的嘴里。 2026年1月,图灵奖得主、Meta即将离任的首席AI科学家Yann LeCun在接受《金融时报》采访时,说了一句让整个AI行业震动的话:结果被稍微粉饰了一点。
什么叫"稍微粉饰"?LeCun解释:团队针对不同的benchmark使用了不同版本的模型,挑哪个版本在哪个测试上分最高,就拿哪个版本去报成绩。通常的行业惯例是用同一个模型跑所有benchmark,Meta直接把这个规矩打碎了。
这就好比一个学生参加五门考试,语文派了语文特长班的同学去,数学换了数学竞赛选手——最后把五个人的最好成绩拼成一张成绩单,署一个人的名字。
扎克伯格知道后的反应是:暴怒。LeCun原话是,扎克伯格对所有相关人员彻底失去了信任,随后边缘化了整个生成式AI部门。大批员工离职,还没走的也在准备走。
但事情的真正值得思考之处,不在于Meta一家公司的道德问题。
Llama 4只是冰山一角。 就在它翻车的同一时期,一项覆盖280万场AI模型对战的独立研究——来自Cohere、斯坦福、MIT和Ai2的联合团队——揭开了LMArena平台本身的结构性问题。
研究发现,Meta、OpenAI、Google、Amazon等头部公司被允许在LMArena上私下测试大量模型变体,然后只公布成绩最好的那个。具体到Meta,在Llama 4发布前的三个月里,它们私下测试了整整27个模型变体,最终只公开了1个分数最高的。
这不是个案。研究者估算,仅仅是利用这种私下测试获取更多平台数据,就能让一个模型的成绩提升最高112%。
Cohere的AI研究VP Sara Hooker说得很直白:所有模型评测结果——包括私下测试的版本——都应该被永久公开,不能撤回,不能选择性隐藏。前OpenAI总监Andrej Karpathy的评论更一针见血:各实验室对Arena投入了太多关注,已经在对它过拟合了。
过拟合这个词用得精准。它揭示了一个比"某家公司作弊"深得多的问题。
1975年,英国经济学家Charles Goodhart在一篇关于货币政策的论文中写下了一句后来被反复引用的话:当一个度量指标变成目标,它就不再是一个好的度量指标。
这就是Goodhart定律。它在经济学里被发现,但它的杀伤力远不止于经济学。
把这条定律套到AI排行榜上,你会发现一切问题都能解释得通。
MMLU是AI领域使用最广的综合能力测试,涵盖57个学科。2021年推出时,GPT-3只能答对30%到40%的题目。到2024年底,所有顶级模型都刷到了90%以上。听起来像是巨大的能力飞跃——但其中有多少是真实能力提升,有多少是做过原题?
研究者发现了一种叫任务污染的现象:模型不需要完整地"背答案",只要在训练数据中接触到类似题目的结构和模式,就能大幅提高分数。一项研究测算,这种污染效应可以让GPT-3系列模型在新老benchmark之间产生大约20个百分点的成绩差距。这意味着模型可能并没有真正学会推理,只是学会了认题型。
更令人不安的证据来自2026年1月发表在Nature上的人类最终考试(Humanity's Last Exam,简称HLE)。这是一份由2500道跨100多个学科的专家级题目组成的"终极试卷",设计时专门去掉了现有模型已经能答对的题目。
结果呢?顶级模型的得分骤降。但真正让研究者担忧的不是分数低——而是模型的校准误差超过了70%。什么意思?一个只能答对10%题目的模型,对自己的答案表现出90%的自信。它不仅不知道正确答案,它甚至不知道自己不知道。
你在MMLU上看到的90分学霸,在HLE面前露出了学渣本色——而且还是那种考砸了依然觉得自己答得很好的学渣。
到这里,我想你已经看到了一幅完整的图景。但如果只是告诉你"排行榜不靠谱",这篇文章就跟其他一百篇说法差不多的没有区别了。
我真正想交付的是一个更有用的东西——一个能让你在AI领域之外也能用的判断工具。
Goodhart定律的失效不是随机发生的,它有三个可预测的信号:
| | |
|---|
| 裁判与选手利益绑定 | LMArena依赖大厂的模型提交和流量,很难对金主保持中立 | |
| 刷分成本远低于真实提升成本 | 训练一个针对特定benchmark微调的变体,成本是通用能力提升的百分之一 | |
| 尺子是静态的,选手在进化 | MMLU题库固定,但模型训练数据每轮都在膨胀,污染不可避免 | 任何固定的KPI指标都会被员工找到"合法"的钻空子方式 |
三个信号同时出现,指标失效就不是"可能",而是"必然"。
这个框架可以直接迁移。你在公司里遇到一个KPI体系,问自己这三个问题,就能预判它会不会变形。你在教育体系里看到一场考试改革,检查这三个条件,就知道它能不能真正改变教学。甚至你在社交媒体上看到一个"排行榜""评分体系""Top N推荐",套一下这三个信号,就能判断它的参考价值还剩多少。
那回到最初的问题:我们选AI模型到底该看什么?
答案其实很朴素——看它在你自己的活儿上干得怎么样。
别笑,这话听起来像废话,但它是经过反复验证的唯一靠谱方法。2026年2月的一项行业分析直接建议:如果你在评估模型用于部署,忽略排行榜,在你自己的真实工作流上、用你自己的真实数据测试。
排行榜不是完全没用。它可以帮你做第一轮粗筛——把明显不够格的模型筛掉。但从粗筛到最终选择之间,只有一个东西能帮你:在你的场景里实测。这就像招聘——简历和笔试可以帮你缩小候选人范围,但你最终录谁,得看他在试用期里的真实表现。
Andrej Karpathy提过一个有意思的替代思路:与其看测试跑分,不如看OpenRouter这样的API平台上各模型的实际使用量和用户留存——用户用真金白银和时间投票,比任何benchmark都难造假。
事情在这里变得有意思了。AI排行榜的困境其实跟教育界的困境完全同构。几十年来,应试教育的批评者反复说同一件事:考试分数高不等于能力强。但这个问题至今没有被彻底解决。原因不是道理不对,而是我们对确定性的渴望太强烈了——我们太想要一个简单的数字来告诉我们谁好谁坏。
AI排行榜满足的就是这种渴望。但Goodhart定律告诉我们,这种确定性是幻觉。你越相信一个数字,它就越不值得被相信。
所以下次有人跟你说某个模型"排行榜第一"的时候,你的正确反应不是"太好了用它",而是多问一句:在什么测试上?用的哪个版本?跟我要做的事有关系吗?
这三个问题价值千金。你可以把它们带走,用一辈子。
你在实际使用中被AI排行榜"骗"过吗?排行榜得分最高的模型,到你手上变成了什么表现?说说你的经历,我挺好奇哪些场景下排行榜和体感偏差最大。