每次新模型发布,各家都会甩出一串跑分。MMLU 拿了多少、HumanEval 超过 GPT-4 多少、Chatbot Arena 排名第几。这些数字看着很唬人,但它们到底代表什么,值不值得信,很多人并不清楚。
AI 圈有个惯例:新模型上线,必配一张跑分对比图。横轴是各种 benchmark 名称,纵轴是分数,自家模型的柱子总是最高那根。配色鲜艳,数字精确到小数点后两位,看起来非常有说服力。但如果你稍微往深处想一想,就会发现这张图能告诉你的东西,其实比你以为的少得多。
AI 评测基准本质上是一个标准化题库。所有模型跑同一套题,分数出来就能横向比较。这个逻辑没问题,就像高考让所有学生做同一份卷子,总比各考各的要公平。目前主流的几个榜单,各自侧重不同的能力维度。
1MMLU:覆盖 57 个学科的选择题,从历史到医学到法律,测的是通用知识广度
2HumanEval:164 道 Python 编程题,考察模型能不能写出可以运行的代码
3GSM8K:从小学到高中难度的数学应用题,测数学推理链条是否完整
4HellaSwag:给出一段场景描述,让模型选最合理的后续,测常识推理
5Chatbot Arena:用户盲测两个模型的回答,不知道谁是谁,投票选哪个更好
这些榜单设计得相当精巧,每一个都在认真测量某个真实能力。MMLU 的题目范围极广,想靠死记硬背拿高分并不容易;HumanEval 要求代码真正能跑,不是看着像代码就行;Chatbot Arena 引入了真实用户的主观判断,绕开了很多客观题的局限。从设计初衷来说,这些基准是有价值的工具。
但工具会被滥用。Benchmark 最大的硬伤叫「数据污染」。模型训练依赖海量互联网文本,而这些榜单的题目和答案,本来就在互联网上公开流传。模型在训练阶段很可能已经「见过」这些题,甚至见过标准答案。这种情况下,它在测试集上拿高分,和一个学生提前拿到考卷背答案,本质上没有区别。
有研究发现,部分模型在 benchmark 测试集上的表现,和它在训练集上的表现高度吻合,这是明显的过拟合信号。换句话说,模型记住了答案,而不是真正学会了推理。更麻烦的是,各家公司不会主动承认自己训过 benchmark 数据,这件事很难从外部证明,也很难从外部证伪。于是它变成了一场心照不宣的军备竞赛:大家都知道可能有问题,但没人愿意先停下来。
>10%
主流 benchmark 中被研究者估算受到数据污染影响的题目比例,部分榜单这一比例可能更高
除了数据污染,还有一个更隐蔽的问题:榜单本身会被反向优化。当一个指标变成目标,它就不再是好指标了——这是管理学里的古德哈特定律,放在 AI 评测里同样成立。当所有人都知道模型要在 MMLU 上拿高分,训练策略自然会朝这个方向倾斜。久而久之,榜单测的不再是真实能力,而是「在这个榜单上拿分的能力」,这是两件不同的事。
更深的问题在于,benchmark 的结构本身就有局限。它测的几乎都是单轮、标准化、有明确正确答案的任务。给一段文字,选最合适的选项;给一道题,写出正确代码;给一个问题,输出正确答案。这类任务干净、可量化、便于自动评分,但它们在真实工作场景里的占比其实相当低。
你真实使用 AI 的场景可能是这样的:连续修改一份报告十几轮,每次都要记住上下文和你的偏好;上传一份结构混乱的 PDF,让它提炼关键信息并做出判断;把一个模糊的业务需求描述清楚,让它转成可以执行的代码;或者在一个长对话里,逐步调整方向,直到得到你真正想要的结果。这些任务涉及多轮理解、模糊指令解析、长上下文记忆、风格适配——benchmark 里几乎没有这些。
「
一把尺子只能量一个维度,不要用它来丈量所有事情。
」
还有一类能力是 benchmark 根本无法量化的:模型在「你从未见过的任务」上的表现。这才是真正考验泛化能力的地方。一个模型可以在所有标准榜单上拿高分,但当你给它一个它没练过的奇怪任务,它可能立刻露馅。反过来,某些在榜单上排名不靠前的模型,在特定垂直领域的实际表现可能出人意料地好。分数高不等于好用,分数低不等于不好用,这个逻辑值得反复强调。
说了这么多 benchmark 的问题,不是要你完全无视这些数字,而是要你知道怎么用它们。榜单是参考,不是裁判。在实际选模型的时候,有几个更务实的思路。
1Chatbot Arena 相对可信:它基于真实用户盲测,污染空间小,主观偏好的成分也更接近真实使用感受
2用自己的业务场景测:拿几个你真实工作中会遇到的问题,让不同模型各答一遍,看哪个更符合你的需求
3重点关注模型在「没练过的任务」上的发挥:这个最能反映泛化能力,也最难造假
4把价格、延迟、API 稳定性纳入考量:这些 benchmark 完全不测,但直接决定你能不能真正用起来
有一个判断方法简单但有效:把你最近遇到的三个真实问题,原封不动丢给你考虑使用的模型,看它怎么处理。不用设计测试用例,不用考虑覆盖率,就是你真实的问题。这三个问题的答案,往往比任何一张跑分对比图都更能告诉你,这个模型对你有没有用。最靠谱的评测是你自己做的那一次。
Benchmark/MMLU/数据污染/ChatbotArena ✦ 小结
AI 榜单反映的是模型在一套固定题目上的表现,不等于它在你真实问题上的表现。数据污染、过度优化、结构性局限,让这些数字的可信度打了不小的折扣。看榜单要带着怀疑,选模型要靠自己测。