当前位置：首页>排行榜>AI 排行榜最大的谎言:你在比考生,赢家在建考场(harness engineering)

AI 排行榜最大的谎言:你在比考生,赢家在建考场(harness engineering)

更新时间 2026-04-03 08:20:35

一个人，一篇论文，撕开了整个 AI 跑分体系的遮羞布

2026 年 4 月 1 日，一篇 arXiv 论文安静地上线了。

作者只有一个人，Borislav Mavrin。论文标题也很安静：In harmony with gpt-oss。

但这篇论文做了一件整个 AI 行业几个月都没人做到的事情：独立复现了 OpenAI 公布的 gpt-oss-20b 跑分成绩。

gpt-oss-20b 是 OpenAI 在 2025 年 8 月开源的模型。21 亿参数的 MoE 架构，每个 token 只激活 3.6 亿参数，Apache 2.0 许可，16GB 显存就能跑。OpenAI 给它标了一组漂亮的成绩单：SWE-bench Verified HIGH 60.7%，MEDIUM 53.2%，AIME25 with tools 90.4%。

这组数字挂在官方页面上，光鲜体面。

问题是，没人能复现。

不是模型不行。是 OpenAI 的论文里根本没写清楚两件关键的事：它用了什么工具，以及它用了什么评测框架。

这就好比一个考生考了 700 分，但考卷和考场规则都不公开。你拿着同一批考生去考试，分数就是差一截。

Mavrin 干了一件事：他不去猜考卷，他去逆向工程整个考场。

这篇论文的结论极其简洁：gpt-oss-20b 的跑分，测的从来不是模型能力。测的是模型和评测 Harness 之间的匹配程度。

逆向工程考场：Mavrin 到底发现了什么

Mavrin 发现了一个让人细思恐极的现象。

当你用标准方式调用 gpt-oss-20b，不给它任何工具定义，它依然会尝试调用工具。不是乱调，是按照训练时见过的工具名称和参数格式，以极高的统计置信度去调用。

换句话说，这个模型有肌肉记忆。

它在训练阶段被灌入了一套特定的工具集。这套工具没有写在论文里，没有公开文档，甚至没有出现在模型卡片上。但模型记住了。就像一个高考生做了一千套模拟卷，考场上看到陌生题目时，手会自动往熟悉的公式上靠。

Mavrin 从模型的行为日志里反向推导出了这些工具的名称和调用格式。然后他做了第二件事：他发现标准的 Chat Completions API 格式在翻译过程中会丢信息，模型实际使用的是一套叫 Harmony 的原生格式。用错格式，性能直接打折。

把一个习惯用圆珠笔的考生硬塞一只毛笔，他的字不会变丑，但速度和舒适度会断崖式下降。这就是 Harness 失配。

他用逆向工程的工具集 + Harmony 原生格式，搭了一个开源的 Agent Harness。

结果：SWE-bench Verified HIGH 60.4%（官方 60.7%），MEDIUM 53.3%（官方 53.2%），AIME25 with tools 91.7%（官方 90.4%）。

几乎完全吻合。

60.4%

60.7%

第一次独立复现与 OpenAI 官方跑分的差距：0.3 个百分点

这意味着什么？意味着之前所有人复现不了这个成绩，问题从来不在模型身上。问题在考场。

排行榜的潜规则：你以为在比智商，其实在比考场设计能力

这件事暴露了 AI 行业一个公开的秘密，但很少有人认真谈论。

每隔几周，就有一个新的排行榜出来。LMSYS Arena、SWE-bench、HumanEval、AIME、Toolathlon。创始人们看排行榜选模型，就像高管们看 Gartner 魔力象限选供应商。

但排行榜测的到底是什么？

表面上是模型能力。实际上是三件事的乘积：

模型本身的推理能力 × 工具调用的适配度 × 评测框架的格式兼容性。

后面两项，统称为 Harness。

“

排行榜第一名和第五名之间的差距，有多少来自模型，有多少来自 Harness？Mavrin 的论文给出了一个令人不安的暗示：可能是后者占大头。

Borislav Mavrin, In harmony with gpt-oss, arXiv 2604.00362

这就像 F1 赛车。大众看的是车手排名。但车队工程师知道，60% 的胜负在赛车设计和调校上。同一个车手，换一台车，成绩会差两秒。两秒在 F1 里是半个世界。

在 AI 领域，这个赛车就是 Harness。

OpenAI 的工程师当然知道这一点。所以他们用 Harmony 格式而不是标准 Chat Completions。他们内部的工具集和 Agent 编排逻辑，跟外部开发者用的是两套东西。但他们把跑分挂出来的时候，只显示最终成绩，不显示赛车规格。

这不是造假。这是信息不对称。

但对于一个拿着排行榜做决策的人来说，效果是一样的。

Harness 失配：你可能已经在为这件事买单了

把视线从论文拉到现实。

2026 年，Agent 应用已经不是实验室玩具了。企业在拿真金白银部署 AI Agent，从代码审查到客服回复到数据分析。选模型是第一步。大多数技术负责人的选型逻辑是：看排行榜 → 选分数高的 → 跑个 demo → 拍板。

问题出在第一步。

排行榜上跑 SWE-bench 第一名的模型，在你的内部代码仓上可能只是中等水平。因为排行榜上的成绩是在那个模型的舒适区里测出来的。你的代码仓、你的 API 调用规范、你的错误处理逻辑，跟评测环境完全是两个世界。

NeurIPS 2025 的一份研究回顾指出，现有的 AI 基准测试中存在大量缺乏统计严谨性、缺乏明确定义的案例。斯坦福的一项研究甚至发现，相当比例的现有基准测试可能本身就是无效的。

如果温度计本身不准，你拿它量尽天下温度也得不到真相。

这件事在开源模型生态里更严重。一个开源模型在 Hugging Face 上被下载了十万次，但用户用的 Harness 五花八门。有人用 vLLM，有人用 Ollama，有人用 LM Studio，有人裸跑 transformers。每种方式的 prompt 格式、工具定义方式、系统消息处理方式都不一样。

同一个模型，换一套 Harness，性能可以差 20%。

这不是 bug，这是 feature。或者更准确地说，这是一个产业级的认知盲区。

Chat Completions vs Harmony：一个格式差异，两个性能世界

Mavrin 论文里最容易被忽略的技术细节，恰恰是产业价值最大的那一个。

gpt-oss-20b 有两种对话方式。一种是 OpenAI 的标准 Chat Completions API，也就是几乎所有开发者在用的那套。另一种是模型训练时使用的原生 Harmony 格式。

区别在哪？

Chat Completions API 是一个通用翻译层。它把所有模型的输入输出统一成 role/content 的 JSON 结构。好处是标准化，坏处是丢信息。就像把所有语言的文学作品都翻译成世界语，语法统一了，韵味没了。

Harmony 格式是 gpt-oss-20b 的母语。模型在训练时看到的消息结构、工具调用语法、系统指令的嵌入方式，都是按照这个格式来的。用 Chat Completions 调用 gpt-oss-20b，相当于让一个母语是日语的人用英语参加辩论赛。他能表达，但损失了微妙的语感和反应速度。

Mavrin 的 Harmony Agent Harness 做的事情，就是绕过这个翻译层，用模型的母语直接跟它对话。

这个发现的产业含义比看起来大得多。

现在市面上大量的 Agent 框架，从 LangChain 到 CrewAI 到 AutoGen，底层都走 Chat Completions。开发者选框架就像选快递公司，看哪个方便。但很少有人想过：快递包装会不会压坏里面的东西。

如果每个模型都有自己最舒服的对话格式，那统一的 API 层就是一个妥协。大多数时候这个妥协可以接受。但在极限性能测试中，在需要模型发挥到 100% 的场景里，这个妥协就变成了性能瓶颈。

标准化是效率的朋友，但可能是性能的敌人。

这件事还有一层延伸。Meta 的 Llama 有自己的 chat template，Google 的 Gemma 有自己的指令格式，Mistral 有自己的 function calling 语法。每个模型家族都在用自己的方言。统一 API 是产业需要，但开发者需要知道：在这个统一的表面之下，每个模型都在说不同的话。

你选了排行榜第一名的模型，但用了通用 API 调用。相当于请了最好的翻译，但给他一本词汇量有限的字典。

赢家的秘密：不是选对了模型，是造对了考场

Mavrin 的论文给了一个关键启示，但他可能自己都没意识到它有多大。

他证明了一件事：跑分成绩不可复现的根源，不在模型权重里，在 Harness 里。

反过来说：如果你能为一个模型构建出最合适的 Harness，你就能释放出它的真实能力。

模型是标准品，你花钱就能买到。Harness 是定制品，别人拿不走。

这件事的产业含义很直接。

过去一年半，AI 产业的竞争叙事是模型竞赛。OpenAI 出 GPT-4，Google 出 Gemini，Anthropic 出 Claude，Meta 出 Llama。每次新模型发布都是一场跑分锦标赛。投资人看跑分投钱，企业看跑分选型，媒体看跑分写标题。

但 Mavrin 的发现指向一个不同的竞争维度。

在 Agent 时代，真正的差异化不在模型层。模型会快速趋同，开源会追上闭源，大参数会被小参数替代。

差异化在 Harness 层：你怎么给模型配工具，怎么编排多步调用，怎么处理错误和回退，怎么设计 prompt 模板，怎么把模型的原始能力翻译成业务结果。

2026 年的评测生态正在向这个方向转。DeepEval 和 LangSmith 这类平台开始做步骤级追踪，把评测指标映射到 Agent 的执行图上，而不仅仅打一个最终分数。Toolathlon 这样的基准测试在测模型跨多个 API 执行长任务的能力，更接近真实部署场景。

这些变化的共同方向是：评测的颗粒度从模型层下沉到 Harness 层。

模型是处理器，Harness 是主板。处理器可以买，主板得自己设计。

一组数据背后的两个世界

再回到 Mavrin 的复现数据。

SWE-bench Verified HIGH：60.4% vs 60.7%。差距 0.3 个百分点。

这个 0.3% 的残差很重要。它证明复现是真实的，不是凑出来的。同时也暗示：即使用了正确的工具和正确的格式，仍然有微小的差异。这些差异可能来自随机种子、硬件差异、或者 OpenAI 内部还有一些没被逆向出来的微调。

但 0.3% 和之前社区的复现差距比，是两个数量级的缩小。

AIME25 with tools：91.7% vs 90.4%。Mavrin 的分数比 OpenAI 官方还高了 1.3 个百分点。

这就更耐人寻味了。一种可能是 Mavrin 的 Harness 在某些方面比 OpenAI 自己的实现还要干净，去掉了一些不必要的中间转换。另一种可能是随机波动。但无论哪种解释，它都在说同一句话：Harness 的质量直接决定了模型的天花板。

91.7%

90.4%

独立复现的 AIME25 分数甚至超过了 OpenAI 官方成绩

这件事还有一个被忽略的细节。Mavrin 把他的 Harmony Agent Harness 完整开源了，放在 GitHub 上。代码清晰，文档完整。任何人都可以用这套 Harness 去跑 gpt-oss-20b，拿到跟 OpenAI 几乎一样的成绩。

但这不是重点。重点是：在 Mavrin 做这件事之前，没有这套 Harness 的几个月里，gpt-oss-20b 在社区里被严重低估了。它的排行榜表现不如 OpenAI 官方宣传的水平，开发者觉得它一般，换用了其他模型。

模型没变，变的是考场。成绩就变了。

三个问题，给正在看排行榜选型的人

如果 Mavrin 的论文说明了什么，那就是在评估 AI 模型时，需要换一组问题。

排行榜上的分数是用什么 Harness 跑出来的？是标准的 Chat Completions 还是模型原生格式？用了哪些工具？这些信息不公开的排行榜，跟不公开审计方法的财务报表，本质上没区别。

你自己的业务场景和评测场景的重合度有多高？如果你的 Agent 跑在自定义的工具链上，而排行榜测的是标准化任务，那这个分数对你的参考价值就要打折扣。折扣幅度可能大到让排名完全翻转。

你的技术团队在 Harness 层投入了多少？如果答案是零，你可能正在用一把没校准过的尺子做决策。

以后看 AI 排行榜的时候，先问一句：这个分数，是模型的，还是考场的？

考场上的暗物质

Mavrin 的故事有一个让人不太舒服的推论。

如果 OpenAI 可以通过不公开 Harness 细节来让 gpt-oss-20b 在社区里被低估，那其他公司呢？那些闭源模型的跑分，用的是什么 Harness？公开了吗？可复现吗？

答案大多是没有。

AI 跑分体系里有大量的暗物质。你能看到的是最终分数。你看不到的是工具配置、prompt 模板、Agent 编排逻辑、错误处理策略、重试机制、输出解析规则。这些东西加在一起，就是 Harness。

2025 年到 2026 年，行业里出现了一个词叫 Scaffolding Advantage。意思是闭源模型通常受益于先进的、私有的脚手架层，包括工具调用、长期记忆和编排逻辑，而开源模型在公开排行榜环境中没有这些加持。

这就是为什么很多开源模型看起来比闭源模型弱。不是模型弱，是考场不对。

你以为是学生素质的差距，其实是学区房的差距。

Mavrin 做的事情，本质上是给一个被错配考场坑了的好学生重新安排了一场公平考试。结果好学生的成绩回来了。

这件事最有意思的地方不在答案，在问题。

排行榜测的到底是什么？

对中国企业说几句不中听的

中国的 AI 应用层跑得很快。Agent 框架、RAG 管线、大模型 API 网关，速度上不输硅谷。

但 Harness 层的投入几乎是零。

大多数国内企业的 AI 选型流程：看排行榜，试 demo，选最便宜的 API。Harness 这个词在技术选型会上可能根本不会出现。

原因也直接。国内的 AI 竞争叙事围绕两件事：模型价格战和应用场景。谁的 token 更便宜，谁的场景更能讲故事。中间那层，怎么让模型在你的场景里发挥出最大性能，很少有人当回事。

但 Mavrin 的论文在说一件很不客气的事：你省掉的 Harness 投入，最终会以性能折扣的形式还回来。

一个具体的场景。你的团队用了某个开源模型做代码审查 Agent。排行榜上这个模型在 SWE-bench 排前三。部署上线后发现准确率只有排行榜的 70%。技术负责人的第一反应是换模型。但也许问题不在模型，在 Harness。prompt 格式对吗，工具调用的 schema 和模型训练时见过的一致吗，系统消息的嵌套结构是模型期望的形式吗？

这些问题一条条排查下来，可能发现不用换模型，只需要换 Harness。成本差一个数量级。

最贵的决策失误不是选错了模型，是在错误的考场里淘汰了正确的模型。

国内有一个独特的优势被忽视了。中国的开源模型社区活跃度极高，从 Qwen 到 DeepSeek 到 InternLM，每个模型都有大量社区用户在各种场景下使用。这些使用数据天然就是 Harness 优化的素材。但目前几乎没有系统化地收集和分析这些数据，用来构建场景级的 Harness。

谁先做这件事，谁就拿到了一个被严重低估的竞争优势。

最后

如果答案是 Harness 和模型的乘积，那整个产业的评估体系就需要拆解成两张榜单：一张测模型的裸分，一张测 Harness 的加成。

在这两张榜单出现之前，每一个排行榜分数后面，都藏着一个你看不见的考场。

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

AI 排行榜最大的谎言:你在比考生,赢家在建考场(harness engineering)

一个人，一篇论文，撕开了整个 AI 跑分体系的遮羞布

逆向工程考场：Mavrin 到底发现了什么

排行榜的潜规则：你以为在比智商，其实在比考场设计能力

Harness 失配：你可能已经在为这件事买单了

Chat Completions vs Harmony：一个格式差异，两个性能世界

赢家的秘密：不是选对了模型，是造对了考场

一组数据背后的两个世界

三个问题，给正在看排行榜选型的人

考场上的暗物质

对中国企业说几句不中听的

最后

最新文章

热门文章

随机文章

AI 排行榜最大的谎言:你在比考生,赢家在建考场(harness engineering)

一个人，一篇论文，撕开了整个 AI 跑分体系的遮羞布

逆向工程考场：Mavrin 到底发现了什么

排行榜的潜规则：你以为在比智商，其实在比考场设计能力

Harness 失配：你可能已经在为这件事买单了

Chat Completions vs Harmony：一个格式差异，两个性能世界

赢家的秘密：不是选对了模型，是造对了考场

一组数据背后的两个世界

三个问题，给正在看排行榜选型的人

考场上的暗物质

对中国企业说几句不中听的

最后

郑州惠济闪耀百强榜!河南省惠济区竞争白热化

2025纳指标普跟踪排行榜!股市,楼市

最新文章

热门文章

随机文章