一个人,一篇论文,撕开了整个 AI 跑分体系的遮羞布
2026 年 4 月 1 日,一篇 arXiv 论文安静地上线了。
作者只有一个人,Borislav Mavrin。论文标题也很安静:In harmony with gpt-oss。
但这篇论文做了一件整个 AI 行业几个月都没人做到的事情:独立复现了 OpenAI 公布的 gpt-oss-20b 跑分成绩。
gpt-oss-20b 是 OpenAI 在 2025 年 8 月开源的模型。21 亿参数的 MoE 架构,每个 token 只激活 3.6 亿参数,Apache 2.0 许可,16GB 显存就能跑。OpenAI 给它标了一组漂亮的成绩单:SWE-bench Verified HIGH 60.7%,MEDIUM 53.2%,AIME25 with tools 90.4%。
这组数字挂在官方页面上,光鲜体面。
问题是,没人能复现。
不是模型不行。是 OpenAI 的论文里根本没写清楚两件关键的事:它用了什么工具,以及它用了什么评测框架。
这就好比一个考生考了 700 分,但考卷和考场规则都不公开。你拿着同一批考生去考试,分数就是差一截。
Mavrin 干了一件事:他不去猜考卷,他去逆向工程整个考场。
这篇论文的结论极其简洁:gpt-oss-20b 的跑分,测的从来不是模型能力。测的是模型和评测 Harness 之间的匹配程度。
逆向工程考场:Mavrin 到底发现了什么
Mavrin 发现了一个让人细思恐极的现象。
当你用标准方式调用 gpt-oss-20b,不给它任何工具定义,它依然会尝试调用工具。不是乱调,是按照训练时见过的工具名称和参数格式,以极高的统计置信度去调用。
换句话说,这个模型有肌肉记忆。
它在训练阶段被灌入了一套特定的工具集。这套工具没有写在论文里,没有公开文档,甚至没有出现在模型卡片上。但模型记住了。就像一个高考生做了一千套模拟卷,考场上看到陌生题目时,手会自动往熟悉的公式上靠。
Mavrin 从模型的行为日志里反向推导出了这些工具的名称和调用格式。然后他做了第二件事:他发现标准的 Chat Completions API 格式在翻译过程中会丢信息,模型实际使用的是一套叫 Harmony 的原生格式。用错格式,性能直接打折。
把一个习惯用圆珠笔的考生硬塞一只毛笔,他的字不会变丑,但速度和舒适度会断崖式下降。这就是 Harness 失配。
他用逆向工程的工具集 + Harmony 原生格式,搭了一个开源的 Agent Harness。
结果:SWE-bench Verified HIGH 60.4%(官方 60.7%),MEDIUM 53.3%(官方 53.2%),AIME25 with tools 91.7%(官方 90.4%)。
几乎完全吻合。
60.4%
vs
60.7%
第一次独立复现与 OpenAI 官方跑分的差距:0.3 个百分点
这意味着什么?意味着之前所有人复现不了这个成绩,问题从来不在模型身上。问题在考场。
排行榜的潜规则:你以为在比智商,其实在比考场设计能力
这件事暴露了 AI 行业一个公开的秘密,但很少有人认真谈论。
每隔几周,就有一个新的排行榜出来。LMSYS Arena、SWE-bench、HumanEval、AIME、Toolathlon。创始人们看排行榜选模型,就像高管们看 Gartner 魔力象限选供应商。
但排行榜测的到底是什么?
表面上是模型能力。实际上是三件事的乘积:
模型本身的推理能力 × 工具调用的适配度 × 评测框架的格式兼容性。
后面两项,统称为 Harness。
“排行榜第一名和第五名之间的差距,有多少来自模型,有多少来自 Harness?Mavrin 的论文给出了一个令人不安的暗示:可能是后者占大头。
Borislav Mavrin, In harmony with gpt-oss, arXiv 2604.00362
这就像 F1 赛车。大众看的是车手排名。但车队工程师知道,60% 的胜负在赛车设计和调校上。同一个车手,换一台车,成绩会差两秒。两秒在 F1 里是半个世界。
在 AI 领域,这个赛车就是 Harness。
OpenAI 的工程师当然知道这一点。所以他们用 Harmony 格式而不是标准 Chat Completions。他们内部的工具集和 Agent 编排逻辑,跟外部开发者用的是两套东西。但他们把跑分挂出来的时候,只显示最终成绩,不显示赛车规格。
这不是造假。这是信息不对称。
但对于一个拿着排行榜做决策的人来说,效果是一样的。
Harness 失配:你可能已经在为这件事买单了
把视线从论文拉到现实。
2026 年,Agent 应用已经不是实验室玩具了。企业在拿真金白银部署 AI Agent,从代码审查到客服回复到数据分析。选模型是第一步。大多数技术负责人的选型逻辑是:看排行榜 → 选分数高的 → 跑个 demo → 拍板。
问题出在第一步。
排行榜上跑 SWE-bench 第一名的模型,在你的内部代码仓上可能只是中等水平。因为排行榜上的成绩是在那个模型的舒适区里测出来的。你的代码仓、你的 API 调用规范、你的错误处理逻辑,跟评测环境完全是两个世界。
NeurIPS 2025 的一份研究回顾指出,现有的 AI 基准测试中存在大量缺乏统计严谨性、缺乏明确定义的案例。斯坦福的一项研究甚至发现,相当比例的现有基准测试可能本身就是无效的。
如果温度计本身不准,你拿它量尽天下温度也得不到真相。
这件事在开源模型生态里更严重。一个开源模型在 Hugging Face 上被下载了十万次,但用户用的 Harness 五花八门。有人用 vLLM,有人用 Ollama,有人用 LM Studio,有人裸跑 transformers。每种方式的 prompt 格式、工具定义方式、系统消息处理方式都不一样。
同一个模型,换一套 Harness,性能可以差 20%。
这不是 bug,这是 feature。或者更准确地说,这是一个产业级的认知盲区。
Chat Completions vs Harmony:一个格式差异,两个性能世界
Mavrin 论文里最容易被忽略的技术细节,恰恰是产业价值最大的那一个。
gpt-oss-20b 有两种对话方式。一种是 OpenAI 的标准 Chat Completions API,也就是几乎所有开发者在用的那套。另一种是模型训练时使用的原生 Harmony 格式。
区别在哪?
Chat Completions API 是一个通用翻译层。它把所有模型的输入输出统一成 role/content 的 JSON 结构。好处是标准化,坏处是丢信息。就像把所有语言的文学作品都翻译成世界语,语法统一了,韵味没了。
Harmony 格式是 gpt-oss-20b 的母语。模型在训练时看到的消息结构、工具调用语法、系统指令的嵌入方式,都是按照这个格式来的。用 Chat Completions 调用 gpt-oss-20b,相当于让一个母语是日语的人用英语参加辩论赛。他能表达,但损失了微妙的语感和反应速度。
Mavrin 的 Harmony Agent Harness 做的事情,就是绕过这个翻译层,用模型的母语直接跟它对话。
这个发现的产业含义比看起来大得多。
现在市面上大量的 Agent 框架,从 LangChain 到 CrewAI 到 AutoGen,底层都走 Chat Completions。开发者选框架就像选快递公司,看哪个方便。但很少有人想过:快递包装会不会压坏里面的东西。
如果每个模型都有自己最舒服的对话格式,那统一的 API 层就是一个妥协。大多数时候这个妥协可以接受。但在极限性能测试中,在需要模型发挥到 100% 的场景里,这个妥协就变成了性能瓶颈。
这件事还有一层延伸。Meta 的 Llama 有自己的 chat template,Google 的 Gemma 有自己的指令格式,Mistral 有自己的 function calling 语法。每个模型家族都在用自己的方言。统一 API 是产业需要,但开发者需要知道:在这个统一的表面之下,每个模型都在说不同的话。
你选了排行榜第一名的模型,但用了通用 API 调用。相当于请了最好的翻译,但给他一本词汇量有限的字典。
赢家的秘密:不是选对了模型,是造对了考场
Mavrin 的论文给了一个关键启示,但他可能自己都没意识到它有多大。
他证明了一件事:跑分成绩不可复现的根源,不在模型权重里,在 Harness 里。
反过来说:如果你能为一个模型构建出最合适的 Harness,你就能释放出它的真实能力。
模型是标准品,你花钱就能买到。Harness 是定制品,别人拿不走。
这件事的产业含义很直接。
过去一年半,AI 产业的竞争叙事是模型竞赛。OpenAI 出 GPT-4,Google 出 Gemini,Anthropic 出 Claude,Meta 出 Llama。每次新模型发布都是一场跑分锦标赛。投资人看跑分投钱,企业看跑分选型,媒体看跑分写标题。
但 Mavrin 的发现指向一个不同的竞争维度。
在 Agent 时代,真正的差异化不在模型层。模型会快速趋同,开源会追上闭源,大参数会被小参数替代。
差异化在 Harness 层:你怎么给模型配工具,怎么编排多步调用,怎么处理错误和回退,怎么设计 prompt 模板,怎么把模型的原始能力翻译成业务结果。
2026 年的评测生态正在向这个方向转。DeepEval 和 LangSmith 这类平台开始做步骤级追踪,把评测指标映射到 Agent 的执行图上,而不仅仅打一个最终分数。Toolathlon 这样的基准测试在测模型跨多个 API 执行长任务的能力,更接近真实部署场景。
这些变化的共同方向是:评测的颗粒度从模型层下沉到 Harness 层。
模型是处理器,Harness 是主板。处理器可以买,主板得自己设计。
一组数据背后的两个世界
再回到 Mavrin 的复现数据。
SWE-bench Verified HIGH:60.4% vs 60.7%。差距 0.3 个百分点。
这个 0.3% 的残差很重要。它证明复现是真实的,不是凑出来的。同时也暗示:即使用了正确的工具和正确的格式,仍然有微小的差异。这些差异可能来自随机种子、硬件差异、或者 OpenAI 内部还有一些没被逆向出来的微调。
但 0.3% 和之前社区的复现差距比,是两个数量级的缩小。
AIME25 with tools:91.7% vs 90.4%。Mavrin 的分数比 OpenAI 官方还高了 1.3 个百分点。
这就更耐人寻味了。一种可能是 Mavrin 的 Harness 在某些方面比 OpenAI 自己的实现还要干净,去掉了一些不必要的中间转换。另一种可能是随机波动。但无论哪种解释,它都在说同一句话:Harness 的质量直接决定了模型的天花板。
91.7%
vs
90.4%
独立复现的 AIME25 分数甚至超过了 OpenAI 官方成绩
这件事还有一个被忽略的细节。Mavrin 把他的 Harmony Agent Harness 完整开源了,放在 GitHub 上。代码清晰,文档完整。任何人都可以用这套 Harness 去跑 gpt-oss-20b,拿到跟 OpenAI 几乎一样的成绩。
但这不是重点。重点是:在 Mavrin 做这件事之前,没有这套 Harness 的几个月里,gpt-oss-20b 在社区里被严重低估了。它的排行榜表现不如 OpenAI 官方宣传的水平,开发者觉得它一般,换用了其他模型。
模型没变,变的是考场。成绩就变了。
三个问题,给正在看排行榜选型的人
如果 Mavrin 的论文说明了什么,那就是在评估 AI 模型时,需要换一组问题。
排行榜上的分数是用什么 Harness 跑出来的?是标准的 Chat Completions 还是模型原生格式?用了哪些工具?这些信息不公开的排行榜,跟不公开审计方法的财务报表,本质上没区别。
你自己的业务场景和评测场景的重合度有多高?如果你的 Agent 跑在自定义的工具链上,而排行榜测的是标准化任务,那这个分数对你的参考价值就要打折扣。折扣幅度可能大到让排名完全翻转。
你的技术团队在 Harness 层投入了多少?如果答案是零,你可能正在用一把没校准过的尺子做决策。
以后看 AI 排行榜的时候,先问一句:这个分数,是模型的,还是考场的?
考场上的暗物质
Mavrin 的故事有一个让人不太舒服的推论。
如果 OpenAI 可以通过不公开 Harness 细节来让 gpt-oss-20b 在社区里被低估,那其他公司呢?那些闭源模型的跑分,用的是什么 Harness?公开了吗?可复现吗?
答案大多是没有。
AI 跑分体系里有大量的暗物质。你能看到的是最终分数。你看不到的是工具配置、prompt 模板、Agent 编排逻辑、错误处理策略、重试机制、输出解析规则。这些东西加在一起,就是 Harness。
2025 年到 2026 年,行业里出现了一个词叫 Scaffolding Advantage。意思是闭源模型通常受益于先进的、私有的脚手架层,包括工具调用、长期记忆和编排逻辑,而开源模型在公开排行榜环境中没有这些加持。
这就是为什么很多开源模型看起来比闭源模型弱。不是模型弱,是考场不对。
Mavrin 做的事情,本质上是给一个被错配考场坑了的好学生重新安排了一场公平考试。结果好学生的成绩回来了。
这件事最有意思的地方不在答案,在问题。
排行榜测的到底是什么?
对中国企业说几句不中听的
中国的 AI 应用层跑得很快。Agent 框架、RAG 管线、大模型 API 网关,速度上不输硅谷。
但 Harness 层的投入几乎是零。
大多数国内企业的 AI 选型流程:看排行榜,试 demo,选最便宜的 API。Harness 这个词在技术选型会上可能根本不会出现。
原因也直接。国内的 AI 竞争叙事围绕两件事:模型价格战和应用场景。谁的 token 更便宜,谁的场景更能讲故事。中间那层,怎么让模型在你的场景里发挥出最大性能,很少有人当回事。
但 Mavrin 的论文在说一件很不客气的事:你省掉的 Harness 投入,最终会以性能折扣的形式还回来。
一个具体的场景。你的团队用了某个开源模型做代码审查 Agent。排行榜上这个模型在 SWE-bench 排前三。部署上线后发现准确率只有排行榜的 70%。技术负责人的第一反应是换模型。但也许问题不在模型,在 Harness。prompt 格式对吗,工具调用的 schema 和模型训练时见过的一致吗,系统消息的嵌套结构是模型期望的形式吗?
这些问题一条条排查下来,可能发现不用换模型,只需要换 Harness。成本差一个数量级。
最贵的决策失误不是选错了模型,是在错误的考场里淘汰了正确的模型。
国内有一个独特的优势被忽视了。中国的开源模型社区活跃度极高,从 Qwen 到 DeepSeek 到 InternLM,每个模型都有大量社区用户在各种场景下使用。这些使用数据天然就是 Harness 优化的素材。但目前几乎没有系统化地收集和分析这些数据,用来构建场景级的 Harness。
谁先做这件事,谁就拿到了一个被严重低估的竞争优势。
最后
如果答案是 Harness 和模型的乘积,那整个产业的评估体系就需要拆解成两张榜单:一张测模型的裸分,一张测 Harness 的加成。
在这两张榜单出现之前,每一个排行榜分数后面,都藏着一个你看不见的考场。