最近科技圈在传一份排行榜,叫PinchBench,专测各家AI模型在OpenClaw里的实际表现。
很多人截图转发,但几乎没有人去读它的源文件。
我读了。
PinchBench的全部23个任务都开源在GitHub上,每个任务是一个markdown文件,里面有实际发给AI的prompt、评分标准,甚至评分用的Python代码。读完这些文件,我对榜单上那些"反常"的排名,有了完全不同的理解。
排第一的,不是最聪明的
先看这组数字:
| |
|---|
| |
| |
| |
| |
| Qwen3-max-thinking(主打深度推理的顶级模型) | |
大多数人看到这里会问:便宜的怎么打败贵的,越会思考的怎么越惨?
我看到这里的问题是:它到底在测什么?
以日历任务为例。我以为它会测试模型能不能对接真实日历,分析会议冲突,理解用户的隐含需求。
打第一个md文件,实际的prompt第一句话是:
"You do not have access to real calendars. Simulate creating a calendar event by writing an ICS file in the workspace."
整个任务是:给定一个会议信息,生成一个格式正确的.ics文件,存到指定目录。文件存在,格式对,内容对,满分。超时限制:120秒。
这不是在测智能,是在测:能不能在两分钟内准确完成一个文件操作。
越会思考,越容易超时
Qwen3-max-thinking拿了40.9%,几乎垫底。
怪不得我问 “你是谁?” 它想到超时都没有给我答案。
这个模型的设计特点是在给出答案之前先做一轮较长的内部推理。通常被认为更可靠,更严谨。
但PinchBench里有一个任务叫记忆检索,task_08_memory。测试方把一份项目文档直接放进测试环境,里面写着团队成员、技术栈、各个阶段的截止日期,然后问:beta release的截止日是哪天?
答案就在文档第五行:Beta Release: June 1, 2024。
这道题要的不是推理,是读文件,找到那一行,把日期写进answer.txt。超时120秒。
一个快速执行的模型几秒钟做完。一个习惯深度推理的模型可能先在内部问自己:这份文档有没有其他地方提到beta?用户的真实意图是什么?有没有需要注意的边界情况?
然后超时了。或者输出格式和评分脚本的pattern不匹配,被判零分。
我自己用小龙虾的时候,也犯过一模一样的错误。不是选模型的错误,是对它的期待错了。我希望它在执行之前多想想,结果它卡在那里,什么都没做完,我以为是小龙虾的问题。
其实问题在期待。
最复杂的任务,测的是流程而非智慧
23个任务里链条最长的是task_10_workflow:读config.json,提取API endpoint地址,用这个地址写一段Python代码,再写一份NOTES.md说明文档,解释整个过程。四个步骤,超时300秒。
每一个环节需要的能力是:读文件,提取信息,写文件,格式正确,文件名不能错。没有一步需要推断用户的深层意图,没有一步需要权衡多个可能性。
需要的是:不搞错文件名,不跳步,不超时,链条不断。
这让我意识到一件事:我当初觉得给小龙虾越复杂的任务越好,越能体现它的价值。但很多时候任务失败,不是因为它不够聪明,是因为我把一个调度系统当成了决策系统在用。
一个任务让我想了很久
task_22_second_brain,跨会话记忆,是整个测试集里结构最特殊的一个。
它分三段对话。第一段:我给你一些信息,你把它存进memory/MEMORY.md。第二段:同一session里,你从刚才写的文件里回答两个问题。第三段:开一个全新的session,从那个文件里读出五个具体信息,准确回答。
测的不是模型的记忆,是文件的持久化。信息能不能通过文件系统在session之间存活。
我反复看这个任务的设计,想起了我在第一篇龙虾文章里写过的事——我以为Bob、Elaine、Claire有各自独立的记忆空间,后来发现根本不是那回事。
这个任务在用另一种方式说同一件事:小龙虾本身不记忆,记忆是文件。文件在,记忆就在。这是一个调度系统的工作方式,不是一个有意识的协作者的工作方式。
当时我那个"被骗了"的感觉,根源就在这里。我期待的是同事,用的是工具。
榜单想告诉你什么
PinchBench网站自己在页脚写了一行字:"This leaderboard is for entertainment purposes only and should not be relied upon for making critical decisions."
“此排行榜仅供娱乐用途,不应作为做出关键决策的依据。”
这行字是认真的,不是客套。
这份榜单的创建者Kilo,同时也是KiloClaw托管服务的开发者,他们做这个测试的初衷是帮用户选模型。读这份榜单,要先搞清楚它在回答什么问题:在OpenClaw的执行层,哪个模型完成这23种具体任务最稳。
GPT-5.2拿了65.6%,不代表它是个差模型。它被优化的方向和这23个任务之间存在错位。换一套题,比如合同分析、战略推理,排名可能完全不同。
任何榜单都在回答一个特定问题。先搞清楚它的问题是什么,再决定它和你的问题是不是同一个问题。
写这篇文章的时候,我把task_22的架构发给了小龙虾,让它参考这个设计整合进我自己的系统里。
它已经在弄了,一个小时了。
它不知道我正在写一篇关于它的文章。它也不需要知道。它只需要读文件,写文件,不超时,格式正确。
这就是调度系统该做的事。这个也是模型榜单的标准。
模型榜单的github https://github.com/pinchbench/skill/tree/main?tab=readme-ov-file
Fong
2026年3月9号