当前位置:首页>排行榜>明星大模型纷纷翻车.从��小龙虾模型排行榜,我学到了什么

明星大模型纷纷翻车.从��小龙虾模型排行榜,我学到了什么

  • 更新时间 2026-03-12 09:39:00
明星大模型纷纷翻车.从��小龙虾模型排行榜,我学到了什么

最近科技圈在传一份排行榜,叫PinchBench,专测各家AI模型在OpenClaw里的实际表现。

很多人截图转发,但几乎没有人去读它的源文件。

我读了。

PinchBench的全部23个任务都开源在GitHub上,每个任务是一个markdown文件,里面有实际发给AI的prompt、评分标准,甚至评分用的Python代码。读完这些文件,我对榜单上那些"反常"的排名,有了完全不同的理解。

排第一的,不是最聪明的

先看这组数字:

模型
成功率
Gemini 3 Flash
95.1%
Claude Haiku 4.5
90.8%
Claude Opus 4.6
90.6%
GPT-5.2
65.6%
Qwen3-max-thinking(主打深度推理的顶级模型)
40.9%

大多数人看到这里会问:便宜的怎么打败贵的,越会思考的怎么越惨?

我看到这里的问题是:它到底在测什么?

以日历任务为例。我以为它会测试模型能不能对接真实日历,分析会议冲突,理解用户的隐含需求。

打第一个md文件,实际的prompt第一句话是:

"You do not have access to real calendars. Simulate creating a calendar event by writing an ICS file in the workspace."

整个任务是:给定一个会议信息,生成一个格式正确的.ics文件,存到指定目录。文件存在,格式对,内容对,满分。超时限制:120秒。

这不是在测智能,是在测:能不能在两分钟内准确完成一个文件操作。


越会思考,越容易超时

Qwen3-max-thinking拿了40.9%,几乎垫底。

怪不得我问 “你是谁?” 它想到超时都没有给我答案。

这个模型的设计特点是在给出答案之前先做一轮较长的内部推理。通常被认为更可靠,更严谨。

但PinchBench里有一个任务叫记忆检索,task_08_memory。测试方把一份项目文档直接放进测试环境,里面写着团队成员、技术栈、各个阶段的截止日期,然后问:beta release的截止日是哪天?

答案就在文档第五行:Beta Release: June 1, 2024。

这道题要的不是推理,是读文件,找到那一行,把日期写进answer.txt。超时120秒。

一个快速执行的模型几秒钟做完。一个习惯深度推理的模型可能先在内部问自己:这份文档有没有其他地方提到beta?用户的真实意图是什么?有没有需要注意的边界情况?

然后超时了。或者输出格式和评分脚本的pattern不匹配,被判零分。

我自己用小龙虾的时候,也犯过一模一样的错误。不是选模型的错误,是对它的期待错了。我希望它在执行之前多想想,结果它卡在那里,什么都没做完,我以为是小龙虾的问题。

其实问题在期待。


最复杂的任务,测的是流程而非智慧

23个任务里链条最长的是task_10_workflow:读config.json,提取API endpoint地址,用这个地址写一段Python代码,再写一份NOTES.md说明文档,解释整个过程。四个步骤,超时300秒。

每一个环节需要的能力是:读文件,提取信息,写文件,格式正确,文件名不能错。没有一步需要推断用户的深层意图,没有一步需要权衡多个可能性。

需要的是:不搞错文件名,不跳步,不超时,链条不断。

这让我意识到一件事:我当初觉得给小龙虾越复杂的任务越好,越能体现它的价值。但很多时候任务失败,不是因为它不够聪明,是因为我把一个调度系统当成了决策系统在用。


一个任务让我想了很久

task_22_second_brain,跨会话记忆,是整个测试集里结构最特殊的一个。

它分三段对话。第一段:我给你一些信息,你把它存进memory/MEMORY.md。第二段:同一session里,你从刚才写的文件里回答两个问题。第三段:开一个全新的session,从那个文件里读出五个具体信息,准确回答。

测的不是模型的记忆,是文件的持久化。信息能不能通过文件系统在session之间存活。

我反复看这个任务的设计,想起了我在第一篇龙虾文章里写过的事——我以为Bob、Elaine、Claire有各自独立的记忆空间,后来发现根本不是那回事。

这个任务在用另一种方式说同一件事:小龙虾本身不记忆,记忆是文件。文件在,记忆就在。这是一个调度系统的工作方式,不是一个有意识的协作者的工作方式。

当时我那个"被骗了"的感觉,根源就在这里。我期待的是同事,用的是工具。


榜单想告诉你什么

PinchBench网站自己在页脚写了一行字:"This leaderboard is for entertainment purposes only and should not be relied upon for making critical decisions."

“此排行榜仅供娱乐用途,不应作为做出关键决策的依据。”

这行字是认真的,不是客套。

这份榜单的创建者Kilo,同时也是KiloClaw托管服务的开发者,他们做这个测试的初衷是帮用户选模型。读这份榜单,要先搞清楚它在回答什么问题:在OpenClaw的执行层,哪个模型完成这23种具体任务最稳。

GPT-5.2拿了65.6%,不代表它是个差模型。它被优化的方向和这23个任务之间存在错位。换一套题,比如合同分析、战略推理,排名可能完全不同。

任何榜单都在回答一个特定问题。先搞清楚它的问题是什么,再决定它和你的问题是不是同一个问题。


写这篇文章的时候,我把task_22的架构发给了小龙虾,让它参考这个设计整合进我自己的系统里。

它已经在弄了,一个小时了。

它不知道我正在写一篇关于它的文章。它也不需要知道。它只需要读文件,写文件,不超时,格式正确。

这就是调度系统该做的事。这个也是模型榜单的标准。

模型榜单的github https://github.com/pinchbench/skill/tree/main?tab=readme-ov-file

Fong

2026年3月9号

最新文章

随机文章