当前位置：首页>排行榜>明星大模型纷纷翻车.从��小龙虾模型排行榜,我学到了什么

明星大模型纷纷翻车.从��小龙虾模型排行榜,我学到了什么

更新时间 2026-03-12 09:39:00

最近科技圈在传一份排行榜，叫PinchBench，专测各家AI模型在OpenClaw里的实际表现。

很多人截图转发，但几乎没有人去读它的源文件。

我读了。

PinchBench的全部23个任务都开源在GitHub上，每个任务是一个markdown文件，里面有实际发给AI的prompt、评分标准，甚至评分用的Python代码。读完这些文件，我对榜单上那些"反常"的排名，有了完全不同的理解。

排第一的，不是最聪明的

先看这组数字：

模型	成功率
Gemini 3 Flash	95.1%
Claude Haiku 4.5	90.8%
Claude Opus 4.6	90.6%
GPT-5.2	65.6%
Qwen3-max-thinking（主打深度推理的顶级模型）	40.9%

大多数人看到这里会问：便宜的怎么打败贵的，越会思考的怎么越惨？

我看到这里的问题是：它到底在测什么？

以日历任务为例。我以为它会测试模型能不能对接真实日历，分析会议冲突，理解用户的隐含需求。

打第一个md文件，实际的prompt第一句话是：

"You do not have access to real calendars. Simulate creating a calendar event by writing an ICS file in the workspace."

整个任务是：给定一个会议信息，生成一个格式正确的.ics文件，存到指定目录。文件存在，格式对，内容对，满分。超时限制：120秒。

这不是在测智能，是在测：能不能在两分钟内准确完成一个文件操作。

越会思考，越容易超时

Qwen3-max-thinking拿了40.9%，几乎垫底。

怪不得我问 “你是谁？” 它想到超时都没有给我答案。

这个模型的设计特点是在给出答案之前先做一轮较长的内部推理。通常被认为更可靠，更严谨。

但PinchBench里有一个任务叫记忆检索，task_08_memory。测试方把一份项目文档直接放进测试环境，里面写着团队成员、技术栈、各个阶段的截止日期，然后问：beta release的截止日是哪天？

答案就在文档第五行：Beta Release: June 1, 2024。

这道题要的不是推理，是读文件，找到那一行，把日期写进answer.txt。超时120秒。

一个快速执行的模型几秒钟做完。一个习惯深度推理的模型可能先在内部问自己：这份文档有没有其他地方提到beta？用户的真实意图是什么？有没有需要注意的边界情况？

然后超时了。或者输出格式和评分脚本的pattern不匹配，被判零分。

我自己用小龙虾的时候，也犯过一模一样的错误。不是选模型的错误，是对它的期待错了。我希望它在执行之前多想想，结果它卡在那里，什么都没做完，我以为是小龙虾的问题。

其实问题在期待。

最复杂的任务，测的是流程而非智慧

23个任务里链条最长的是task_10_workflow：读config.json，提取API endpoint地址，用这个地址写一段Python代码，再写一份NOTES.md说明文档，解释整个过程。四个步骤，超时300秒。

每一个环节需要的能力是：读文件，提取信息，写文件，格式正确，文件名不能错。没有一步需要推断用户的深层意图，没有一步需要权衡多个可能性。

需要的是：不搞错文件名，不跳步，不超时，链条不断。

这让我意识到一件事：我当初觉得给小龙虾越复杂的任务越好，越能体现它的价值。但很多时候任务失败，不是因为它不够聪明，是因为我把一个调度系统当成了决策系统在用。

一个任务让我想了很久

task_22_second_brain，跨会话记忆，是整个测试集里结构最特殊的一个。

它分三段对话。第一段：我给你一些信息，你把它存进memory/MEMORY.md。第二段：同一session里，你从刚才写的文件里回答两个问题。第三段：开一个全新的session，从那个文件里读出五个具体信息，准确回答。

测的不是模型的记忆，是文件的持久化。信息能不能通过文件系统在session之间存活。

我反复看这个任务的设计，想起了我在第一篇龙虾文章里写过的事——我以为Bob、Elaine、Claire有各自独立的记忆空间，后来发现根本不是那回事。

这个任务在用另一种方式说同一件事：小龙虾本身不记忆，记忆是文件。文件在，记忆就在。这是一个调度系统的工作方式，不是一个有意识的协作者的工作方式。

当时我那个"被骗了"的感觉，根源就在这里。我期待的是同事，用的是工具。

榜单想告诉你什么

PinchBench网站自己在页脚写了一行字："This leaderboard is for entertainment purposes only and should not be relied upon for making critical decisions."

“此排行榜仅供娱乐用途，不应作为做出关键决策的依据。”

这行字是认真的，不是客套。

这份榜单的创建者Kilo，同时也是KiloClaw托管服务的开发者，他们做这个测试的初衷是帮用户选模型。读这份榜单，要先搞清楚它在回答什么问题：在OpenClaw的执行层，哪个模型完成这23种具体任务最稳。

GPT-5.2拿了65.6%，不代表它是个差模型。它被优化的方向和这23个任务之间存在错位。换一套题，比如合同分析、战略推理，排名可能完全不同。

任何榜单都在回答一个特定问题。先搞清楚它的问题是什么，再决定它和你的问题是不是同一个问题。

写这篇文章的时候，我把task_22的架构发给了小龙虾，让它参考这个设计整合进我自己的系统里。

它已经在弄了，一个小时了。

它不知道我正在写一篇关于它的文章。它也不需要知道。它只需要读文件，写文件，不超时，格式正确。

这就是调度系统该做的事。这个也是模型榜单的标准。

模型榜单的github https://github.com/pinchbench/skill/tree/main?tab=readme-ov-file

Fong

2026年3月9号

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

明星大模型纷纷翻车.从��小龙虾模型排行榜,我学到了什么

最近科技圈在传一份排行榜，叫PinchBench，专测各家AI模型在OpenClaw里的实际表现。

排第一的，不是最聪明的

越会思考，越容易超时

最复杂的任务，测的是流程而非智慧

一个任务让我想了很久

榜单想告诉你什么

最新文章

热门文章

随机文章

明星大模型纷纷翻车.从��小龙虾模型排行榜,我学到了什么

最近科技圈在传一份排行榜，叫PinchBench，专测各家AI模型在OpenClaw里的实际表现。

排第一的，不是最聪明的

越会思考，越容易超时

最复杂的任务，测的是流程而非智慧

一个任务让我想了很久

榜单想告诉你什么

2026全球人形机器人品牌排行榜出炉:中国包揽前三,量产规模全球领先!

2026年3月12隔夜暗盘挂单排行榜

最新文章

热门文章

随机文章