
龙虾已经发展到有了专门针对OpenClaw的基准测试。
OpenClaw 创始人 Peter Steinberger 分享这个龙虾基准测试排行榜。
PinchBench 一口气测了 32 款主流大模型,从成功率、速度、费用三个维度,看看哪个模型最适合养龙虾。
PinchBench 官网🔗 https://pinchbench.com/

前五名里咱国产大模型占据两位,MiniMax和Kimi和分列第二和第三。
Gemini 3 Flash 成功率最高,Flash 系列一直是 Gemini 的「轻量版」,主打快和便宜,没想到这次居然把自家 Pro 老大哥和 Claude、GPT 系列全超了。
从干活的速度来看,Minimax赢了。虽然只比第二名 Gemini 2.0 Flash 只快了 0.09 秒。
但第一名就是第一名。


GPT-5 Nano 以 0.03 美元的成本成为全场最便宜的选择,成功率 85.8%。虽然准确率不算顶尖,但这个价格……还要什么自行车?适合预算有限、对错误容忍度高的场景。
而Claude Opus 4.6 完成测试要花 5.89 美元,是 GPT-5 Nano 的将近 200 倍。
从性价比的角度考虑,绝不是上佳选择。
但是话又说回来,这个测试集推出的时间还很短,且题目也不够多,结果不一定准确。
你实际用起来哪个模型最适合你你就继续用来了, 不用过于在意这个榜单结果。
如果你还没有“养虾”,我们九章智算云提供了云上的一键开通服务,默认调用的是Kimi2.5。
来九章智算云养虾戳:
https://www.alayanew.com/?utm_source=official02

我们还做了一本83页的小龙虾“红宝书”,领取戳这里:我佩服我同事,竟然整理了一本83页的OpenClaw“红宝书”
另外,看到有些小伙伴还在“新手村”徘徊的,你可以先从以下5个小技巧中挑一些你看中的用上。
能理解吧,就像公司招人需要写一个岗位说明书。
你要它干嘛也需要先写一个类似的玩意儿。
以下是一个简单的模板(你可以修改括号内内容:
强制规则:请长期记住以上要求,后续所有回答优先遵守。
你说“帮我写个周报”,它就会按它的理解乱写。
你可以把任何任务都拆成 3 句:
任务拆分(MD分点格式)
做什么:明确核心任务
按什么标准:格式、语气、字数、参考方向
交付什么:最终输出形态(例如:可直接粘贴到企业微信的文本)
示例
1)我要你写一份互联网运营岗的周总结
2)按“本周工作/数据成果/下周计划/问题”四段,每段不超过 3 条,语气正式
3)输出成一段可直接复制粘贴的精简文本
如果你一个会话用到底,聊天记录上千条后,模型会更慢、更乱,token 也更贵。
你可以选择:
报错了看不懂怎么办?教你一个话术,你可以直接复制粘贴使用。
“以下是你运行时出现的报错,请你自行排查问题原因,给出可直接执行的修复方案,一步步教我操作。我是纯小白,不懂任何代码,不要用专业术语。
给你一个直接复盘话术:
以上内容请长期记住,后续对话严格遵守。
最后我想说,小龙虾虽然听上去很好用,但确实是需要不断训练调教的。
随着时间的积累,你会得到一个你想要的定制版“贾维斯”。