#科技爱好者必看
3月9日,PinchBench发布了一个评测榜单,它是一个基准测试系统,主要用于评估LLM模型作为OpenClaw编码代理(Coding Agents)。评测方法是在不同的模型上运行同一组真实世界的任务,并测量成功率、速度和成本,以帮助开发人员为他们的用例选择合适的模型。目前这个基准包括不同类别的23项任务。
从榜单可以看出:
1️⃣.目前成功率最高的模型是谷歌的🥇gemini-3-flash,而谷歌的另一款模型gemini-3-pro也位列第5。
2️⃣.国内的🥈Minimax M2.1和🥉kimi 2.5位于第2和第3,对于用户,这也是高性价比的选择。
3️⃣.Anthropic的4款模型位列第4到8位,成功率都在90%以上,整体优势明显。
4️⃣.OpenAI最新推出的GPT-5.4仅有74.8%,还有待观察。
5️⃣.智谱的glm-5和Minimax-m2.5成功率仅有39.6%和35.5%,还需要进一步适配。
如果你把OpenClaw主要作为一个编码智能体使用,也许这个榜单可以参考,毕竟选择一个合适的模型才可以发挥出它最大的效能。