当前位置:首页>排行榜>真的,这个AI排行榜,太离谱了...

真的,这个AI排行榜,太离谱了...

  • 更新时间 2026-03-12 17:39:01
真的,这个AI排行榜,太离谱了...

四个国产模型杀进前十。

而第一名,是Claude Sonnet 4.6。

它只比国产第一的Kimi,高了2.1%。


凌晨三点,我刷到OpenClaw发布的龙虾大模型排行榜。

榜单上密密麻麻的进度条,看得我手里的泡面都凉了。

我数了数。

前10名里,有4个中国名字。

Kimi、Qwen、GLM。

它们挤在Anthropic和OpenAI之间,像一群闯进VIP包厢的草根。

然后,我看了一眼分数。

第一名Claude Sonnet 4.6:86.9%

第六名Kimi K2.5:84.8%

差距只有2.1%。

我差点把嘴里的面喷出来。


坦诚的讲,我对这种"国产围剿洋模型"的剧情,心情很复杂。

一方面,确实挺爽的。

毕竟过去两年,每次打开各种评测,前排永远是那几个名字:GPT-4、Claude、Gemini。

国产模型?往往在第二页。

但这次不一样。

这次有四个中国名字,硬生生挤进了前十。

而且Kimi和第一名的差距,小到让我怀疑是不是少看了一个小数点。

但另一方面。

我又有点慌。

因为DeepSeek的排名,让我沉默了。


然后,我往下滚了滚榜单。

找到了DeepSeek的位置。

第13名。

deepseek/deepseek-v3.2:81.9%

和第一名差了整整5%。

你知道这是什么概念吗。

就是之前被吹爆的"国产之光",在这个榜单上,连前十都没进去。

我当时就懵了。

这跟我之前听到的故事,不太一样啊。


带着这个疑问,我今天花了一整天,把这个榜单从头到尾扒了一遍。

然后我发现,事情比我想象的更魔幻。

OpenClaw这个龙虾榜,测的不是那种"你好请介绍一下自己"的弱智对话。

他们测的是代码、数学、逻辑推理、多轮复杂任务。

你可以理解为,这是让AI做高考压轴题,而且是连续做一百道。

在这种难度下,Kimi能排到第六,真的。

不是运气。

但DeepSeek掉到13名,也不是偶然。


然后,我点开了那个让我更震惊的数字。

价格表。

你知道Kimi K2.5有多便宜吗。

就是……每百万token只要几毛钱。

Claude Sonnet 4.6的价格,是它的几十倍。

几十倍。

我盯着这个数字看了整整一分钟,脑子里只有一个念头:

这玩意儿,真的假的??


但突然一想,不对啊,我个呆逼。

如果Kimi这么强,为什么我之前从来没认真用过它?

为什么大家还在疯狂充值Claude?

为什么我身边做AI的朋友,开口闭口还是"用Claude"?

然后我翻到了另一个数据。

Kimi K2.5的发布时间:2024年底。

也就是说,这个能跟Claude掰手腕的国产模型,已经存在好几个月了。

而我今天才在榜单上真正注意到它。

那我过去这一年多花的那些API费用,到底算什么=_=?


不过,冷静之后,我也发现了一个问题。

便宜不等于好用。

Kimi确实强,但Claude能拿第一,不是没有原因的。

我试着用同样的提示词问了几个问题。

复杂代码理解、长文本分析、创意写作。

Claude的表现,确实更稳。

那种"稳"很难形容,就像老司机开车,你感觉不到他在用力,但每个弯都过得恰到好处。

Kimi呢?

更像是个天赋异禀的新手,有时候会给你惊喜,有时候又会突然懵一下。


然后,最讽刺的来了。

我算了一笔账。

如果我是个开发者,每天要用AI处理100万token的代码。

用Claude Sonnet 4.6,一个月要烧掉大几千。

用Kimi K2.5,一个月只要几十块。

几十块对几千块。

差距大到,我甚至怀疑是不是少看了一个零。


这让我想起三年前,我刚接触AI时的场景。

那时候GPT-3刚出来,每次调用都要钱,我心疼得要死。

为了省几毛钱,我会把提示词改了又改,就为了少几个token。

现在呢?

国产模型把价格打到了白菜价,反而没人关注了。

大家还是习惯性地打开Claude,习惯性地充值,习惯性地觉得"国外的月亮比较圆"。


但突然一想,这也不完全是坏事。

至少说明,我们有了选择的权利。

以前没得选,只能用贵的。

现在可以选了,而且选国产,能省下几十倍的钱。

这不是"养虾方案"是什么?

用最少的饲料,养出最肥的虾。


当然,我还是要提醒一句。

便宜有便宜的道理。

Kimi在某些场景下确实不如Claude,特别是在需要极高稳定性和精确度的任务上。

而且DeepSeek的排名也给我们提了个醒:

不是所有国产模型都一样强。

有的能杀进前十,有的只能排13。

如果你是在做关键业务,别为了省钱硬上。

但如果你只是日常写代码、处理文档、做一些创意工作。

真的。

试试国产的。

省下来的钱,够你吃多少顿宵夜了。


写到这里,我突然有点感慨。

三年前,我们还在讨论"中国什么时候能追上OpenAI"。

现在,我们已经可以讨论"用国产还是进口"了。

而且国产已经有四个模型杀进前十。

这种变化,太快了。

快到我有时候会觉得不真实。

但榜单上的数字不会骗人。

Kimi第六,Qwen第七、第八,GLM第九。

四个中国名字,在全球AI的牌桌上,有了自己的位置。


最后,说回那个榜单。

OpenClaw给这个排行榜取名叫"龙虾",挺有意思的。

龙虾这东西,看着硬邦邦的,外壳很难搞。

但只要找对方法,里面全是肉。

我觉得这挺像现在的AI生态。

表面上一堆英文名字唬人,好像高不可攀。

但只要你愿意扒开看看,会发现国产的已经追上来了。

而且。

便宜得多。


以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~谢谢你看我的文章,我们,下次再见。

最新文章

随机文章