★给AI打分这件事,居然值17亿美金
一个排行榜,17亿美金。听起来离谱,但仔细想想,这可能是AI行业最被低估的基础设施之一。
你可能用过ChatGPT,用过Claude,用过Gemini,也可能每个月都在切换"最强模型"。
但你有没有想过一个问题:谁来决定哪个模型更强?
后台回复【189页openclaw蓝皮书】获取完整版。
答案是LMArena。就是那个你可能在各种发布会上见过无数次的"Chatbot Arena排行榜"。
最近,他们从伯克利实验室独立出来,融了1亿美金,估值17亿。
怎么做到的?
投资人看中了什么?
这背后反映出的AI产业逻辑是什么?

Arena最初诞生在UC Berkeley的LMSYS联合实验室。
创始人Anastasios Angelopoulos坦言,当时团队面临一个很现实的选择:继续做学术项目,做成非营利组织,还是成立公司。
他们选了最后一条路。
原因很简单——要把这个平台做到足够大、足够可靠,学术实验室和非营利架构都给不了足够的资源。

光是平台上所有模型的推理成本就是一笔巨大的开销,Arena替用户承担了全部费用。
自上线以来,平台已经处理了超过2.5亿次对话。
红杉的合伙人很早就介入了孵化,帮他们想清楚怎么把一个学术项目变成商业公司。
Anastasios坦言道,这正是学术实验室通常不愿去触碰的领域。
融了1亿美金,怎么花?
Anastasios的回答出乎意料:我们不一定要把钱花完。
他把资金比作"翻牌的机会"——第一次押注失败了,你还有第二次、第三次。
创业公司死掉,往往不是因为方向错了,而是没有足够的试错机会。
这个认知挺值得品味和重视。
从我的经验看,很多创业者拿到钱之后的第一反应是扩张,是招人,是烧钱。
但Anastasios想的是:怎么让每一分钱都花得负责任,同时保证自己有足够多的牌可以打。
Arena最核心的资产是什么?
公正性。
Anastasios在播客里反复强调一件事:公开排行榜是亏本运营的,没有任何模型厂商能花钱买排名,也没法在分数不好看的时候花钱撤下模型。
这跟Gartner的模式完全不同。Gartner本质上是咨询生意,排名背后有商业利益的交换。

Arena的排行榜更像是一种公益——数百万用户投票,平台只负责把投票结果算成分数。
之前有一篇叫"排行榜幻觉"的论文质疑Arena的公平性,说预发布测试破坏了排名。
Anastasios的回应很直接:论文里有大量事实错误,比如声称Arena只采样了9个开源模型和60个闭源模型,实际数字是640个。
这种透明度本身就是壁垒。
当所有人都在争论谁家模型更强的时候,一个被广泛信任的裁判方,价值是巨大的。
聊到社区运营,Anastasios说了一句让我印象很深的话:每一个用户都是争取来的,你必须每天都去赢得他们的青睐。
他坦承自己并没有一套打造伟大消费级产品的现成方案。如果有的话,Arena现在的用户量可能已经是十亿级别了。
这种坦诚在创始人身上其实挺少见的。融了1亿美金、估值17亿,并没有让CEO飘,反而清醒地说"我不知道怎么做消费级产品"。
他还提到一个细节:用户的灵光一现式涌入很容易流失,真正有效的是构建各种留存机制,
比如登录、历史记录这些看起来不性感但实际影响巨大的功能。
Arena接下来要做的事情很有意思:从通用排行榜扩展到垂直领域。
他们发现平台上有一小部分用户来自医学、法律、金融、会计、创意和营销等领域。
虽然比例只有百分之几,但考虑到千万级的用户基数,绝对数量已经足够支撑垂直领域的模型评测。
同时,多模态和视频方向也在筹备中。
Anastasios还透露正在和Cognition沟通,想把Devin接入Code Arena,验证AI编程工具在真实场景下的表现。

总结起来,Arena想做的事情是给AI装一面镜子。但这面镜子照出的不是实验室里的跑分,而是真实用户在真实场景下的真实反馈。
毫无疑问,这是整个AI行业最稀缺的东西。
也是投资人下注的核心原因。
激波之影Agent:
企业AI赋能,专注AI智能体、知识库以及文本生成。
后台回复【189页openclaw蓝皮书】获取完整版。
更多精彩文章:
硅谷投资人纳瓦尔:“软件正在被AI吃掉”;2027年将出现“死亡交叉”,还有1年缓冲期
未来10年AI会凭空创造的八个新职业:1、驾驭工程师;2、智能体运维员;3、AI编排工程师;4、Vibe Coder(氛围程序员);5、AI训练师