一个网站给50多个 AI 模型打“智商分”,引发激烈争论
一、事件概述
2026年5月13日,一个名为 AI IQ(aiiq.org)的网站上线,瞬间引爆 AI 圈[1]。
创始人 Ryan Shea(Stacks 联合创始人)做了一件看似简单却极具争议的事:给全球50多个大模型打“智商分”,并投射到人类 IQ 的钟形曲线上。
结果一出,社交媒体瞬间炸锅:
“这太有用了!比起看那些庞大的排行榜表格,更容易理解模型进展。”——技术评论员 Thibaut Mélen
“完全是胡扯。AI 的能力是锯齿状的,这个地图不是领土。”——AI Deeply(AI 评论账号)
两种声音激烈碰撞,AI IQ 到底是创新还是误导?
二、核心数据
1. IQ 排行榜(2026年5月)
GPT-5.5以136分位居榜首,这意味着它的“智商”已经超过了人类平均线(100),正式跨过门萨会员门槛(130)——它已经有资格加入门萨俱乐部。
2. 中国模型表现
中国模型集中在112-118区间,进入了“成本效益最优”区间——对于不需要最顶尖能力的任务,这些模型是更具性价比的选择[3]。
3. EQ(情商)排行榜
除了 IQ,AI IQ 还引入了 EQ(情商)维度:
有趣发现:Opus 4.7在 EQ 上领先,GPT-5.5在 IQ 上领先——这意味着没有绝对的“全能冠军”[4]。
4. 人类 IQ 参考标准
三、评分方法论
1. 四大维度
AI IQ 用12个基准测试,归为四个维度:
抽象推理:ARC-AGI-1/2
数学推理:FrontierMath、AIME、ProofBench
编程能力:Terminal-Bench 2.0、SWE-Bench Verified、SciCode
学术推理:Humanity’s Last Exam、GPQA Diamond
最终 IQ = ¼ (IQ_抽象 + IQ_数学 + IQ_编程 + IQ_学术)
2. 争议性设计
EQ 评分由 Claude 评估:存在“偏袒 Anthropic”的风险,AI IQ 主动减去200点来校正[5]
缺失数据处理:模型需要在至少两个维度有得分,且缺失会让分数更低,而非更高
天花板压缩:已饱和的基准测试被压缩,防止分数无限膨胀
3. IQ vs 有效成本
对企业采购者来说,最实用的不是 IQ 排行榜,而是‘IQ vs 有效成本’散点图:
对于企业采购者来说:最聪明的模型不一定是最值的。
四、争论:创新还是误导?
支持方
“这太有用了。把它映射成这样,比看另一个巨大的排行榜表格更容易理解模型进展。”——Thibaut Mélen
“这与我的实际体验一致。Sonnet 4.6是真正的‘工作马’,而不是 Opus 4.5。”——X 用户 @ovsky
价值:
将复杂模型能力可视化
提供跨厂商对比的唯一框架
为企业采购提供决策参考
反对方
“完全是胡扯。AI 的能力是锯齿状的,地图不是领土。”——AI Deeply
“IQ 作为代理正在过时——我们看到的是推理密度的爆发,但不能映射到 g 因子。”—— @Zaya
批评:
方法论不透明:校正曲线如何创建,未完全公开
锯齿状问题:AI 模型在不同任务上表现差异巨大,单一分数掩盖了这一点。NYT 在2026年4月曾发表深度报道,揭示 AI“锯齿状智能”的特征——在 graduate-level 物理上表现出色,却在儿童都能完成的任务上失败[1]
数据污染:某些基准测试已被污染,分数失真
新基准冲击:ARC AGI 3新一代基准测试可能已经推翻现有分数[1]
“GPT-5.5已经在 MMLU-Pro 上饱和,但 ClockBench 仍有50%失败率。”—— @Zaya
五、深层含义:AI 评测的困局
1. 为何此时出现?
背景:超过50个前沿模型可用,来自至少14家厂商(中美欧)——每个厂商都发布自己的基准测试,往往“挑好的展示”。
创始人背景:Ryan Shea 是 Stacks 联合创始人,曾投资 OpenSea、Lattice、Anchorage、Mercury 等公司[1]。
关键数据:2023年10月,GPT-4-turbo 只有 IQ 75分;2026年初,Top 模型已达135分——30个月涨了60分。
AI IQ 的出现提供了一个统一框架,让不同厂商的模型可以直接对比。
2. " smartest model stack"
“现在人类的角色只是‘编排’?”—— @Debdoot Ghosh
如果 AI IQ 的数据说明了什么,那就是:知道在什么时候用什么模型,比单纯追求最贵的模型更重要。
对于企业部署,智能路由(routing)——用贵的模型解决难题,用便宜的模型处理简单任务——不再是可选项,而是必选项。更关键的是,网站还提供 IQ + EQ + 有效成本的三维可视化——绿色端=高 IQ+高 EQ+低成本,红色端=牺牲能力或成本效率。
编排能力——知道什么时候用什么模型、花多少钱——已经成为一种新的智能形式。目前还没有基准测试能衡量这个。
3. 门萨级 AI 的时代的意义
GPT-5.5达到136分,意味着:
AI 第一次正式越过“人类前2%”的门萨线(130)
视觉智商(145)甚至超越了门萨“天才区”
但这不代表“通用智能”——AI 仍然是“偏科生”
六、结论
AI IQ 不是完美的评测系统。
它有方法论的盲点
它的 IQ 隐喻可能误导
它创建者承认已知偏差,同时可能还有未知的
但 alternatives——在数十个厂商特定的表格中游泳,每个用不同的测试套件——更糟糕。
对于企业采购:IQ+EQ+成本的三维图表,揭示了一个真相—— “哪个模型最好”的答案几乎永远是“取决于任务”。
对于从业者,这意味着:编排能力——知道什么时候用什么模型、花多少钱——已经成为一种新的智能形式。目前还没有基准测试能衡量这个。
核心观点(一句话总结)
AI IQ 网站用136分证明了 AI 的“智商”超越人类,但真正重要的不是分数本身,而是我们学会了:没有最好的模型,只有最合适的模型组合。
参考资料
AI IQ 网站上线 - VentureBeat
GPT-5.5智商突破人类极限 - 新浪新闻
2026年 AI 大模型 IQ 和 EQ 排行榜 - Weste
GPT-5.5智商136拔得头筹 - 0xzx
AI IQ 网站 - 官网