当前位置:首页>排行榜>AI IQ排行榜上线:GPT-5.5拔得头筹,智商能否衡量AI?

AI IQ排行榜上线:GPT-5.5拔得头筹,智商能否衡量AI?

  • 更新时间 2026-05-14 23:51:27
AI IQ排行榜上线:GPT-5.5拔得头筹,智商能否衡量AI?

一个网站给50多个 AI 模型打“智商分”,引发激烈争论


一、事件概述

2026年5月13日,一个名为 AI IQ(aiiq.org)的网站上线,瞬间引爆 AI 圈[1]。

创始人 Ryan Shea(Stacks 联合创始人)做了一件看似简单却极具争议的事:给全球50多个大模型打“智商分”,并投射到人类 IQ 的钟形曲线上

结果一出,社交媒体瞬间炸锅:

“这太有用了!比起看那些庞大的排行榜表格,更容易理解模型进展。”——技术评论员 Thibaut Mélen

“完全是胡扯。AI 的能力是锯齿状的,这个地图不是领土。”——AI Deeply(AI 评论账号)

两种声音激烈碰撞,AI IQ 到底是创新还是误导?


二、核心数据

1. IQ 排行榜(2026年5月)

排名
模型
估计 IQ
1
GPT-5.5
136
2
Opus 4.7
132
3
GPT-5.4
131
4
Gemini 3.1 Pro
131
5
Opus 4.6
129

GPT-5.5以136分位居榜首,这意味着它的“智商”已经超过了人类平均线(100),正式跨过门萨会员门槛(130)——它已经有资格加入门萨俱乐部。

2. 中国模型表现

模型
IQ
Kimi K2.6
~118
GLM-5
~116
DeepSeek-V3.2
~115
Qwen3.6
~114
MiniMax-M2.7
~112

中国模型集中在112-118区间,进入了“成本效益最优”区间——对于不需要最顶尖能力的任务,这些模型是更具性价比的选择[3]。

3. EQ(情商)排行榜

除了 IQ,AI IQ 还引入了 EQ(情商)维度:

排名
模型
EQ
1
Opus 4.7
132
2
GPT-5.5
~128
3
GPT-5.4
~126
4
Gemini 3.1 Pro
~120

有趣发现:Opus 4.7在 EQ 上领先,GPT-5.5在 IQ 上领先——这意味着没有绝对的“全能冠军”[4]。

4. 人类 IQ 参考标准

IQ 分数
人类占比
说明
130+
前2%
门萨会员门槛
120-129
前6%
优秀
110-119
前25%
中上
90-109
50%
平均水平
80-89
前25%
中下

三、评分方法论

1. 四大维度

AI IQ 用12个基准测试,归为四个维度:

  • 抽象推理:ARC-AGI-1/2

  • 数学推理:FrontierMath、AIME、ProofBench

  • 编程能力:Terminal-Bench 2.0、SWE-Bench Verified、SciCode

  • 学术推理:Humanity’s Last Exam、GPQA Diamond

最终 IQ = ¼ (IQ_抽象 + IQ_数学 + IQ_编程 + IQ_学术)

2. 争议性设计

  • EQ 评分由 Claude 评估:存在“偏袒 Anthropic”的风险,AI IQ 主动减去200点来校正[5]

  • 缺失数据处理:模型需要在至少两个维度有得分,且缺失会让分数更低,而非更高

  • 天花板压缩:已饱和的基准测试被压缩,防止分数无限膨胀

3. IQ vs 有效成本

对企业采购者来说,最实用的不是 IQ 排行榜,而是‘IQ vs 有效成本’散点图

模型
IQ
每任务成本
GPT-5.5
136
>$30
Opus 4.7
132
>$50
GPT-5.4-mini
~115
~$3
DeepSeek-V3.2
~115
~$3
GPT-oss-20b
~107
~$0.20

对于企业采购者来说:最聪明的模型不一定是最值的。


四、争论:创新还是误导?

支持方

“这太有用了。把它映射成这样,比看另一个巨大的排行榜表格更容易理解模型进展。”——Thibaut Mélen

“这与我的实际体验一致。Sonnet 4.6是真正的‘工作马’,而不是 Opus 4.5。”——X 用户 @ovsky

价值

  • 将复杂模型能力可视化

  • 提供跨厂商对比的唯一框架

  • 为企业采购提供决策参考

反对方

“完全是胡扯。AI 的能力是锯齿状的,地图不是领土。”——AI Deeply

“IQ 作为代理正在过时——我们看到的是推理密度的爆发,但不能映射到 g 因子。”—— @Zaya

批评

  • 方法论不透明:校正曲线如何创建,未完全公开

  • 锯齿状问题:AI 模型在不同任务上表现差异巨大,单一分数掩盖了这一点。NYT 在2026年4月曾发表深度报道,揭示 AI“锯齿状智能”的特征——在 graduate-level 物理上表现出色,却在儿童都能完成的任务上失败[1]

  • 数据污染:某些基准测试已被污染,分数失真

  • 新基准冲击:ARC AGI 3新一代基准测试可能已经推翻现有分数[1]

“GPT-5.5已经在 MMLU-Pro 上饱和,但 ClockBench 仍有50%失败率。”—— @Zaya


五、深层含义:AI 评测的困局

1. 为何此时出现?

背景:超过50个前沿模型可用,来自至少14家厂商(中美欧)——每个厂商都发布自己的基准测试,往往“挑好的展示”。

创始人背景:Ryan Shea 是 Stacks 联合创始人,曾投资 OpenSea、Lattice、Anchorage、Mercury 等公司[1]。

关键数据:2023年10月,GPT-4-turbo 只有 IQ 75分;2026年初,Top 模型已达135分——30个月涨了60分

AI IQ 的出现提供了一个统一框架,让不同厂商的模型可以直接对比。

2. " smartest model stack"

“现在人类的角色只是‘编排’?”—— @Debdoot Ghosh

如果 AI IQ 的数据说明了什么,那就是:知道在什么时候用什么模型,比单纯追求最贵的模型更重要。

对于企业部署,智能路由(routing)——用贵的模型解决难题,用便宜的模型处理简单任务——不再是可选项,而是必选项。更关键的是,网站还提供 IQ + EQ + 有效成本的三维可视化——绿色端=高 IQ+高 EQ+低成本,红色端=牺牲能力或成本效率。

编排能力——知道什么时候用什么模型、花多少钱——已经成为一种新的智能形式。目前还没有基准测试能衡量这个。

3. 门萨级 AI 的时代的意义

GPT-5.5达到136分,意味着:

  • AI 第一次正式越过“人类前2%”的门萨线(130)

  • 视觉智商(145)甚至超越了门萨“天才区”

  • 但这不代表“通用智能”——AI 仍然是“偏科生”


六、结论

AI IQ 不是完美的评测系统。

  • 它有方法论的盲点

  • 它的 IQ 隐喻可能误导

  • 它创建者承认已知偏差,同时可能还有未知的

但 alternatives——在数十个厂商特定的表格中游泳,每个用不同的测试套件——更糟糕。

对于企业采购:IQ+EQ+成本的三维图表,揭示了一个真相—— “哪个模型最好”的答案几乎永远是“取决于任务”。

对于从业者,这意味着:编排能力——知道什么时候用什么模型、花多少钱——已经成为一种新的智能形式。目前还没有基准测试能衡量这个。


核心观点(一句话总结)

AI IQ 网站用136分证明了 AI 的“智商”超越人类,但真正重要的不是分数本身,而是我们学会了:没有最好的模型,只有最合适的模型组合。


参考资料

  1. AI IQ 网站上线 - VentureBeat

  2. GPT-5.5智商突破人类极限 - 新浪新闻

  3. 2026年 AI 大模型 IQ 和 EQ 排行榜 - Weste

  4. GPT-5.5智商136拔得头筹 - 0xzx

  5. AI IQ 网站 - 官网

最新文章

随机文章