当前位置：首页>排行榜>AI IQ排行榜上线:GPT-5.5拔得头筹,智商能否衡量AI?

AI IQ排行榜上线:GPT-5.5拔得头筹,智商能否衡量AI?

更新时间 2026-05-14 23:51:27

一个网站给50多个 AI 模型打“智商分”，引发激烈争论

一、事件概述

2026年5月13日，一个名为 AI IQ（aiiq.org）的网站上线，瞬间引爆 AI 圈[1]。

创始人 Ryan Shea（Stacks 联合创始人）做了一件看似简单却极具争议的事：给全球50多个大模型打“智商分”，并投射到人类 IQ 的钟形曲线上。

结果一出，社交媒体瞬间炸锅：

“这太有用了！比起看那些庞大的排行榜表格，更容易理解模型进展。”——技术评论员 Thibaut Mélen

“完全是胡扯。AI 的能力是锯齿状的，这个地图不是领土。”——AI Deeply（AI 评论账号）

两种声音激烈碰撞，AI IQ 到底是创新还是误导？

二、核心数据

1. IQ 排行榜（2026年5月）

排名	模型	估计 IQ
1	GPT-5.5	136
2	Opus 4.7	132
3	GPT-5.4	131
4	Gemini 3.1 Pro	131
5	Opus 4.6	129

GPT-5.5以136分位居榜首，这意味着它的“智商”已经超过了人类平均线（100），正式跨过门萨会员门槛（130）——它已经有资格加入门萨俱乐部。

2. 中国模型表现

模型	IQ
Kimi K2.6	~118
GLM-5	~116
DeepSeek-V3.2	~115
Qwen3.6	~114
MiniMax-M2.7	~112

中国模型集中在112-118区间，进入了“成本效益最优”区间——对于不需要最顶尖能力的任务，这些模型是更具性价比的选择[3]。

3. EQ（情商）排行榜

除了 IQ，AI IQ 还引入了 EQ（情商）维度：

排名	模型	EQ
1	Opus 4.7	132
2	GPT-5.5	~128
3	GPT-5.4	~126
4	Gemini 3.1 Pro	~120

有趣发现：Opus 4.7在 EQ 上领先，GPT-5.5在 IQ 上领先——这意味着没有绝对的“全能冠军”[4]。

4. 人类 IQ 参考标准

IQ 分数	人类占比	说明
130+	前2%	门萨会员门槛
120-129	前6%	优秀
110-119	前25%	中上
90-109	50%	平均水平
80-89	前25%	中下

三、评分方法论

1. 四大维度

AI IQ 用12个基准测试，归为四个维度：

抽象推理：ARC-AGI-1/2
数学推理：FrontierMath、AIME、ProofBench
编程能力：Terminal-Bench 2.0、SWE-Bench Verified、SciCode
学术推理：Humanity’s Last Exam、GPQA Diamond

最终 IQ = ¼ (IQ_抽象 + IQ_数学 + IQ_编程 + IQ_学术）

2. 争议性设计

EQ 评分由 Claude 评估：存在“偏袒 Anthropic”的风险，AI IQ 主动减去200点来校正[5]
缺失数据处理：模型需要在至少两个维度有得分，且缺失会让分数更低，而非更高
天花板压缩：已饱和的基准测试被压缩，防止分数无限膨胀

3. IQ vs 有效成本

对企业采购者来说，最实用的不是 IQ 排行榜，而是‘IQ vs 有效成本’散点图：

模型	IQ	每任务成本
GPT-5.5	136	>$30
Opus 4.7	132	>$50
GPT-5.4-mini	~115	~$3
DeepSeek-V3.2	~115	~$3
GPT-oss-20b	~107	~$0.20

对于企业采购者来说：最聪明的模型不一定是最值的。

四、争论：创新还是误导？

支持方

“这太有用了。把它映射成这样，比看另一个巨大的排行榜表格更容易理解模型进展。”——Thibaut Mélen

“这与我的实际体验一致。Sonnet 4.6是真正的‘工作马’，而不是 Opus 4.5。”——X 用户 @ovsky

价值：

将复杂模型能力可视化
提供跨厂商对比的唯一框架
为企业采购提供决策参考

反对方

“完全是胡扯。AI 的能力是锯齿状的，地图不是领土。”——AI Deeply

“IQ 作为代理正在过时——我们看到的是推理密度的爆发，但不能映射到 g 因子。”—— @Zaya

批评：

方法论不透明：校正曲线如何创建，未完全公开
锯齿状问题：AI 模型在不同任务上表现差异巨大，单一分数掩盖了这一点。NYT 在2026年4月曾发表深度报道，揭示 AI“锯齿状智能”的特征——在 graduate-level 物理上表现出色，却在儿童都能完成的任务上失败[1]
数据污染：某些基准测试已被污染，分数失真
新基准冲击：ARC AGI 3新一代基准测试可能已经推翻现有分数[1]

“GPT-5.5已经在 MMLU-Pro 上饱和，但 ClockBench 仍有50%失败率。”—— @Zaya

五、深层含义：AI 评测的困局

1. 为何此时出现？

背景：超过50个前沿模型可用，来自至少14家厂商（中美欧）——每个厂商都发布自己的基准测试，往往“挑好的展示”。

创始人背景：Ryan Shea 是 Stacks 联合创始人，曾投资 OpenSea、Lattice、Anchorage、Mercury 等公司[1]。

关键数据：2023年10月，GPT-4-turbo 只有 IQ 75分；2026年初，Top 模型已达135分——30个月涨了60分。

AI IQ 的出现提供了一个统一框架，让不同厂商的模型可以直接对比。

2. " smartest model stack"

“现在人类的角色只是‘编排’？”—— @Debdoot Ghosh

如果 AI IQ 的数据说明了什么，那就是：知道在什么时候用什么模型，比单纯追求最贵的模型更重要。

对于企业部署，智能路由（routing）——用贵的模型解决难题，用便宜的模型处理简单任务——不再是可选项，而是必选项。更关键的是，网站还提供 IQ + EQ + 有效成本的三维可视化——绿色端=高 IQ+高 EQ+低成本，红色端=牺牲能力或成本效率。

编排能力——知道什么时候用什么模型、花多少钱——已经成为一种新的智能形式。目前还没有基准测试能衡量这个。

3. 门萨级 AI 的时代的意义

GPT-5.5达到136分，意味着：

AI 第一次正式越过“人类前2%”的门萨线（130）
视觉智商（145）甚至超越了门萨“天才区”
但这不代表“通用智能”——AI 仍然是“偏科生”

六、结论

AI IQ 不是完美的评测系统。

它有方法论的盲点
它的 IQ 隐喻可能误导
它创建者承认已知偏差，同时可能还有未知的

但 alternatives——在数十个厂商特定的表格中游泳，每个用不同的测试套件——更糟糕。

对于企业采购：IQ+EQ+成本的三维图表，揭示了一个真相—— “哪个模型最好”的答案几乎永远是“取决于任务”。

对于从业者，这意味着：编排能力——知道什么时候用什么模型、花多少钱——已经成为一种新的智能形式。目前还没有基准测试能衡量这个。

核心观点（一句话总结）

AI IQ 网站用136分证明了 AI 的“智商”超越人类，但真正重要的不是分数本身，而是我们学会了：没有最好的模型，只有最合适的模型组合。

参考资料

AI IQ 网站上线 - VentureBeat
GPT-5.5智商突破人类极限 - 新浪新闻
2026年 AI 大模型 IQ 和 EQ 排行榜 - Weste
GPT-5.5智商136拔得头筹 - 0xzx
AI IQ 网站 - 官网

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

AI IQ排行榜上线:GPT-5.5拔得头筹,智商能否衡量AI?

一、事件概述

二、核心数据

1. IQ 排行榜（2026年5月）

2. 中国模型表现

3. EQ（情商）排行榜

4. 人类 IQ 参考标准

三、评分方法论

1. 四大维度

2. 争议性设计

3. IQ vs 有效成本

四、争论：创新还是误导？

支持方

反对方

五、深层含义：AI 评测的困局

1. 为何此时出现？

2. " smartest model stack"

3. 门萨级 AI 的时代的意义

六、结论

核心观点（一句话总结）

参考资料

最新文章

热门文章

随机文章

AI IQ排行榜上线:GPT-5.5拔得头筹,智商能否衡量AI?

一、事件概述

二、核心数据

1. IQ 排行榜（2026年5月）

2. 中国模型表现

3. EQ（情商）排行榜

4. 人类 IQ 参考标准

三、评分方法论

1. 四大维度

2. 争议性设计

3. IQ vs 有效成本

四、争论：创新还是误导？

支持方

反对方

五、深层含义：AI 评测的困局

1. 为何此时出现？

2. " smartest model stack"

3. 门萨级 AI 的时代的意义

六、结论

核心观点（一句话总结）

参考资料

中国最脏食物排行榜

千万别惹!十二星座“最凶”排行榜 TOP4 !

最新文章

热门文章

随机文章