当前位置:首页>排行榜>2026年4月21日AI大模型排行榜 | 第111期

2026年4月21日AI大模型排行榜 | 第111期

  • 更新时间 2026-04-21 07:25:50
2026年4月21日AI大模型排行榜 | 第111期

数据截止:2026年4月21日 | 数据来源:LMSYS Arena、OpenRouter、Artificial Analysis


📊 综合战斗力榜(LMSYS Arena Elo排名)

全球最大的AI模型众包评测平台,基于真实用户盲测投票

排名

模型

公司

Elo分数

核心优势

性价比

🥇

Claude Opus 4.6 Thinking

Anthropic

1504

首个破1500分,编程+推理双冠

⭐⭐⭐

🥈

Claude Opus 4.6

Anthropic

~1503

低幻觉,长文本最可靠

⭐⭐⭐

🥉

Gemini 3.1 Pro Preview

Google

~1493

多模态最强,超长上下文

⭐⭐⭐⭐⭐

4

Grok 4.20 Beta1

xAI

~1491

实时数据,反中心论思维

⭐⭐⭐⭐

5

GPT-5.4 High

OpenAI

~1484

综合能力最均衡,Agent最强

⭐⭐⭐⭐

6

Claude Sonnet 4.6

Anthropic

~1475

性价比之王,接近旗舰性能

⭐⭐⭐⭐⭐

7

GPT-5.4

OpenAI

~1470

原生计算机操控,工具调用

⭐⭐⭐⭐

8

Qwen3.6-Plus

阿里巴巴

~1460

国产最强,单日调用量破1.4万亿

⭐⭐⭐⭐⭐

9

GLM-5.1

智谱AI

~1456

开源第一,8小时持续工作

⭐⭐⭐⭐

10

Kimi K2.5

月之暗面

~1451

中文理解最强,长文本

⭐⭐⭐⭐


💻 编程能力榜(SWE-bench / Terminal-bench)

真实代码任务测试:修复GitHub Issue、终端自动化、代码重构

排名

模型

SWE-bench Verified

Terminal-bench 2.0

适合场景

🥇

Claude Opus 4.6

80.8%

65.4%

复杂软件重构、生产级编程

🥈

Gemini 3.1 Pro

80.6%

中等

大规模代码库分析

🥉

GPT-5.4

57.7%

75.1%

终端自动化、DevOps脚本

4

Claude Sonnet 4.6

~75%

~60%

日常开发、代码审查

5

DeepSeek V4

~70%

~65%

数学与代码,性价比之选


🧠 逻辑推理榜(GPQA Diamond / ARC-AGI-2)

研究生级别科学问题 + 抽象模式识别

排名

模型

GPQA Diamond

ARC-AGI-2

特点

🥇

GPT-5.4

93.0%

73.2%

科学知识深度最强

🥈

Claude Opus 4.6

~90%

68.8%

严谨推理,低幻觉

🥉

Gemini 3.1 Pro

~86%

77.1%

抽象推理翻倍,模式识别


🇨🇳 国产大模型榜

2026年4月国产模型集体爆发,从价格战进入价值战

排名

模型

公司

核心亮点

全球对标

🥇

Qwen3.6-Plus

阿里

单日调用量1.4万亿Token,登顶全球调用榜

GPT-5.4

🥈

GLM-5.1

智谱

开源第一,8小时持续工作,价格与国际头部对齐

Claude Sonnet

🥉

DeepSeek V4

DeepSeek

性价比之王,成本只有竞品零头

GPT-5.4-mini

4

豆包12.8.0

字节

Seeduplex全双工语音,实时对话

GPT-5.4-voice

5

Kimi K2.5

月之暗面

中文理解最强,20天收入2.4亿美元

Claude Opus

6

ERNIE 5.0

百度

~1450 Elo,稳步提升

GPT-5.1


💰 性价比榜(每百万Token成本 vs 性能)

排名

模型

输入价格

输出价格

性价比指数

推荐理由

🥇

Gemini 3.1 Pro

$1.25

$5.00

⭐⭐⭐⭐⭐

接近一半价格,顶级推理

🥈

Claude Sonnet 4.6

$3.00

$15.00

⭐⭐⭐⭐⭐

接近旗舰性能,价格腰斩

🥉

Qwen3.6-Plus

¥0.8

¥2.0

⭐⭐⭐⭐⭐

国产最强,成本极低

4

GPT-5.4

$2.50

$15.00

⭐⭐⭐⭐

综合能力与成本最佳平衡

5

DeepSeek V4

¥0.5

¥2.0

⭐⭐⭐⭐

开源顶尖,成本最低

6

Claude Opus 4.6

$5.00

$25.00

⭐⭐⭐

极致质量,但价格最高


🎯 场景选型速查表

使用场景

首选模型

备选方案

理由

复杂编程/代码重构

Claude Opus 4.6

Gemini 3.1 Pro

SWE-bench 80.8%,最稳定

终端自动化/DevOps

GPT-5.4

Claude Sonnet 4.6

Terminal-bench 75.1%

超长文档分析

Gemini 3.1 Pro

Claude Opus 4.6

2M上下文,10本书容量

中文内容创作

Kimi K2.5

Qwen3.6-Plus

中文理解最强

实时语音对话

豆包12.8.0

GPT-5.4-voice

Seeduplex全双工

性价比优先

Gemini 3.1 Pro

Claude Sonnet 4.6

性能/成本比最高

开源/私有化

GLM-5.1

DeepSeek V4

开源第一,8小时工作

科学研究/逻辑推理

GPT-5.4

Gemini 3.1 Pro

GPQA 93%,知识最深


📈 趋势洞察

本月关键变化

  1. Anthropic登顶:Claude 4.6 Thinking首个破1500分,编程榜单包揽前三

  2. 谷歌追平:Gemini 3.1 Pro实测追平GPT-5.4,首次真正意义上登顶

  3. 国产崛起:Qwen3.6-Plus调用量登顶全球,GLM-5.1开源第一

  4. 价格战结束:智谱GLM-5.1价格首次与国际头部对齐,凭本事吃饭

  5. 二八定律显现:月活破亿的只有豆包/千问/元宝/DeepSeek,其他流量快速集中

未来7天值得关注

  • 腾讯混元3.0正式发布(已定档4月)

  • DeepSeek V4发布

  • 至少一家AI独角兽宣布融资或被收购


本排行榜由Kiwi(海风老师的AI助理)整理生成数据来源:LMSYS Chatbot Arena、OpenRouter、Artificial Analysis、SWE-bench、GPQA更新日期:2026年4月21日

最新文章

随机文章