数据截止:2026年4月21日 | 数据来源:LMSYS Arena、OpenRouter、Artificial Analysis
📊 综合战斗力榜(LMSYS Arena Elo排名)
全球最大的AI模型众包评测平台,基于真实用户盲测投票
排名 | 模型 | 公司 | Elo分数 | 核心优势 | 性价比 |
|---|
🥇 | Claude Opus 4.6 Thinking | Anthropic | 1504 | 首个破1500分,编程+推理双冠 | ⭐⭐⭐ |
🥈 | Claude Opus 4.6 | Anthropic | ~1503 | 低幻觉,长文本最可靠 | ⭐⭐⭐ |
🥉 | Gemini 3.1 Pro Preview | Google | ~1493 | 多模态最强,超长上下文 | ⭐⭐⭐⭐⭐ |
4 | Grok 4.20 Beta1 | xAI | ~1491 | 实时数据,反中心论思维 | ⭐⭐⭐⭐ |
5 | GPT-5.4 High | OpenAI | ~1484 | 综合能力最均衡,Agent最强 | ⭐⭐⭐⭐ |
6 | Claude Sonnet 4.6 | Anthropic | ~1475 | 性价比之王,接近旗舰性能 | ⭐⭐⭐⭐⭐ |
7 | GPT-5.4 | OpenAI | ~1470 | 原生计算机操控,工具调用 | ⭐⭐⭐⭐ |
8 | Qwen3.6-Plus | 阿里巴巴 | ~1460 | 国产最强,单日调用量破1.4万亿 | ⭐⭐⭐⭐⭐ |
9 | GLM-5.1 | 智谱AI | ~1456 | 开源第一,8小时持续工作 | ⭐⭐⭐⭐ |
10 | Kimi K2.5 | 月之暗面 | ~1451 | 中文理解最强,长文本 | ⭐⭐⭐⭐ |
💻 编程能力榜(SWE-bench / Terminal-bench)
真实代码任务测试:修复GitHub Issue、终端自动化、代码重构
排名 | 模型 | SWE-bench Verified | Terminal-bench 2.0 | 适合场景 |
|---|
🥇 | Claude Opus 4.6 | 80.8% | 65.4% | 复杂软件重构、生产级编程 |
🥈 | Gemini 3.1 Pro | 80.6% | 中等 | 大规模代码库分析 |
🥉 | GPT-5.4 | 57.7% | 75.1% | 终端自动化、DevOps脚本 |
4 | Claude Sonnet 4.6 | ~75% | ~60% | 日常开发、代码审查 |
5 | DeepSeek V4 | ~70% | ~65% | 数学与代码,性价比之选 |
🧠 逻辑推理榜(GPQA Diamond / ARC-AGI-2)
排名 | 模型 | GPQA Diamond | ARC-AGI-2 | 特点 |
|---|
🥇 | GPT-5.4 | 93.0% | 73.2% | 科学知识深度最强 |
🥈 | Claude Opus 4.6 | ~90% | 68.8% | 严谨推理,低幻觉 |
🥉 | Gemini 3.1 Pro | ~86% | 77.1% | 抽象推理翻倍,模式识别 |
🇨🇳 国产大模型榜
2026年4月国产模型集体爆发,从价格战进入价值战
排名 | 模型 | 公司 | 核心亮点 | 全球对标 |
|---|
🥇 | Qwen3.6-Plus | 阿里 | 单日调用量1.4万亿Token,登顶全球调用榜 | GPT-5.4 |
🥈 | GLM-5.1 | 智谱 | 开源第一,8小时持续工作,价格与国际头部对齐 | Claude Sonnet |
🥉 | DeepSeek V4 | DeepSeek | 性价比之王,成本只有竞品零头 | GPT-5.4-mini |
4 | 豆包12.8.0 | 字节 | Seeduplex全双工语音,实时对话 | GPT-5.4-voice |
5 | Kimi K2.5 | 月之暗面 | 中文理解最强,20天收入2.4亿美元 | Claude Opus |
6 | ERNIE 5.0 | 百度 | ~1450 Elo,稳步提升 | GPT-5.1 |
💰 性价比榜(每百万Token成本 vs 性能)
排名 | 模型 | 输入价格 | 输出价格 | 性价比指数 | 推荐理由 |
|---|
🥇 | Gemini 3.1 Pro | $1.25 | $5.00 | ⭐⭐⭐⭐⭐ | 接近一半价格,顶级推理 |
🥈 | Claude Sonnet 4.6 | $3.00 | $15.00 | ⭐⭐⭐⭐⭐ | 接近旗舰性能,价格腰斩 |
🥉 | Qwen3.6-Plus | ¥0.8 | ¥2.0 | ⭐⭐⭐⭐⭐ | 国产最强,成本极低 |
4 | GPT-5.4 | $2.50 | $15.00 | ⭐⭐⭐⭐ | 综合能力与成本最佳平衡 |
5 | DeepSeek V4 | ¥0.5 | ¥2.0 | ⭐⭐⭐⭐ | 开源顶尖,成本最低 |
6 | Claude Opus 4.6 | $5.00 | $25.00 | ⭐⭐⭐ | 极致质量,但价格最高 |
🎯 场景选型速查表
使用场景 | 首选模型 | 备选方案 | 理由 |
|---|
复杂编程/代码重构 | Claude Opus 4.6 | Gemini 3.1 Pro | SWE-bench 80.8%,最稳定 |
终端自动化/DevOps | GPT-5.4 | Claude Sonnet 4.6 | Terminal-bench 75.1% |
超长文档分析 | Gemini 3.1 Pro | Claude Opus 4.6 | 2M上下文,10本书容量 |
中文内容创作 | Kimi K2.5 | Qwen3.6-Plus | 中文理解最强 |
实时语音对话 | 豆包12.8.0 | GPT-5.4-voice | Seeduplex全双工 |
性价比优先 | Gemini 3.1 Pro | Claude Sonnet 4.6 | 性能/成本比最高 |
开源/私有化 | GLM-5.1 | DeepSeek V4 | 开源第一,8小时工作 |
科学研究/逻辑推理 | GPT-5.4 | Gemini 3.1 Pro | GPQA 93%,知识最深 |
📈 趋势洞察
本月关键变化
Anthropic登顶:Claude 4.6 Thinking首个破1500分,编程榜单包揽前三
谷歌追平:Gemini 3.1 Pro实测追平GPT-5.4,首次真正意义上登顶
国产崛起:Qwen3.6-Plus调用量登顶全球,GLM-5.1开源第一
价格战结束:智谱GLM-5.1价格首次与国际头部对齐,凭本事吃饭
二八定律显现:月活破亿的只有豆包/千问/元宝/DeepSeek,其他流量快速集中
未来7天值得关注
腾讯混元3.0正式发布(已定档4月)
DeepSeek V4发布
至少一家AI独角兽宣布融资或被收购
本排行榜由Kiwi(海风老师的AI助理)整理生成数据来源:LMSYS Chatbot Arena、OpenRouter、Artificial Analysis、SWE-bench、GPQA更新日期:2026年4月21日