当前位置:首页>排行榜>大模型榜单周报(2026/04/17)

大模型榜单周报(2026/04/17)

  • 更新时间 2026-04-19 17:40:36
大模型榜单周报(2026/04/17)

1. 本周概览

本周大模型榜单的核心变化,集中体现在 OpenRouter 流量结构重排 与 多模态新品密集发布 两条主线上。调用量方面,Claude Opus 4.6 与 Claude Sonnet 4.6 包揽前两名,Google 也时隔一个月重回公司市占率榜首;而上周冲高的 Qwen3.6 Plus 则在整体调用量和编程调用量榜单中同步跌出前十,热度回落明显。能力榜方面,GLM-5.1 进入 Code Arena 前三,Claude Opus 4.7 新上 GPQA 榜单,Gemini 3.1 Pro Preview(thinking)登顶 Humanity's Last Exam。与此同时,视频生成、音乐生成、3D 世界模型和开放式世界模型继续升温,行业竞争正在从单点模型能力扩展到更完整的多模态生产链路。

2. 重点关注事件

  • 4 月 8 日,智谱开源 GLM-5.1。官方信息显示,该模型可完成长达 8 小时的长程任务,代码能力进一步增强,继续强化其在 Agent 与编程场景的竞争力。
  • 4 月 9 日,Meta 发布原生多模态推理模型 Muse Spark,支持工具调用、视觉推理链(visual chain of thought)以及多 Agent 协同,进一步推进多模态推理系统的落地能力。
  • 4 月 10 日与 4 月 16 日,ATH 连续披露两项进展:视频生成模型 HappyHorse 1.0 虽未正式发布,但已在 Artificial Analysis 的 Image to Video 和 Text to Video 榜单上超过 Seedance 2.0;同时发布开放式世界模型产品 HappyOyster,基于原生多模态架构,支持多模态输入与音视频联合生成。
  • 4 月 10 日,MiniMax 正式上线 Music 2.6,并同步推出专属 Music Skills,持续完善 AI 音乐生成产品线。
  • 4 月 16 日,Anthropic 发布 Claude Opus 4.7。新版本在高级软件工程场景中较 Opus 4.6 进一步提升,尤其强化了复杂任务处理能力。
  • 4 月 16 日,腾讯发布并开源混元 3D 世界模型 HY-World 2.0。该版本可与现有游戏工作流无缝对接,用于快速生成游戏地图与关卡原型。

3. 榜单变化

  • OpenRouter 模型调用量:上周榜首 Qwen3.6 Plus 本周直接跌出前十,是本期最显著的流量回落案例。Claude Opus 4.6 从第 6 升至第 1,调用量环比增长 30%;Claude Sonnet 4.6 从第 4 升至第 2,增长 22%。DeepSeek V3.2 以 5% 增幅位列第 3,延续稳健表现。Gemini 系列活跃度同步上升,其中 Gemini 3.1 Pro Preview 环比增长 127%,升至第 9;Gemini 3 Flash Preview 升至第 4;Gemini 2.5 Flash Lite 新晋第 10。Nemotron 3 Super 以 603B tokens 首次进入前十。
  • OpenRouter 公司市占率Google 市占率由 13.3% 升至 18.3%,时隔一个月重返榜首;Anthropic 由 12.5% 升至 17.5%,升至第 2;OpenAI 以 12.7% 位列第 3。与之相对,Qwen 由 21.6% 急跌至 5.0%,排名从第 1 下滑至第 8,是本周波动最大的公司维度案例。MiniMax 升至第 4,DeepSeek 升至第 5,Xiaomi 以 6.4% 重回前十,StepFun 则掉出榜单。
  • OpenRouter 模型速度gpt-oss 系列仍占据前三,但吞吐量整体回落,20b 从 676 降至 633 tok/s,safeguard-20b 从 701 降至 576 tok/s,120b 从 548 降至 451 tok/s。相比之下,GLM 4.7 从 320 提升到 438 tok/s,提速明显;Grok 4 Fast 以 198 tok/s 新晋入榜;Llama 3.1 8B Instruct 也从 233 提升到 300 tok/s。
  • OpenRouter 编程模型调用量Qwen3.6 Plus 同样跌出前十。MiniMax M2.7 与 MiniMax M2.5 分别以 12.1% 和 11.9% 包揽前两位,合计占比达到 24%。Claude Opus 4.6 份额由 6.7% 升至 11.7%,升至第 3;Claude Sonnet 4.6 也由 3.9% 升至 6.6%。GLM-5.1 取代 GLM 5,以 214B tokens、5.3% 占比排名第 5。Nemotron 3 Super(free) 维持第 6。
  • 能力榜单GLM-5.1 新进入 Code Arena,位列 Claude Opus 4.6 thinking / without thinking 之后的第 3 名;Claude Opus 4.7 新上 GPQA 榜单,排在 Claude Mythos Preview 与 Gemini 3.1 Pro Preview 之后位列第 3;预发布版本 Gemini 3.1 Pro Preview(thinking) 登顶 Humanity's Last Exam,其排名后续仍可能随正式发布与评测更新而变化。

4. 排行榜

测评类型
第一名
第二名
第三名
模型调用量
Claude Opus 4.6
Claude Sonnet 4.6
DeepSeek V3.2
公司市占率
Google
Anthropic
OpenAI
模型速度
gpt-oss-20b
gpt-oss-safeguard-20b
gpt-oss-120b
编程模型调用量
MiniMax M2.7
MiniMax M2.5
Claude Opus 4.6

各公司按不同能力领域排名汇总

测评类型
领先公司
大语言模型 Text Arena
Anthropic、Meta、Google、xAI、OpenAI
编程能力 Code Arena
Anthropic、智谱(GLM 系列)、OpenAI、Google
编程能力 LiveCodeBench
Anthropic、OpenAI、Google
代码工程任务 SWE-bench
Anthropic、Google、MiniMax
图像编辑和生成 Image Edit Arena
OpenAI、Google、xAI、字节、腾讯
文生图 Text-to-Image Arena
Google、OpenAI、MAI、Reve、xAI、Black Forest Labs
图像编辑和生成 Image Editing Leaderboard
OpenAI、Google、腾讯、xAI、Black Forest Labs、可灵、字节、阿里巴巴
文生图 Text to Image Leaderboard
OpenAI、Google、Black Forest Labs、字节、xAI
GPQA
Anthropic、Google、OpenAI
FrontierMath
OpenAI、Anthropic、Meta、Google、月之暗面、DeepSeek
Humanity's Last Exam
Google、OpenAI、Meta、Anthropic、月之暗面
GAIA
OPS-Agentic-Search、openJiuwen-deepagent、Lemon、JoinAI、Nvidia、Suzhou AI Lab&Shuqian Tech、ShawnAgent、Microsoft AI Asia-Ads 等

📌 关注我,第一时间掌握更多 AI 前沿资讯!

最新文章

随机文章