本周排名前10的模型为:
GPT-5.4
GPT-5.3 (codex)
Gemini 3.1 Pro
GPT-5.2
Claude Opus 4.6
Gemini 3 Pro
Gemini 3 Flash
Grok 4.20
Claude Sonnet 4.6
Claude Opus 4.5
简介:
本表格汇总了常用大语言模型在主流评测排行榜上的表现。评测范围涵盖:
人类偏好(文字和视觉),知识与推理,数学能力,代码能力,长文本推理,和指令遵循能力等等
在整合各项评测结果的基础上,计算出综合排名。
更新:
本周,GPT-5.4荣登榜首,Grok 4.20也进入到了前十名。
但和GPT-5.4交流时,它的回答总是很模板化,套路化。不知道大家和我感觉是否一致。
总结:
综合实力最强:GPT-5.4
国内最强模型:Qwen 3.5 397b
最强开源模型:Qwen 3.5 397b
最强代码模型:Gemini 3 Pro/Claude Opus 4.6
本项目仓库:
https://github.com/Tennisatw/LLM-Leaderboard
如果觉得本图有帮助,欢迎点个⭐。