当前位置:首页>排行榜>宾大新研究:AI 数学能力排行榜需要重写

宾大新研究:AI 数学能力排行榜需要重写

  • 更新时间 2026-05-13 00:34:38
宾大新研究:AI 数学能力排行榜需要重写

2014年,小猿搜题上线。

学生拍一张照,AI在1秒内给出答案。那一年,中国的AI教育产品似乎找到了它的核心定位——做一台永不疲倦的答题机器

此后十年,我们让题库越来越大、答题越来越准,我们内心的疑问也越来越大:无题不答的数学机器,能不能出一道让人答不上来的题?

2026年春天,一项来自宾夕法尼亚大学的研究第一次把这个问题变成了评测标准,然后发现,AI的数学排行榜需要整个重写。

你好,我是吉米,这是我论文解读系列的第31篇文章。本论文《MathDuels: Evaluating LLMs as Problem Posers and Solvers》发表于2026年4月的arXiv,作者是宾夕法尼亚大学研究团队。

自动出题的前世今生

自动出题这件事,比大多数人想象的要古老。

1976年,美国研究者Wolfe写了一个程序,能从课本段落里自动生成问题。当时的逻辑很简单,老师太忙,出题太费时,让机器来做。这大概是有文献记载的第一个自动出题系统,只是当时还不是AI。

此后整整50年,这个方向一直在进化。早期是基于语法规则的模板,后来有了神经网络,再到今天的大语言模型。中国的教育科技公司也走过了相同的路——猿题库的题库收录了超过8000万道题,作业帮2023年发布的T20学习机内置了5.8亿道题,AI匹配答案的速度做到了0.3秒。

这50年里,AI出题做的是同一件事:帮人类生成和管理练习题,服务于学生的答题需求。AI是工具,人类是甲方。

讽刺的是,AI出题这件事被研究了整整50年,我们却从来没有把它翻过来问:AI能不能出让另一个AI束手无策的题?出题能力,就这样从未被当作衡量AI智能的标准——哪怕研究者们已经把AI出题当成生产力工具用了整整半个世纪。

不是我们不知道出题有多难。每一位写过考卷的老师都清楚:出一道好题,和解一道好题,需要的是截然不同的东西。能解题的人,是在已有的框架里找答案;能出题的人,是在设计框架本身。

谁是出题之王

宾夕法尼亚大学的研究团队把这个问题转化成了一场竞技场式的测试——灵感来自1535年威尼斯的一场数学决斗。

那年,数学家塔尔塔利亚(Tartaglia)和菲奥尔(Fior)各自向对方存入30道题,委托公证人保管,约定谁先解完谁就赢。这场决斗有一条不成文的规矩:你不能出一道自己都解不了的题。结果,塔尔塔利亚在几小时内解完了菲奥尔的全部题目;菲奥尔,一道也没答上来。那场决斗暴露的不只是谁解题更快,而是谁对数学的理解深到足以用它刁难对方。

本研究设计了一个名为 MathDuels 的数学对弈框架。

MathDuels 使用了19个顶尖AI模型——Gemini、GPT、Claude、Grok、DeepSeek等九大厂商——每人出30道题,再解其他所有人出的题。分析、代数、几何与拓扑、离散数学、概率统计、应用数学六大领域全部覆盖。最终用一套来自心理测量学的评分模型,同时给每个AI计算"解题分"和"出题分",合并成综合排名。

第一次,AI被要求走上讲台,自己出题考同学。

结果排行榜特别有趣。

GPT-5.4-high拿下了全场最高的解题分(2268),但综合排名第一的不是它。综合第一是Gemini-3.1-Pro-high——因为它出的题平均解题成功率只有62.9%,是19个模型里最低的。它设计出了让绝大多数顶尖AI都无从下手的数学题。这种能力,在任何只测解题的排行榜上,永远是不可见的。

这就好比围棋里计算力最强的棋手,不一定是最会"布局"的棋手。计算,是在已有局面里找最优解;布局,是预判对手几十手之后的认知边界,并提前在那里设下陷阱。二者调动的是两套不同的能力系统。

Grok-4.20-high是另一个极端:解题分1950,出题分1020,是全场两项分数落差最大的模型。用我们熟悉的说法——解题能力超强的尖子生,走到讲台前,却出不了一道让同学停下来想一想的题。

解题能力和出题能力,是两个部分独立的维度。强解题者不一定是强出题者——这是这篇论文最核心的发现

强者之道

研究者仔细分析了强出题者和弱出题者的题目,找到了一条清晰的分界线。

弱出题者的题,依赖教科书模板——解题路径在题面里已经隐约透露,解题者认出套路、按步骤推进就行。就好比菜谱上写好了先烧油、再下葱、翻炒两分钟,难度在于执行,不在于判断。

强出题者的题,设置结构性约束——题面本身不透露应该用什么框架,解题者必须先想清楚"这道题在考什么",才能开始动笔。就好比只给你一桌食材,告诉你做出一道特定口感的菜,而怎么做、用什么组合,完全藏在食材本身里,没有任何提示。

论文里有一组对比很能说明这一点。Grok-4.20-high(出题分全场最低)出了一道分圆域的代数题——直接套分圆多项式的度数公式就能做,19个模型全部答对。Gemini-3.1-Pro-high(出题分全场最高)出了一道2024阶群的分类题——题目只有一行,但要解它,必须先识别出正确的群论结构,而那个结构在题面里完全不显现,19个模型里只有8个答对。

前者考的是执行力;后者考的是,你能不能在一片空白里找到入口

好题的难度,不藏在计算量里,而藏在"框架之前"——解题者必须先想清楚这道题要我做什么,才能开始做什么。和人类出题者完全一样。

这也解释了一个有趣的领域规律:离散数学类的题平均解题率只有82.5%,是六个领域里最低的,并不是因为离散数学本身更深奥,而是因为强出题者更容易在这个领域设置"看起来简单、实则没有明显入口"的结构性谜题。而概率统计的题平均解题率高达92.2%——一旦识别出条件概率或对称性,路径往往就相当直接了。

遇强则强

MathDuels还有一个精巧的设计。

当两个新入场的最强模型——Gemini-3.1-Pro-high和GPT-5.4-high——加入时,它们的275道题里有27.6%难倒了之前的前三名模型;而其余17个模型出的2054道题,只有8.0%能做到这一点。

新的高手入场,不只带来更强的解题能力,还带来前所未有的出题方式。评测的难度天花板,随着最强参与者的加入自动上升,不需要任何人工干预,不依赖任何外部题库更新。

这是MathDuels和所有固定题库之间最本质的区别:固定题库的天花板,是出题那一天被定死的;MathDuels的天花板,跟着参与者一起成长。

还有一个细节值得一提。有些模型会给自己出的题写出错误的参考答案——DeepSeek-V3.2出了一道泛函分析题,自己提交的答案是√2/(5π),但17个评估模型里有15个给出了正确答案1/π。系统自动用多数正确答案覆盖了作者自己的错误版本。

能提出一道好问题,和能正确回答这道问题,有时候真的是两件独立的事

一线教师可以学到什么

这篇论文有三个核心观点值得我们细品。

出题能力,是比解题能力更能暴露真实理解的上限。 AI大模型用数据说明了这一点;布鲁姆教育目标分类学也早有同样的预判——"创造"被列在认知层级的顶端,比"分析"和"评估"都更高。在日常课堂上,这意味着一件具体的事:如果你想知道一个学生有没有真正学懂,比起让他再做一张试卷,不如让他给全班出三道题。出题这件事,会把他自己都没意识到的盲区暴露出来。

评估AI教育工具,要多问出题质量,不只是答题准确率。 题库里装了5.8亿道题,不等于这5.8亿道里有足够多能真正暴露学生认知盲区的题。如果你在用AI辅助课堂出题,有一个简单的检验:把AI生成的题拿给另一个AI解——如果秒答,这道题大概率只是教科书套路的变体,对提升真实理解帮助有限。 能让AI停下来想一想的题,才更可能让学生停下来想一想。

让学生互相出题,是一种被长期低估的学习评估方式。 MathDuels最核心的机制,是让每个参与者既是出题者、又是答题者。这个设计对课堂同样适用——让学生在单元结束时互出一道题、互解一道题。谁出的题让同学们停顿了,谁出的题被秒答了,比任何一张卷子都更真实地反映了谁把这个单元的知识内化成了自己的东西

原论文:MathDuels: Evaluating LLMs as Problem Posers and Solvers

地址:https://arxiv.org/abs/2604.21916

#AI评测 #数学能力 #大模型

END

最新文章

随机文章