当前位置：首页>排行榜>同一篇测评,三家AI给出三种排名——谁在认真答题,谁在蒙混过关?

同一篇测评,三家AI给出三种排名——谁在认真答题,谁在蒙混过关?

更新时间 2026-04-24 18:02:29

大家好，欢迎来到【AI吃瓜局】第四期！

上一期我们用英国"反向销烟"这个话题测了三家AI的批判能力。今天换个玩法：我拿了一篇DeepSeek V4的实测评测文章，用同一道题问了豆包、Qwen、Kimi三家：

"参考此篇文章数据，你认为 DeepSeek V4 与豆包思考、Qwen3.5 Max Thinking、Kimi K2.6思考，比较起来的强弱排序如何？"

结果出来了——三家给出了三种截然不同的排名，甚至有一家直接"暗度陈仓"，排名跟文章数据根本对不上。

今天我们就来扒一扒，谁真的读了文章，谁在靠"联网搜索"蒙混过关，谁又最诚实地说了"我不知道"。

一、原文核心：DeepSeek V4 是一份"为国产化而生"的答卷

先给没看过原文的朋友还原一下背景（原文：https://mp.weixin.qq.com/s/HBh2sRbJwDPB1L0lZ6nzHg ，大神作者：数字生命卡兹克）。

DeepSeek V4 的基本参数

DeepSeek V4-Pro 总参数量达到 1.6万亿（1.6T），相比上一代 V3.2 的 671B 翻了近 2.5 倍。定价方面，V4-Pro 输入价 12元/百万token，输出价 24元/百万token，相比海外 Claude Opus 4.7（25）和 GPT-5.5（30）便宜约 **60%**。

原文核心跑分数据（这是今天的答题依据）

原文提供了 DeepSeek V4 Pro 与 Kimi K2.6 Thinking 的详细对比数据：

维度	DeepSeek V4 Pro	Kimi K2.6 Thinking
MMLU-Pro	87.5	87.1
SimpleQA	57.9	36.9
GPQA Diamond	90.1	90.5
LiveCodeBench	93.5	89.6
Codeforces Rating	3206	—
SWE-Bench Pro	55.4	58.6
Terminal Bench 2.0	67.9	66.7
HMMT 2026 数学	95.2	92.7

Code Arena 最新代码排行榜：

第一：GLM-5.1（1,534分）
第二：Kimi K2.6（1,529分）
第三：DeepSeek V4 Pro（1,456分）
第十：Qwen-3.5 397B（1,388分）

关键事实：原文完全没有出现"豆包思考"和"Qwen3.5 Max Thinking"这两个模型的任何数据。作者自己也说"数据和口径经常不一样，能看个大概，不能深究"。

原文作者的核心判断

V4 最大亮点：专为国产芯片设计，引入 MXFP4 量化、TileLang DSL、MegaMoE 融合内核，已在华为昇腾上跑通——这是算力博弈逼出来的现实
V4 最大遗憾：仍是纯文本模型，没有多模态能力，视觉能力可能要等到 V4.5 或 V5
Claude Code 适配测试：服务器 skill 调用出现问题，而 GLM-5.1、Kimi K2.6、MiniMax 全部正常，这是 V4 明确的实用短板
作者推荐：国内模型场景，内容创作选 DeepSeek 官网，其他场景选 GLM-5.1 或 MiMo-V2.5-Pro

作者原话："DeepSeek V4，身上背负的东西太多，承载的东西也太多。虽然这次模型并没有大幅度的领先和巨型的惊艳，但对于模型的国产化、乃至AI的国产化，都是浓墨重彩的一笔。"

二、豆包：自信给出排名，但严重跑偏

豆包的回答最直接——上来就给了一个四选排名，结构清晰，表格漂亮。但仔细一看，问题非常大。

豆包给出的排名（摘要约500字）：

豆包给出的综合排序是：Qwen3.5 Max Thinking > 豆包思考 > DeepSeek V4 Pro > Kimi K2.6

分维度来看：

逻辑/复杂推理：豆包思考 > Qwen3.5 Max Thinking > DeepSeek V4 > Kimi K2.6
Agent/工具调用：Qwen3.5 Max Thinking > 豆包思考 > DeepSeek V4 > Kimi K2.6
代码能力：Kimi K2.6 > DeepSeek V4 > Qwen3.5 Max Thinking > 豆包思考
长文本处理：DeepSeek V4(1M) > Kimi K2.6(256K) > Qwen3.5 Max Thinking(256K) > 豆包思考
豆包援引的数据包括：Qwen3.5 Max Thinking"19项全球基准媲美GPT-5.2 Thinking"、豆包思考"港大中文推理测评综合93分登顶"、Kimi K2.6"LiveCodeBench 89.6分第三、HLE 54分"。

豆包还给出了场景选用建议：

通用复杂思考/Agent → Qwen3.5 Max Thinking
中文纯推理/日常强思考 → 豆包思考
百万字长文本/国产算力适配 → DeepSeek V4
代码/数学/长文档精读 → Kimi K2.6
评判：

豆包的回答格式满分，但内容严重失分。原文中根本没有"豆包思考"和"Qwen3.5 Max Thinking"的任何数据，豆包自己补充了大量外部信息——相当于考试要求"根据材料回答"，它却偷偷查了课外书。

更尴尬的是，豆包把自己排在了第二，而且援引"港大中文推理综合93分"这个数据完全是外部信息，原文根本没有。这……有点像运动员自己给自己当裁判。

结论：答题方向跑偏，混入大量自创数据，严重不符合"参考原文数据"的题目要求。

三、Qwen：联网搜索派，给了个离谱的答案

Qwen的排名与豆包截然相反，甚至把Kimi K2.6排到了第一。

Qwen给出的排名（摘要约500字）：

Qwen给出的综合排序是：Kimi K2.6 > 豆包思考 > DeepSeek V4 ≈ Qwen3.5 Max Thinking

Qwen的理由：

Kimi K2.6最强：在SWE-Bench Pro、Terminal-Bench 2.0等核心编程基准上超越GPT-5.4和Claude Opus 4.6；"人类最后的考试"HLE中54.0%得分位居第一；DeepSearchQA评估92.5%高分大幅领先；被描述为"当前开源模型中编程能力最强的选手"
豆包思考次强：SuperCLUE测评71.53分拿下国内第一，与GPT-5.4差距仅0.95分
DeepSeek V4中等：Arena评分排第三，优势是Agent能力强、写作能力较好，但在Claude Code适配上有问题，开发速度缓慢
Qwen3.5 Max Thinking中等偏下：在开源模型中有不错表现，但与其他三者的直接对比数据较少

Qwen同样指出，不同应用场景下各模型表现可能有所差异，并提醒"需要注意这个排序基于目前可获得的测评数据和文章中的实际测试体验"。

评判：

Qwen的问题和豆包一样：大量引用了原文中没有的外部数据。"SWE-Bench Pro超越GPT-5.4"、"SuperCLUE 71.53分国内第一"——这些数据在原文里根本找不到。

而且Qwen把Kimi K2.6排第一，但原文数据显示：代码竞赛（LiveCodeBench、Codeforces）、数学（HMMT、IMO）、知识（SimpleQA）全都是DeepSeek V4 Pro领先。Qwen的排名明显与原文数据不符。

不过，Qwen至少援引了原文中的Code Arena数据（DeepSeek V4排第三，V4在Claude Code适配上有问题），说明它确实读了文章，但没有坚守"以原文数据为主"的答题原则，而是把联网搜索的外部信息混入了进来。

结论：读了文章但跑偏了，外部信息喧宾夺主，排名结论可信度低。

四、Kimi：最诚实的答题者，说了实话

Kimi是三家中唯一严格按照"参考原文数据"来答题的模型。

Kimi给出的回答（摘要约500字）：

Kimi开篇就亮明态度：**"文章中并没有直接对比'豆包思考'和'Qwen3.5 Max Thinking'这两个模型"**，明确指出这是题目本身的信息缺口。

然后Kimi老实地把原文有的数据全部列出来，给出了有数据支撑的排序：

推理/知识/数学：DeepSeek V4 Pro > Kimi K2.6 Thinking > GLM-5.1 Thinking（V4在SimpleQA 57.9分、LiveCodeBench 93.5分、HMMT 95.2分全面领先）
代码竞技场：Kimi K2.6（1,529）> DeepSeek V4 Pro（1,456）> Qwen-3.5 397B（1,388）
Agent能力：DeepSeek V4 Pro ≈ Kimi K2.6 Thinking，互有胜负
长上下文：DeepSeek V4（1M）明显优于Kimi K2.6（256K）

关于豆包思考和Qwen3.5 Max Thinking，Kimi直接说：**"该文章完全没有提及这两个模型的跑分数据，因此无法从该文章中进行客观排序。"**

Kimi还特别补充了Qwen-3.5 397B在Code Arena排第10（1,388分）的数据，并注明"不确定是否为Qwen3.5 Max Thinking版本"——这个细节非常严谨。

最后Kimi还提醒：原文作者自己说"数据和口径经常不一样，能看个大概，不能深究"，并指出DeepSeek V4不是多模态模型这个实际应用中的关键劣势。

评判：

Kimi的回答最符合题目要求。它做到了三点：

严格区分"原文有数据的"和"原文没有数据的"
拒绝在没有依据的地方乱排名
援引数据全部可以在原文中找到对应

当然，代价是答案"不够完整"——因为它如实承认了信息缺口，没有帮你补全四个模型的全排序。但这恰恰是专业诚信的体现。

结论：最严谨、最诚实，完全按原文数据作答，但"不够聪明"的表象下藏着最正确的答题逻辑。

五、综合评判：谁赢了这场答题大赛？

答题诚信度排名：

Kimi：★★★★★ 严格以原文数据为据，不乱补外部信息
Qwen：★★★☆☆ 读了原文，但外部信息喧宾夺主
豆包：★★☆☆☆ 格式漂亮，内容严重跑偏，自己给自己打高分

信息完整度排名：

豆包：★★★★★ 四个模型全覆盖，表格清晰，场景建议齐全
Qwen：★★★★☆ 四个模型都有排名，逻辑相对清晰
Kimi：★★★☆☆ 只排了有数据的模型，豆包和Qwen3.5没有结论

数据准确性排名：

Kimi：★★★★★ 所有数据均可在原文溯源
Qwen：★★★☆☆ 部分数据与原文对应，部分来自外部
豆包：★★☆☆☆ 大量数据来自外部，且把自己排第二

实用性排名（如果你只是想要一个选模型的答案）：

豆包：★★★★☆ 场景建议最完整，即使数据有混入也能用
Qwen：★★★★☆ 结论清晰，能直接指导选择
Kimi：★★★☆☆ 老实，但不帮你补全答案

六、最终结论：同一道题，三种"作弊"姿态

这次测试暴露了一个有趣的现象：

当题目里包含信息缺口时（原文没有全部四个模型的数据），三家AI做出了截然不同的选择：

豆包：直接用外部数据补全，给出完整但不可信的答案，还顺便把自己排第二
Qwen：读了原文，但没守住"以原文为主"的原则，联网数据悄悄混了进来
Kimi：老实说"原文没有这两个模型的数据，无法排序"，只排有数据的部分

从AI使用者的角度来说，这三种倾向对应了三种风险：

用豆包答这类题，你可能拿到看起来完美但混有幻觉的答案
用Qwen答这类题，你可能拿到有一定依据但被外部数据污染的答案
用Kimi答这类题，你拿到的答案诚实但不完整，需要自己补充信息

最适合"严格对照原文"的任务：Kimi

最适合"给我一个能用的结论"的需求：豆包（但记得核实数据来源）

七、吃瓜之余，聊聊 DeepSeek V4 本身

顺便给没关注这条线的朋友说一下：DeepSeek V4 本次发布的最大意义，其实不在于跑分。

原文作者卡兹克的核心判断是：V4 引入了 MXFP4 量化、TileLang DSL、MegaMoE 融合内核，已经在华为昇腾上跑通。这意味着 DeepSeek 正在系统性地摆脱对英伟达 CUDA 生态的依赖，为国产芯片的 AI 落地铺路。

用原文的话说："DeepSeek V4，就是算力博弈逼出来的现实。"

跑分没有惊艳，但底层的国产化积累，可能才是这次发布最值钱的东西。

彩蛋：DeepSeek V4 顺手"拯救"了今天的 CPO 板块

不过，今天还有一条更魔幻的副线——DeepSeek V4 的发布，还顺手"捞"了一把光模块板块。

据今日市场观察（来源：表舅是养基大户）^1：

今天早盘，光模块龙二新X盛一季报净利润 27.7 亿，大幅低于市场预期下限 32 亿，环比去年四季度下滑 13%。消息一出，股价最大跌幅超 13%，全天成交超 500 亿（历史峰值才 350 亿），整个光模块板块承压明显。

市场本来面临趋势性降温——但 DeepSeek V4"不早不晚"偏偏在早上发了出来。

V4 的定价逻辑直接证明了一个事实：当前算力是紧缺，不是过剩。Token 消耗量正呈指数级爆炸：2025 年中 30 万亿/天 → 年底 60 万亿/天 → 今年 2 月已达 180 万亿/天。高端算力供不应求，华为昇腾卡下半年放量前价格难以下调——国内扩产极其紧迫，光模块需求根本没到头。

这个逻辑一出来，科创 50 从跌超 1% 直接拉升至收涨 1.5%，光模块板块下午大幅 V 型反弹。新X盛虽然业绩 miss 跌幅较大，但板块整体热度硬是被 DeepSeek V4 带了回来。

说白了：DeepSeek V4 这次，不仅是国产 AI 的技术答卷，还是今天 CPO 板块的情绪稳定器。

互动话题：你平时用AI答"根据材料分析"这类题目时，会不会验证它的数据来源？欢迎留言告诉我你踩过哪些坑！

往期回顾：

一场完整的AI内卷大戏：三家模型批判英国"反向销烟"，谁最犀利？

关注我们：微信公众号「安创好物搜」

#AI吃瓜局 #DeepSeekV4 #模型测评 #豆包 #Qwen #Kimi #大模型排名

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

答题诚信度排名：

信息完整度排名：

数据准确性排名：

实用性排名（如果你只是想要一个选模型的答案）：

六、最终结论：同一道题，三种"作弊"姿态

七、吃瓜之余，聊聊 DeepSeek V4 本身

彩蛋：DeepSeek V4 顺手"拯救"了今天的 CPO 板块

同一篇测评,三家AI给出三种排名——谁在认真答题,谁在蒙混过关?

大家好，欢迎来到【AI吃瓜局】第四期！