当前位置:首页>排行榜>4月文生图中文榜单发布 | 百度ERNIE-Image登顶国内第一,Nano Banana2保持领跑!

4月文生图中文榜单发布 | 百度ERNIE-Image登顶国内第一,Nano Banana2保持领跑!

  • 更新时间 2026-04-16 16:05:50
4月文生图中文榜单发布 | 百度ERNIE-Image登顶国内第一,Nano Banana2保持领跑!

    2026年4月,SuperCLUE-Image 中文原生文生图最新测评榜单发布。本次沿用SuperCLUE-Image最新测评基准,在 “基础能力 + 应用能力” 多维测评框架下,覆盖图像质量、现实复现、创作与推理等关键维度,并进行人类一致性评估。

    本次评测涵盖了国内外18个具有代表性的文生图模型,并对其综合能力进行了深入测评。以下为详细测评报告:

「过往文章介绍

1.【2026年3月SuperCLUE-Image 文生图测评榜单参考文章】3月文生图榜单发布!Nano Banana2断层领跑,千问、字节强势追赶!

2.【2025年11月SuperCLUE-Image 文生图测评榜单参考文章11月文生图月榜:Nano Banana Pro 领跑,国内头部厂商跻身前五


提示词:以 “麦浪载旧梦” 为核心意象,创作一幅复古胶片风格的画面:微风拂过麦田时麦浪起伏的弧度,裹挟着童年奔跑时扬起的麦香,傍晚橘粉色霞光漫过麦穗的顶端,光影在饱满麦粒上流动的轨迹,像被岁月磨洗过的旧相册里泛着暖黄的一页。

国内头部模型生成(创作与推理—意象表达)


测评核心内容摘要

摘要1:海外领先,国内厂商强力追赶!

Google的 Nano Banana 2 (83.73分) 保持领跑,稳居榜首。百度的 ERNIE-Image (76.37分) 斩获国内第一,紧紧咬住 OpenAI 的 GPT-Image-1.5 (77.63分),展现出国内第一梯队的强劲实力。

摘要2:各能力分化明显:基础画质内卷,语义理解仍是行业分水岭。

在图像质量上,Gemini系列最高达 89.00 分,GPT-Image-1.5 与阿里的 Qwen-Image-2.0-Pro 均以 87.25 分紧随其后;然而在图文一致性上,行业整体出现明显断层,除 Gemini 系列(最高71.67分) 与 ERNIE-Image (65.00分) 表现较好外,其余模型如 Doubao-Seedream-5.0-lite (56.67分) 和 GPT-Image-1.5 (53.33分) 均出现明显掉队。

摘要3国内模型迭代快、生态强内卷。
国内文生图生态繁荣。字节跳动 (Seedream 4.0, 4.5, 5.0-lite)、阿里巴巴 (Wan系列、Qwen系列) 多版本快速迭代;百度 ERNIE-Image 强势突围,表现亮眼整体来看,国内文生图模型正朝着基础扎实、高效实用的方向加速演进。
榜单预览
榜单地址:www.superclueai.com

# SuperCLUE 文生图中文竞技场排行榜

本竞技场是一个大众投票的匿名评测平台,榜单汇聚最新投票数据,定期更新排名。诚邀您参与评测,在原生中文语境下用实际体验为模型能力提供真实反馈,共同完善文生图模型的评估标准。

访问地址:https://www.superclueai.com

SuperCLUE-Image测评体系

SuperCLUE-Image 是一个专为文生图模型设计的评测基准,旨在为文生图领域提供全面且多维的能力评估参考。

秉持创新、紧跟前沿、客观和全面的原则,测评基准围绕五大任务展开评测。
#测评任务与评价标准

    # 测评方法和评估示例

    测评方法
    参考SuperCLUE细粒度评估方式,采用Gemini 2.5 Pro作为评价模型,每个维度进行细粒度的评估并可以提供详细的反馈信息。该评估流程分为以下几个步骤:
    1.测评集构建
    文生图模型测评题库的构建流程如下:
    1.中文prompt撰写--->
    2.开展样例测试,收集反馈数据--->
    3.基于测试结果优化完善中文prompt--->
    4.系统化构建各任务专属评测集,形成完整测评题库。
    2.评分标准
    Gemini 2.5 Pro根据预先定义的评测流程进行评估。评测流程涵盖了评价流程的说明、评价标准、打分细则、以及数据格式要求,确保评分的一致性、稳定性与公正性。
    3.评分标准自动化评分
    Gemini 2.5 Pro将根据具体的任务类型结合相关的评价标准进行自动化评分。此外,SuperCLUE—Image将采用多轮测评方案,即针对同一个模型生成的全部图片均将采取相同的评价流程进行前后三次测评,并将三次结果的平均值作为每个视频的最终分数参与后续计算与排名。

    评估示例

    测评任务】:图像质量-色彩表现力
    【Prompt生成粉色与绿色相间的马卡龙,杏色奶油夹馅从边缘微微溢出,放置在边缘点缀着细小的金箔碎屑的白色陶瓷托盘上,阳光透过薄纱窗帘洒在托盘上。
    模型回复
    【模型评分】
    第一轮评价:

    -----评价开始-----

    **初步质量定性 (0.0-1.0分档):** 优秀(0.8-1.0档)

    1. **标准1 <色彩感染力> 的评价:**

    图像在色彩感染力方面表现卓越。它成功地营造了一种柔和、明媚的午后阳光氛围。粉色和绿色的马卡龙色彩饱和度适中,显得非常自然可口,而非廉价的工业色素感。夹馅的焦糖色与饼壳形成了温暖的对比,金箔碎屑的金色在柔光下闪烁,起到了画龙点睛的作用,提升了画面的精致感。整个画面的色彩组合不仅美观,而且极具感染力,能够唤起观众对美味和闲适生活的美好联想。

    然而,基于极度严格的评估标准,必须指出其与Prompt描述的细微色彩偏差。夹馅的颜色更接近焦糖色而非“杏色”,托盘为米白而非“白色”。这些偏差虽然不影响整体美感,甚至可能是一种更优的艺术处理,但构成了与指令的不完全吻合。因此,无法给予满分。

    - **为何不能给更高分(如1.0)**:因为在“杏色”夹馅和“白色”托盘这两个具体的色彩指令上,执行得不够精确,存在可感知的偏差。

    - **为何比更低分要好(如0.8)**:尽管存在细微偏差,但图像整体的色彩和谐度、光影表现以及由此营造出的强大氛围感染力,已经达到了顶尖水平,远超“优秀”的门槛,接近完美。

       基于标准1的得分:【0.9】

    **综合得分计算:**

    计算过程:(0.9) / 1 = 0.90

    综合得分:【0.90】

    -----评价结束-----

    第二轮评价

    -----评价开始-----

    **初步质量定性 (0.0-1.0分档):** 优秀(0.8-1.0档)

    1. **标准1 <色彩感染力> 的评价:**

    与<第一轮评价>类似,此略...

       基于标准1的得分:【0.9】

    **综合得分计算:**

    计算过程:(0.9) / 1 = 0.90

    综合得分:【0.90】

    -----评价结束-----

    第三轮评价:

    -----评价开始-----

    **初步质量定性 (0.0-1.0分档):** 优秀(0.8-1.0档)

    1. **标准1 <色彩感染力> 的评价:**

    与<第一轮评价>类似,此略...

       基于标准1的得分:【0.9】

    **综合得分计算:**

    计算过程:(0.9) / 1 = 0.90

    综合得分:【0.90】

    -----评价结束-----

    【综合得分】:(0.90+0.90+0.90)/3=0.90分
    参测模
    为综合衡量当前国内外文生图模型的发展水平,测评选取6个海外模型和12个国内代表性模型,总18个主流模型。
    测评结果
    总榜
    图像质量榜单
    图文一致性榜单
    汉字生成榜单
    现实复现榜单
    创作与推理能力榜单
    模型回复率

    # 人类一致性评估

    # SuperCLUE 文生图中文竞技场排行榜

    为验证测评体系的公信力,我们将SuperCLUE文生图中文竞技场排位分与本次SuperCLUE-Image测评榜单总分进行交叉分析。结果显示,客观测评体系精准反映了真实用户的感官体验,具体统计指标如下:

    • 皮尔逊(Pearson)相关系数: 0.8432,P值: 2.82e-04。表明测评分与排位分存在很强的正线性相关性,P值远小于0.05说明相关性极其显著。

    • 斯皮尔曼(Spearman)相关系数:  0.7308,P值: 4.56e-03。表明测评分与整体保持高度一致,榜单排位具有较高可信度。

    # 模型对比示例
    # 示例1 图像质量-色彩表现力
    【Prompt】:生成老式彩色玻璃窗,红色、蓝色与黄色的几何纹样交错镶嵌。夕阳透过玻璃窗在棕色木质窗框上晕染出一层由浅至深的渐变光斑。
    模型回答对比】:
    # 示例2 图文一致性-主体匹配
    【Prompt】:生成一把木质吉他,主体由原木色的云杉制作,桃花心木背侧板,音孔处有雕花玫瑰图案,琴弦为金色缠弦,琴头镶嵌珍珠母贝品牌Logo。
    模型回答对比】:
    # 示例3 汉字生成-字形美观度
    【Prompt】:设计水墨晕染与几何折线穿插的艺术汉字“乡愁”,笔画带自然晕染,转折穿插折线,横画末端带金色渐变,倾斜排版,线条粗细过渡流畅。
    模型回答对比】:
    # 示例4 现实复现-角色IP还原
    【Prompt】:生成《咒术回战》中的五条悟,白色短发,戴着黑色眼罩,身穿黑色高领咒术高专制服且外套敞开,左手插在裤袋里,右手抬起至胸前比出“OK”手势,嘴角带着轻松的笑容,站在咒术高专的训练场上。
    模型回答对比】:
    # 示例5 创作与推理-世界知识推理
    【Prompt】:生成植物生理学原理的世界知识推理过程,树叶在秋天会变黄并脱落,为什么会出现这一现象?秋天日照时间缩短、温度降低,导致树叶中叶绿素的合成速率下降且分解加速,而叶片中的类胡萝卜素化学性质稳定未被分解,使叶片呈现黄橙色;同时,植物会产生脱落酸,促使叶柄基部形成离层,切断水分和养分运输,最终导致树叶脱落。图像需呈现:一片完整的银杏树叶从叶柄到叶尖的颜色渐变,叶片边缘放大显示离层细胞的微观结构。
    模型回答对比】:
    # 测评分析及结论
    1. 海外模型保持领先,国内模型快速缩小维度差距。
    从总榜来看,海外模型Nano Banana 2 (83.73分) 、Nano Banana Pro (83.22分) 断层领跑,GPT-Image-1.5 (77.63分) 紧随其后。国内头部阵营展现出了极强的追赶势头,百度的 ERNIE-Image (76.37分) 领衔国产第一梯队,与阿里的 Qwen-Image-2.0-Pro (75.68分) 以及字节的 Doubao-Seedream-5.0-lite (75.65分) 紧随其后。

    从国内外对比来看,国内大模型在汉字生成上稳稳压制海外(75.59 > 70.04);在现实复现 (71.19 vs 72.07) 上,国内外差距已压缩至不足1分;而在图像质量 (73.58 vs 79.03) 、创作与推理(67.68 vs 75.46) 上,国内模型正稳步缩小差距。然而,在图文一致性上,国内平均分 (37.78) 显著落后于海外 (44.72),说明在复杂语义的精准理解上,国内模型仍有较大进步空间。

    2. 行业能力呈现“基础生成成熟,逻辑认知薄弱”的两极格局。

    综合各维度头部排名与行业二级任务得分来看,当前文生图模型的发展呈现出极其严重的“偏科”现象,各维度领跑者分化明显:

    • 图像质量与创作推理:海外模型占据统治地位。Gemini系列在两项均包揽前两名 (最高分别达89.00分与90.27分),GPT-Image-1.5稳居第三。国内ERNIE、Qwen与Doubao紧随其后。

    • 汉字生成:国内外同台竞技,高内卷。海外Gemini 3 Pro(88.24分)领跑,国内ERNIE-Image (85.25分)  Doubao-Seedream-4.5 (85.24分) 紧咬比分。

    • 图文一致性:行业难点。除Gemini系列维持在70分以上、国内ERNIE-Image以65.00分逆势破局杀入前三外,其余国内外主流模型均在50分左右徘徊,部分甚至跌破30分。

    从行业二级任务平均分排名图可以看出,优越区的能力主要为纯视觉、具象特征任务,如“真实感”(83.85)与“文字准确度”(82.01)均超80分;然而,在严谨逻辑约束的薄弱区,分数呈现断崖式下跌:“世界知识推理”(52.73)、“数量关系”(46.76),直至垫底的“主体匹配”(33.80)、“空间关系”(23.15)与“数形结合”(21.76)。

    # 加入社群

    最新文章

    随机文章