登顶的是谁?
有个大模型打赢了Seedance 2.0。
快乐小马!(Happy Horse)
打赢了年初惊艳亮相,还被影视飓风强调了隐私的那个Seedance 2.0。
更新速度也太快了吧——即梦的加速收费计划才刚刚开始没多久,新王就已经出现了。
2026年4月8日,权威AI评测平台Artificial Analysis的视频生成榜单上,一款名为Happy Horse的模型悄然登顶。
没有发布会,没有技术博客,没有任何公司背书,它以断崖式领先的成绩,把字节跳动的Seedance 2.0、快手的可灵等头部产品全部甩在身后。
这个榜单的排名不是靠技术参数堆出来的,而是基于数千名真实用户的盲测对比——用户完全不知道视频来自哪个模型,一票一票投出来的结果。
在"文生视频(无音频)"赛道,Happy Horse的Elo得分达到1333分,领先第二名Seedance 2.0约60分;在"图生视频(无音频)"赛道,更是跑出1392分的高分,刷新该榜单历史纪录。
这意味着什么?用业内人士的话说:"这个分差,相当于第二名到第十九名的差距总和。"
Happy Horse到底什么来路?
空降榜单第一
这个榜单是什么。
Artificial Analysis被公认为AI界最权威的第三方评测网站之一,独立收集并展示来自OpenAI、Anthropic、谷歌等国际巨头以及国内各大厂的数百个模型。
它的评分体系基于真实用户盲测:系统随机展示两段匿名模型生成的视频,用户仅凭画质、动作流畅度、物理逻辑等主观感受投票,完全不知道哪个模型生成了哪段视频。"不讲品牌、只看效果"的机制,最接近普通创作者和消费者的真实感知。
Happy Horse在这个榜单上交出了碾压级的成绩单:
文生视频(无音频):Elo 1333分,第1名,领先第二名Seedance 2.0约60分
图生视频(无音频):Elo 1392分,第1名,刷新榜单历史纪录,领先第二名Seedance 2.0约37分
文生视频(含音频):Elo 1205分,第2名,仅落后Seedance 2.0约14分
图生视频(含音频):Elo 1161分,第2名,与Seedance 2.0几乎打平
在Elo积分制中,60分的差距意味着Happy Horse在与Seedance 2.0的正面对决中,能赢得约58%-59%的投票。这不是运气,而是统计学意义上的显著优势。
更值得注意的是Happy Horse的稳定性。据榜单数据显示,其95%置信区间仅为±12,是全榜单最窄的。这意味着模型的输出质量极度稳定,不会出现"偶尔惊艳、偶尔翻车"的不可控情况。
Happy Horse对其他竞品的胜率同样惊人:对Ovi 1.1胜率高达80%,对LTX 2.3胜率60.9%。
它是目前唯一在质量上全面碾压闭源商业模型的开源方案。
技术架构
Happy Horse的技术架构走的是一条"反内卷"路线。
模型参数量为150亿,采用40层纯自注意力Transformer架构——没有交叉注意力,没有独立的音频分支,也没有专门的条件网络。
整体设计刻意追求极简:把所有模态(文本、图像、视频、音频)的token拼成同一个序列,让模型在去噪过程中自己学会跨模态对齐。
这种设计被称为"三明治"架构:
- 输入层(前4层):模态特定投影层,处理文本/图像/视频/音频的嵌入
- 共享层(中间32层):统一自注意力处理,跨模态推理的核心发生地
- 输出层(后4层):模态特定解码层,输出视频/音频去噪结果
前后各4层负责处理不同模态的输入输出特征,中间32层共享参数,实现高效的跨模态学习。
关键技术细节包括:
逐头门控(Per-head Gating):每个注意力头配备可学习的Sigmoid门控,防止音频梯度主导或消失,稳定多模态训练时的梯度反传。
无时间步嵌入:Happy Horse发现噪声水平本身已编码在输入中,干脆移除显式时间步嵌入,这是实现DMD-2蒸馏的关键前提。
纯自注意力机制:文本条件通过拼接序列注入,而非传统的Cross-Attention,减少了模态对齐失败的可能性。
这种架构设计与此前开源的daVinci-MagiHuman高度同源。后者是上海创智学院(SII)GAIR实验室与北京Sand.ai(三呆科技)联合开发的模型,Happy Horse被认为是其针对用户真实偏好场景优化的迭代版本。
参数能力
Happy Horse的性能数据来自多个维度。
生成速度:采用DMD-2(Distribution Matching Distillation v2)蒸馏技术,将去噪步数从传统扩散模型的25-50步压缩至仅8步,同时完全不需要分类器引导(CFG)。在单张NVIDIA H100 GPU上,生成5秒1080p视频约需38秒;生成256p预览版仅需约2秒。
传统扩散模型需要25-50步去噪,配合CFG计算量翻倍。Happy Horse砍到8步还不用CFG,推理计算量直接腰斩。这种15B参数的"有效计算密度",效果基本相当于传统30B以上模型跑50步的水平。
多语言支持:原生支持7种语言的唇形同步——英语、普通话、粤语、日语、韩语、德语、法语。这些语言的口型、语调和语音时序是和视频一起联合训练出来的,不是后期贴上去的。官网语言排序中,普通话和粤语排在英语之前,侧面印证了中国团队的背景。
音频能力:Happy Horse的核心卖点是原生音视频联合生成。大多数视频模型的工作方式是先生成无声视频,再找另一个模型配音,再找另一个工具做口型对齐——几道工序下来,时间和误差都在叠加。
而Happy Horse用一个统一的Transformer同时处理视频和音频,一次前向推理直接输出带声音的成片:口型、脚步声、环境音全部在同一个过程里生成,不需要任何后期拼接。
音频能力细节包括:
- 音素级唇同步(Phoneme-Level Lip Sync):词错误率(WER)仅14.60%,显著优于Ovi 1.1的40.45%和LTX 2.3的19.23%
- 全自动化Foley:自动生成环境音、脚步声、碰撞声等拟音效果
实测性能指标:
物理模拟:Happy Horse对物理逻辑的模拟堪称一绝。在社区测试案例中,呼啦圈在腰间滚动时的离心摆动、橡皮筋球落地后的多次弹跳、液体倒入咖啡杯时形成的小漩涡——这些让多数模型"翻车"的交互场景,它都能做到近乎真实世界般的合理输出。
生成时长:目前官方支持5-8秒视频生成,分辨率1280×720、24fps。与可灵3.0(最长2分钟)、Sora 2(60秒)相比仍有差距。
硬件要求:推荐使用NVIDIA H100或A100,显存至少48GB。消费级显卡目前难以直接运行,社区正在开发量化方案。
技术团队
Happy Horse的幕后团队是谁?这个问题在4月8日到9日引发了技术圈的"解密竞赛"。
线索一:名字本身。"Happy Horse"贴合2026农历马年,中文AI圈称之为"快乐马",这个命名藏着不太含蓄的马年梗。
线索二:语言排序。官网支持语言的排序是普通话和粤语排在英语之前,明显是面向中国用户的设计。
线索三:技术比对。X平台用户将Happy Horse的公开基准数据与已知模型逐一核对,发现与3月开源的daVinci-MagiHuman高度吻合——视觉质量4.80、文本对齐4.18、物理一致性4.52、语音字错率14.60%,两份数据逐项对得上。官网结构也几乎一样,像是出自同一套模板。
线索四:阿里高管点赞。从阿里离职不久的通义千问(Qwen)大模型技术负责人林俊旸公开点赞出圈的Happy Horse:"快乐马非常快乐"。
线索五:资本市场反应。消息传出当天,阿里巴巴港股午后大涨超7%。杰富瑞(Jefferies)在最新报告中明确指出,Happy Horse背后开发者为阿里巴巴。
最终确认来自钛媒体:业内备受关注的视频模型Happy Horse-1.0确系阿里巴巴研发,由前快手副总裁、可灵技术负责人张迪带队。
核心人物:张迪
张迪的履历堪称AI视频领域的"活化石":
2010年:上海交通大学计算机专业硕士毕业后加入阿里巴巴,曾任阿里妈妈大数据与机器学习工程架构负责人。他是阿里广告算法向深度学习转型的亲历者,技术底子雄厚。
2020年:追随老同事盖坤加入快手,担任副总裁。2023年起主导大模型团队,从0到1一手搭建了"可灵AI"的技术底座,被业内称为"可灵AI之父"。在快手期间,可灵AI用户突破4500万,2025年Q2单季营收达到2.5亿元,年度经常性收入(ARR)突破1亿美元。他带领团队发表了80多篇国际顶会论文。
2025年8月:从快手卸任并离职。
2025年9月:短暂加入哔哩哔哩,出任技术线核心负责人。
2025年11月:回归阿里巴巴,出任淘天集团"未来生活实验室"负责人,职级P11,直接向淘天集团首席科学家郑波汇报。
令人惊叹的是,张迪回归阿里仅用5个月时间,就带领团队打造出Happy Horse-1.0,登顶全球AI视频排行榜。
一个人先在快手做出了可灵,然后跳到阿里做出了Happy Horse来打败可灵——这种剧情,编剧都不敢这么写。
组织背景
淘天集团"未来生活实验室"是阿里巴巴重点AI研发机构,聚焦大模型、多模态等前沿技术,致力于打造AI原生应用。
成立一年多来已在大语言模型等领域取得多项突破,发表国际顶会论文超10篇。
钛媒体还披露,阿里云将很快将Happy Horse上线百炼平台,阿里巴巴近期的组织调整也与此有关。
就在消息传出前一天,阿里巴巴宣布新一轮AI组织架构调整:新设集团技术委员会,将通义实验室升级为通义大模型事业部。张迪所属的多模态相关团队并入ATH事业部,通义大模型事业部将全权负责阿里的模型出口。
竞品模型
将Happy Horse与当前主流竞品放在一起对比,更能看清这匹"黑马"的成色。
与Seedance 2.0的对比
Seedance 2.0是字节跳动旗下Dreamina团队开发的视频生成模型,2026年初上线后一度统治榜单。它采用统一多模态生成架构,支持文本、图像、视频、音频作为输入,内置的音频生成功能带有帧级精确的音效、对话和音乐。
在纯视觉质量上,Happy Horse碾压Seedance 2.0;但在含音频的综合排名中,Seedance 2.0仍略胜一筹。这意味着Happy Horse的音频生成能力虽然存在且具有竞争力,但并非其最强项。
与可灵3.0的对比
可灵3.0是快手推出的视频生成模型,在物理真实感、人物动作和精确控制方面表现出色。其运动笔刷功能和明确的动作编排能力为创作者提供了粒度控制,在面部表情、口型同步和自然人物动作方面行业领先。
可灵的用户基数大、生态成熟,但在榜单排名上已被甩开。更有戏剧性的是,可灵的核心架构正是Happy Horse团队负责人张迪在快手时期主导搭建的。
与Sora 2的对比
OpenAI的Sora 2在榜单上排在20名开外,Elo比Happy Horse低了170多分。Sora曾被视为视频生成领域的标杆,但在2026年的竞争中已显疲态。就在Happy Horse登顶前后,OpenAI宣布关闭Sora服务,结束其在视频生成领域的探索。
综合对比
Happy Horse的优势与局限
优势:
局限:
Happy Horse这匹"快乐马"能否持续领跑,仍需时间验证。但有一点已经明确:AI视频生成领域远未到"终局",技术路线仍在快速迭代。