一个神秘模型悄悄冲上 #1,又悄悄消失——揭开这匹"黑马"的真实身份
在线体验:https://happyhorse-ai.com | 官方排名:Artificial Analysis #1(April 2026)
这匹"黑马"做了什么?
2026 年 4 月初,一个名为 HappyHorse-1.0 的模型突然出现在 Artificial Analysis Video Arena 排行榜上。
没有发布会、没有技术博客、没有公司背书——它就这么匿名登顶了:
| | |
|---|
| Text-to-Video(无音频) | | |
| Image-to-Video(无音频) | | |
| | |
把 Seedance 2.0、Kling 3.0、PixVerse V6 甩在身后。
然后,几天后它又从排行榜上消失了,只留下截图和猜测。
真实身份揭晓:阿里淘天 + 张迪
谜底很快被揭开。
根据官方页面确认:HappyHorse 1.0 由阿里巴巴淘天集团 Future Life Lab 团队开发,项目负责人是 张迪。
张迪这个名字在 AI 视频圈不陌生:
- • 前快手副总裁、可灵(Kling)AI 技术负责人
- • 2025 年底加入阿里巴巴,负责多模态 AI 创新
- • HappyHorse 是他在阿里的第一个公开项目
一句话定位:从快手可灵到阿里 HappyHorse,张迪用开源策略,向视频生成赛道投了一颗"炸弹"。
HappyHorse 的核心架构
根据官方披露的技术信息,HappyHorse 1.0 有几个非常激进的设计选择。
40 层单流 Self-Attention Transformer
传统视频模型大多用 多流架构:文本、视频、音频各自有编码器,通过 Cross-Attention 交互。这种结构灵活,但浪费参数,推理时要在不同分支间来回搬运张量。
HappyHorse 简化成 单管道:
文本 + 视频 + 音频 → 统一 token 序列 → 40 层 Self-Attention → 联合输出
没有 Cross-Attention,没有专门针对单模态的子网络。所有模态编码成同一个 token 序列,在同一个注意力空间里建模。
这意味着:
- • 推理路径短:没有跨模态搬运,kernel 更连续
- • 原生音视频同步:声音和画面是同一序列里的 token,天然绑定
8 步降噪 + 无 CFG
用过 Stable Video Diffusion 或 Kling 的人都知道:几十步降噪 + Classifier-Free Guidance(CFG)是标配。
HappyHorse 官方声称:只用 8 步降噪,不需要 CFG,就能达到 Arena #1 的画质。
这通常意味着训练时用了:
- • Consistency Distillation
- • Progressive Distillation
把多步采样压缩成几步直接预测。配合官方提到的"蒸馏模型"和"超分模型",整条推理链对边缘设备和服务器都更友好。
参数规模与硬件门槛
权重暂未公开,但参考 40 层单流架构 + 6 语言支持 + Arena 表现,合理推测参数在 10B–30B 区间。
实测反馈:
- • 社区正在研究量化方案,但短期内本地部署门槛很高
以上为网络搜索到的HappyHorse生成效果视频
为什么能登顶?
这不是"技术碾压",而是"策略精准"。
人像场景天然优势
Artificial Analysis 的盲测样本里,人像生成 + 口播内容占比超过 60%。
HappyHorse(底层基于 daVinci-MagiHuman)从训练阶段就专注人像表现:
这给了它在盲测里的天然优势——如果样本主要是人像特写,擅长人像的模型系统性地赢面更大。
评分机制的"可优化空间"
Elo 系统本质是用户偏好的累积。
稍加打磨几个敏感点——表情稳定度、音画对齐、画面讨好度——就能在盲测里更容易被选中。模型能力上限没变,但"评分表现"可以被调优。
这也是为什么有测试者反馈:HappyHorse 在人物细节、动态连贯上,和 Seedance 2.0 还有可见差距。
与主流模型的对比
核心差异:HappyHorse 不只是"更聪明",而是架构更简洁——单流 Transformer + 极少步推理。
当前局限
登顶一次不代表全面碾压。
场景局限
实测反馈指出:
硬件门槛高
排行榜 vs 实际体验
有测试者指出:综合可用性不如 LTX 2.3。
排行榜分数不能完全代表复杂场景(多人物、长镜头、叙事连贯)的真实表现。
对行业的影响
即使 HappyHorse 最终只是一个"精心策划的预热",它已经留下三个信号。
信号 1:单流架构可行
过去两年,主流视频模型一直在多流 Diffusion + Cross-Attention 的路径上迭代。
HappyHorse 用 Arena #1 证明:单流 Self-Attention + 极少步推理,也能达到 SOTA,而且工程更简洁。
这会推动更多团队重新思考:Cross-Attention 的"复杂度税"是不是该砍掉?
信号 2:开源策略变了
HappyHorse 走的是:
匿名登榜 → 公布开源承诺 → 发布权重
而不是传统的"先发论文 → 再放权重"。
这种"先在真实用户偏好里证明自己,再开源"的策略,已经在亚洲团队里验证过多次——成本低、效果好、信任度高。
信号 3:闭源的"定价权"被挑战
开源视频模型一直有,但效果和闭源之间有可见差距。
HappyHorse 第一次让基于开源模型的产物,在真实用户盲测里直接对标闭源头部。
对靠这个差距支撑定价权的厂商,这是一个值得关注的信号。
如何尝试 HappyHorse?
在线体验
官方页面:https://happyhorse-ai.com
需要注册账号(免费),等待生成 API 上线。
Arena 测试
Artificial Analysis:https://artificialanalysis.ai/video-generation
在 Arena 里匿名测试,对比 HappyHorse 和 Seedance 2.0 / Kling 3.0。
本地部署(等开源)
官方承诺即将开源,GitHub 和 Model Hub 链接待公布。
推测部署命令(发布后):
# 下载权重(示意)git clone https://github.com/happyhorse-ai/happyhorse-1.0cd happyhorse-1.0# 安装依赖pip install -r requirements.txt# 运行推理(需要 H100)python generate.py --prompt "一个年轻女性在咖啡馆里微笑着说话" --output video.mp4
写在最后
HappyHorse 的故事,是一个"黑马"的故事:
对开发者:如果你在构建 Agent、工作流自动化、多模态应用——HappyHorse 的架构值得关注,开源后可能大幅简化工程。
对普通用户:视频生成正在从"问答助手"进化为"任务执行器",HappyHorse 是这条路上的一个里程碑。
值得关注的后续:
- 1. GitHub 和 Model Hub 链接公布
本文基于官方页面、Artificial Analysis 排行榜数据、36氪报道等公开信息整理。HappyHorse 具体能力以正式开源发布为准。
原始来源
- • Artificial Analysis Video Arena: https://artificialanalysis.ai/video-generation
- • HappyHorse 官方页面: https://happyhorse-ai.com
- • 36氪报道(谜底揭晓): https://eu.36kr.com/en/p/3757826958635781
- • Apiyi 深度分析: https://help.apiyi.com/en/happyhorse-model-mystery-ai-video-lmarena-analysis-en.html