HappyHorse：阿里巴巴开源权重视频生成模型对标 SeedAnce 2.0

发生了什么

HappyHorse 是由阿里巴巴淘天集团（TTG）未来生活实验室开发的文本转视频及图像转视频生成模型。该模型已在 Artificial Analysis 基准测试中出现，据称其得分超越了字节跳动的 SeedAnce 2.0。根据 LocalLLaMA 社区帖子引用多个独立来源的消息，该项目由张迪（P11 级，相当于首席研究员）领导，他此前曾担任快手 Kling 视频生成项目的首席工程师，随后回归阿里巴巴生态。

该实验室最初隶属于 ATH-AI 创新业务部，随后在 TTG 内部独立运营。Alimama（阿里巴巴的算法广告平台，也是 Wan 视频模型的诞生地）为该项目提供了机构支撑。内部流传的发布日期为本月 10 日，相关信息早在 3 月就已泄露，随后被阿里巴巴公关部门压制。

已确认的关键技术参数包括：720p（1280×720）分辨率输出、24fps 帧率、5 秒片段、原生同步音频生成（含音效和环境音）、8 步推理，以及基于 Transfusion 范式的无 CFG（Classifier-Free Guidance-less）单 Transformer 架构。据传团队将同时发布多个模型变体。

技术深度解析

这里的架构选择经过深思熟虑，值得深入剖析。HappyHorse 采用单 Transformer Transfusion设计，意味着视频帧和音频令牌在单一统一模型中处理，而非分离的视频和音频分支。Transfusion 最初在 Meta 2024 年的论文中描述，它将自回归文本生成与基于扩散的连续模态生成结合在单一模型中，消除了为每种模态单独使用编码器/解码器的需求。

无 CFG推理值得注意。像 Open-Sora 或 CogVideoX 这样的标准扩散视频模型依赖 Classifier-Free Guidance，这需要每一步进行两次前向传播——一次条件，一次无条件——实际上使计算量翻倍。移除 CFG 并在 8 步内实现具有竞争力的质量，使 HappyHorse 在推理速度上更接近一致性模型（consistency-model）领域。

作为对比：Wan 2.1（同样源自阿里巴巴/Alimama 体系）采用带有 CFG 的 DiT 架构，通常运行 50 步。字节跳动的 SeedAnce 2.0 是一个多阶段流水线，具有独立的音频条件设置。如果基准测试分数属实，HappyHorse 的单次 8 步方法代表了有意义的效率提升。

原生音频生成

大多数开源视频模型将音频视为后处理步骤——先生成视频，然后单独合成或检索音频。HappyHorse 在同一前向传播中同步生成音效和环境音频与视频帧。这在架构上类似于 Google 2023 年展示的 VideoPoet，但从未开源。同步优势显著：音频事件无需单独的对齐模型即可在时间上与视觉事件对齐。

推理概况

步数：8 步（无 CFG，单次通过）
分辨率：1280×720
帧率：24fps，5 秒片段 = 120 帧
音频：原生，与视频令牌同步
范式：Transfusion（统一 AR + 扩散）

在没有 CFG 翻倍的情况下，8 步推理的挂钟时间应比同等分辨率下 50 步的 CFG 模型快约 8–12 倍，假设参数量相似——尽管参数量尚未正式披露。

谁应该关注

本地推理爱好者，特别是运行 Wan 或 CogVideoX 的用户，应密切关注此动态。如果权重以可管理的规模（低于 14B 参数）发布，HappyHorse 将成为短片段生成流水线的直接替代方案，并附带原生音频优势，无需串联单独的 TTS 或拟音模型。

游戏开发者和独立电影制作人利用视频生成进行原型设计，将从同步音频中受益，从而完全省去一个流水线步骤。

研究 Transfusion 架构的 ML 研究人员将获得一个罕见的生产级开源案例进行研究。目前，大多数 Transfusion 实现仍处于研究原型阶段。

基于 Wan 构建的团队应予以关注：HappyHorse 源自相同的 Alimama 体系，很可能共享训练基础设施洞察，这意味着在 Wan 上有效的微调方法可能可以迁移。

本周行动指南

1. 监控 artificialanalysis.ai 上的 Artificial Analysis 视频生成排行榜——HappyHorse 的分数已出现，可直接与 SeedAnce 2.0 和 Wan 2.1 进行比较。

2. 关注 Hugging Face 上 Alibaba-TTG 的组织页面，或在 HuggingFace Hub 上搜索 HappyHorse：

https://huggingface.co/models?search=happyhorse

3. 设置 GitHub 搜索警报 HappyHorse，以捕捉任何早期的权重或代码发布。

4. 如果您今天本地运行 Wan 2.1，请基准测试当前的推理时间作为基线——当 HappyHorse 权重发布时，您将在自己的硬件上进行苹果对苹果的比较。

5. 在权重上线后关注 r/LocalLLaMA 线程以获取社区验证，独立的 VRAM 和速度基准测试将在发布后数小时内出现。

HappyHorse：阿里巴巴开源权重视频生成模型对标 SeedAnce 2.0

发生了什么

技术深度解析

原生音频生成

推理概况

谁应该关注

本周行动指南

相关推荐

Google AI 眼镜接近可卖点

Google 把 Gemini 变成入口税

Karpathy 去 Anthropic 的信号

文心 5.1 真正在卖成本曲线

UMG 与 TikTok 联手围堵 AI 音乐

华为真正追的是制程自主权