发生了什么

HappyHorse 是由阿里巴巴淘天集团(TTG)未来生活实验室开发的文本转视频及图像转视频生成模型。该模型已在 Artificial Analysis 基准测试中出现,据称其得分超越了字节跳动的 SeedAnce 2.0。根据 LocalLLaMA 社区帖子引用多个独立来源的消息,该项目由张迪(P11 级,相当于首席研究员)领导,他此前曾担任快手 Kling 视频生成项目的首席工程师,随后回归阿里巴巴生态。

该实验室最初隶属于 ATH-AI 创新业务部,随后在 TTG 内部独立运营。Alimama(阿里巴巴的算法广告平台,也是 Wan 视频模型的诞生地)为该项目提供了机构支撑。内部流传的发布日期为本月 10 日,相关信息早在 3 月就已泄露,随后被阿里巴巴公关部门压制。

已确认的关键技术参数包括:720p(1280×720)分辨率输出、24fps 帧率、5 秒片段、原生同步音频生成(含音效和环境音)、8 步推理,以及基于 Transfusion 范式的无 CFG(Classifier-Free Guidance-less)单 Transformer 架构。据传团队将同时发布多个模型变体。

技术深度解析

这里的架构选择经过深思熟虑,值得深入剖析。HappyHorse 采用单 Transformer Transfusion设计,意味着视频帧和音频令牌在单一统一模型中处理,而非分离的视频和音频分支。Transfusion 最初在 Meta 2024 年的论文中描述,它将自回归文本生成与基于扩散的连续模态生成结合在单一模型中,消除了为每种模态单独使用编码器/解码器的需求。

无 CFG推理值得注意。像 Open-Sora 或 CogVideoX 这样的标准扩散视频模型依赖 Classifier-Free Guidance,这需要每一步进行两次前向传播——一次条件,一次无条件——实际上使计算量翻倍。移除 CFG 并在 8 步内实现具有竞争力的质量,使 HappyHorse 在推理速度上更接近一致性模型(consistency-model)领域。

作为对比:Wan 2.1(同样源自阿里巴巴/Alimama 体系)采用带有 CFG 的 DiT 架构,通常运行 50 步。字节跳动的 SeedAnce 2.0 是一个多阶段流水线,具有独立的音频条件设置。如果基准测试分数属实,HappyHorse 的单次 8 步方法代表了有意义的效率提升。

原生音频生成

大多数开源视频模型将音频视为后处理步骤——先生成视频,然后单独合成或检索音频。HappyHorse 在同一前向传播中同步生成音效和环境音频与视频帧。这在架构上类似于 Google 2023 年展示的 VideoPoet,但从未开源。同步优势显著:音频事件无需单独的对齐模型即可在时间上与视觉事件对齐。

推理概况

  • 步数:8 步(无 CFG,单次通过)
  • 分辨率:1280×720
  • 帧率:24fps,5 秒片段 = 120 帧
  • 音频:原生,与视频令牌同步
  • 范式:Transfusion(统一 AR + 扩散)

在没有 CFG 翻倍的情况下,8 步推理的挂钟时间应比同等分辨率下 50 步的 CFG 模型快约 8–12 倍,假设参数量相似——尽管参数量尚未正式披露。

谁应该关注

本地推理爱好者,特别是运行 Wan 或 CogVideoX 的用户,应密切关注此动态。如果权重以可管理的规模(低于 14B 参数)发布,HappyHorse 将成为短片段生成流水线的直接替代方案,并附带原生音频优势,无需串联单独的 TTS 或拟音模型。

游戏开发者和独立电影制作人利用视频生成进行原型设计,将从同步音频中受益,从而完全省去一个流水线步骤。

研究 Transfusion 架构的 ML 研究人员将获得一个罕见的生产级开源案例进行研究。目前,大多数 Transfusion 实现仍处于研究原型阶段。

基于 Wan 构建的团队应予以关注:HappyHorse 源自相同的 Alimama 体系,很可能共享训练基础设施洞察,这意味着在 Wan 上有效的微调方法可能可以迁移。

本周行动指南

1. 监控 artificialanalysis.ai 上的 Artificial Analysis 视频生成排行榜——HappyHorse 的分数已出现,可直接与 SeedAnce 2.0 和 Wan 2.1 进行比较。

2. 关注 Hugging Face 上 Alibaba-TTG 的组织页面,或在 HuggingFace Hub 上搜索 HappyHorse

https://huggingface.co/models?search=happyhorse

3. 设置 GitHub 搜索警报 HappyHorse,以捕捉任何早期的权重或代码发布。

4. 如果您今天本地运行 Wan 2.1,请基准测试当前的推理时间作为基线——当 HappyHorse 权重发布时,您将在自己的硬件上进行苹果对苹果的比较。

5. 在权重上线后关注 r/LocalLLaMA 线程以获取社区验证,独立的 VRAM 和速度基准测试将在发布后数小时内出现。