哈希力量归集文库路径访问: 首页 > 机器智能 > NLP/LLM大模型 • GAI观察员

那个做出可灵的人张迪,回阿里又造了视频模型HappyHorse

苗正 ☉ 文 来源:字母AI 2026-04-14 @ 哈希力量选录

【人工摘要:且看如何接受电商业务的实测、暴击,或者说。阿里用HappyHorse开源带出电商网购场景多少个创新点......Seedance 2.0虽然效果也很猛,但是因为版权问题,字节暂停了Seedance 2.0的全球发布。】

AI视频这条赛道,最近有点冷,Seedance 2.0陷入版权争议,OpenAI关停Sora,让这条赛道上空阴霾密布。K9Y哈希力量 | 通用人工智能文库

就在这个时候,阿里牵出来了一匹黑马。K9Y哈希力量 | 通用人工智能文库

2026年4月,HappyHorse-1.0冲上Artificial Analysis榜首,在文生视频和图生视频(无音频)两个赛道同时压过字节、快手等对手。K9Y哈希力量 | 通用人工智能文库

张迪在2025年11月回归阿里巴巴,接任淘天集团未来生活实验室负责人一职,并直接向阿里妈妈CTO郑波汇报工作。K9Y哈希力量 | 通用人工智能文库

也就是说,张迪从回归到闯出名堂,中间也就隔了5个月左右。K9Y哈希力量 | 通用人工智能文库

关键在于,HappyHorse和阿里的千问一样,开放了可商用的开源版本。K9Y哈希力量 | 通用人工智能文库

现在千问在阿里什么地位?它是阿里集团级的核心通用大模型底座、AI战略的绝对核心载体。阿里现如今的一切,都是在围绕千问进行布局。K9Y哈希力量 | 通用人工智能文库

所以HappyHorse对阿里的意义,可能也远不止是一个刷榜秀技术的模型那么简单。K9Y哈希力量 | 通用人工智能文库

不过在理解阿里的想法之前,我们应该先来聊聊,张迪是谁。K9Y哈希力量 | 通用人工智能文库

01K9Y哈希力量 | 通用人工智能文库

从阿里到快手再回阿里K9Y哈希力量 | 通用人工智能文库

张迪毕业于上海交通大学计算机专业,本硕连读,2010年毕业后加入阿里巴巴,长期负责阿里妈妈的大数据和机器学习工程架构。K9Y哈希力量 | 通用人工智能文库

阿里妈妈做的是广告、推荐、搜索和转化,背后是大规模数据、大规模分发和复杂工程系统。这些东西听起来没有大模型那么热闹,但它们正是后来中国互联网公司训练AI人才的地方。K9Y哈希力量 | 通用人工智能文库

很多真正能把模型做成产品的人,并不是纯粹从实验室里出来的。他们更早经历过搜索、推荐、广告、内容分发这些系统的历练。K9Y哈希力量 | 通用人工智能文库

这我随便举几个例子你就懂了。谷歌CEO桑达尔·皮查伊,他就是做搜索栏和Youtube内容推荐出身的,微软的CEO萨提亚·纳德拉,他在微软一开始开发的就是必应搜索引擎和微软广告体系。K9Y哈希力量 | 通用人工智能文库

因为这些系统每天都在处理海量用户行为,也要求模型能在真实业务里稳定运行。它不允许工程师只做一个好看的demo,它强迫你做出真正有用的东西出来,还必须在延迟、成本、效果、反馈之间反复取舍。K9Y哈希力量 | 通用人工智能文库

张迪在阿里的十年,大致就是在这样的环境里度过的。那时候外界还没有把所有事情都叫作大模型,但阿里内部早就有一套围绕数据、算法和工程化的训练场。K9Y哈希力量 | 通用人工智能文库

2020年,张迪离开阿里去了快手。K9Y哈希力量 | 通用人工智能文库

当时的短视频平台,已经从流量竞争进入技术竞争阶段。张迪在快手历任技术副总裁、大模型与多媒体技术团队负责人,后来主导了可灵大模型的底层架构研发和应用落地。K9Y哈希力量 | 通用人工智能文库

2020年,张迪离开阿里去了快手K9Y哈希力量 | 通用人工智能文库

可灵对快手的意义是非常重大的。K9Y哈希力量 | 通用人工智能文库

可灵让快手从过去的“内容分发平台”,升级为“内容生产基础设施提供商”,构建了“创意生成-视频制作-一键分发-流量变现-数据迭代”的完整闭环。(原文此处缺少句号——哈希力量编修)K9Y哈希力量 | 通用人工智能文库

2025年4月,快手成立可灵AI事业部,并升级为公司一级部门,直接向CEO程一笑汇报,与短视频主业务平起平坐。K9Y哈希力量 | 通用人工智能文库

所以当他在2025年9月短暂加入B站,又在两个月后回到阿里时,这个动作就很难只看成一次普通的人才流动。K9Y哈希力量 | 通用人工智能文库

B站需要视频技术,阿里同样需要视频技术,只是阿里的需求更复杂。K9Y哈希力量 | 通用人工智能文库

快手做视频生成,无非就是分发。但阿里要是做视频生成,那背后牵连的环节就多了去了。有电商、广告、直播、云服务和海外商家。K9Y哈希力量 | 通用人工智能文库

前文提到,张迪2025年11月回归阿里后,出任淘天集团“未来生活实验室”负责人,职级P11。K9Y哈希力量 | 通用人工智能文库

如此安排下来,阿里味还是很浓的。它没有把视频模型简单放在一个纯研究部门里,其位置反而更靠近淘天这样一个交易现场。K9Y哈希力量 | 通用人工智能文库

换句话说,HappyHorse从构思开始,就是一个强调落地,和阿里现有生态绑定的产品。K9Y哈希力量 | 通用人工智能文库

五个月后,HappyHorse出现了。K9Y哈希力量 | 通用人工智能文库

这个速度确实快,阿里给了张迪一个新的业务场景和团队,他把视频模型这条路线再次打通。K9Y哈希力量 | 通用人工智能文库

他既不是从零开始进入AI视频,也不是单纯从外部空降到阿里。K9Y哈希力量 | 通用人工智能文库

他的职业路径像一条绕出去又绕回来的线。先在阿里学会大规模商业系统怎么运转,再去快手把视频生成做成产品,然后又回到阿里,把这套能力放进更大的商业机器里。K9Y哈希力量 | 通用人工智能文库

很多公司都在抢大模型人才,但真正稀缺的人,往往是能同时理解模型、业务和组织的人。K9Y哈希力量 | 通用人工智能文库

单纯会训练模型的人很多,单纯会讲战略的人也很多,难的是有人知道一个模型从技术路线开始,到架构设计,到训练推理,到产品出口,到最后被商家和用户用起来,中间每一步会在哪里卡住。K9Y哈希力量 | 通用人工智能文库

HappyHorse把张迪重新推到台前,也让阿里过去几年相对分散的AI叙事有了一个更具体的人物入口。K9Y哈希力量 | 通用人工智能文库

02K9Y哈希力量 | 通用人工智能文库

开源模型如何击败闭源巨头K9Y哈希力量 | 通用人工智能文库

HappyHorse真正引起关注的点,在于它赢得太突然了。K9Y哈希力量 | 通用人工智能文库

在视频生成这条赛道上,海外有Runway、Pika、Luma、Google的Veo,国内有字节的Seedance、快手的可灵。阿里排不上号。K9Y哈希力量 | 通用人工智能文库

所以当HappyHorse刚屠榜的时候,大家甚至更愿意相信说这是某创业公司开发的模型,也不愿意相信这是阿里的模型。K9Y哈希力量 | 通用人工智能文库

HappyHorse在文本转视频和图像转视频两个赛道都处在第一梯队,文本转视频Elo分数为1333,图像转视频Elo分数为1392。K9Y哈希力量 | 通用人工智能文库

Artificial Analysis的榜单本身会随用户盲测不断变化,后续页面分数也有更新,但是它确实在用户偏好测试中压过了一批更早出名的闭源模型。K9Y哈希力量 | 通用人工智能文库

这事其实挺反常的。通常来说,视频生成是最吃钱、吃数据、吃算力的方向之一。K9Y哈希力量 | 通用人工智能文库

闭源大厂可以把数据、模型细节、推理系统和产品体验藏在自己平台里,持续做内部迭代。K9Y哈希力量 | 通用人工智能文库

开源模型则要面对更多现实限制,它的参数要能公开,推理要能跑起来,社区要能复现,效果还要经得起横向比较。K9Y哈希力量 | 通用人工智能文库

所以在HappyHorse出现之前,开源视频模型大多数都是玩具,输出的视频不够稳定,人物还经常会出现漂移。K9Y哈希力量 | 通用人工智能文库

HappyHorse有150亿参数、40层统一自注意力Transformer架构,把文本、视频、音频三种模态的token放进同一个序列里联合建模。K9Y哈希力量 | 通用人工智能文库

这个路数和千问非常像,这也就解释了为什么张迪仅用5个月就把HappyHorse弄出来了,很可能是沿用千问留下来的高质量原生多模态训练方法。K9Y哈希力量 | 通用人工智能文库

像Sora这种非多模态原生的视频生成模型,经常会出现人物嘴在动,声音慢半拍的情况。并且有时候人物表情很丰富,但语气不对。人物还有可能在声音发出之前就行动了。K9Y哈希力量 | 通用人工智能文库

HappyHorse评分高的原因就在于,它通过原生多模态解决了这个问题。K9Y哈希力量 | 通用人工智能文库

HappyHorse原生支持英语、普通话、粤语、日语、韩语、德语、法语等多种语言的唇形同步,词错误率也被拿来和同类开源模型比较。K9Y哈希力量 | 通用人工智能文库

张迪为什么要这样做?我的理解是,如果阿里想让视频生这项技术进入广告、电商、短剧、教育和直播,就不能只靠画面漂亮。K9Y哈希力量 | 通用人工智能文库

它要能说话,要能配音,要让声音和画面同时成立。K9Y哈希力量 | 通用人工智能文库

另一个关键点是成本和速度。K9Y哈希力量 | 通用人工智能文库

HappyHorse在单张H100 GPU上生成5秒1080p视频约需38秒,并采用DMD-2蒸馏技术把去噪步骤压到8步。K9Y哈希力量 | 通用人工智能文库

这是视频生成商业化绕不开的一道坎。模型效果再好,如果生成一条短视频成本太高、等待太久,就很难进入商家日常工作流。K9Y哈希力量 | 通用人工智能文库

商家不会为每个商品等半天,也不会为几十个测试素材支付过高成本。K9Y哈希力量 | 通用人工智能文库

所以HappyHorse的意义不只是“能生成”,还在于它试图把生成速度和推理成本压到可用区间。K9Y哈希力量 | 通用人工智能文库

对开发者来说,开源意味着可以自托管、微调、接入自己的产品。对平台来说,开源也会带来更多社区反馈。(原文此处缺少句号——哈希力量编修)K9Y哈希力量 | 通用人工智能文库

一个闭源模型的进步主要依靠公司内部团队,一个开源模型会被开发者拿去做各种奇怪测试,问题暴露得快,改进方向也会变多。K9Y哈希力量 | 通用人工智能文库

Artificial Analysis的视频竞技场采用用户偏好投票,很多时候不只看某一个技术指标,更看用户在两段视频之间更喜欢哪一个。K9Y哈希力量 | 通用人工智能文库

当然,张迪还不能太骄傲,一次榜单登顶不等于永远领先。K9Y哈希力量 | 通用人工智能文库

竞争对手不会停在原地。HappyHorse现在赢下的只是一场公开测试,还不是整个战争。K9Y哈希力量 | 通用人工智能文库

HappyHorse如果只是一个能刷榜的模型,它的意义有限。可如果它能成为阿里云、淘天业务共同使用的视频生成底座,它就会变成一个入口。K9Y哈希力量 | 通用人工智能文库

所以说HappyHorse击败闭源巨头,最有意思的地方并不只是分数领先。真正值得关注的是,它让阿里找到了一种重新进入视频生成牌桌的方式。K9Y哈希力量 | 通用人工智能文库

它没有先做一个面向C端用户的APP,也没有只在内部做演示,而是直接拿开源模型接受全行业检验。K9Y哈希力量 | 通用人工智能文库

这场胜利未必会持续很久,但张迪让外界改变了对阿里在视频生成模型上的判断。K9Y哈希力量 | 通用人工智能文库

新的问题变成了,阿里准备把这项能力用到哪里?K9Y哈希力量 | 通用人工智能文库

03K9Y哈希力量 | 通用人工智能文库

HappyHorse对阿里的意义K9Y哈希力量 | 通用人工智能文库

HappyHorse最直接的落点,是电商。K9Y哈希力量 | 通用人工智能文库

过去大家谈AI视频,最容易想到影视、短剧、广告大片、创作者工具。诚然,这些都是实打实的大市场,不过它们离阿里的主业务还有一段距离。K9Y哈希力量 | 通用人工智能文库

阿里的优势不在于自己做一个视频社区,也不在于让普通用户每天打开一个AI视频APP消磨时间。阿里真正有优势的地方,是它手里有中国最密集的商品、商家、交易和广告系统。K9Y哈希力量 | 通用人工智能文库

这也是为什么很多人都在意说HappyHorse诞生于淘天集团的“未来生活实验室”。K9Y哈希力量 | 通用人工智能文库

淘天每天面对的是商家怎么卖货,商品怎么被看见,用户为什么点进来,又为什么下单。HappyHorse放在这里,大家自然就会想到它能不能提高商品内容生产效率,能不能提高转化,能不能帮平台多做生意?K9Y哈希力量 | 通用人工智能文库

对一个普通商家来说,视频内容一直是个麻烦事。K9Y哈希力量 | 通用人工智能文库

拍一条30秒的商品视频,你要找场景、找模特、打光、剪辑、配音。大品牌可以请团队,中小商家更多时候只能自己凑。K9Y哈希力量 | 通用人工智能文库

很多商品卖点并不复杂,问题在于没人把卖点拍出来。它们放在白底图里都很普通,一旦进入具体场景,用户才会意识到它能用来做什么。K9Y哈希力量 | 通用人工智能文库

前一阵在海外,太阳能喷泉泵这个产品卖爆了,它原本只是庭院小件,效果也就那么回事。但是被AI视频包装成鸟浴盆、鱼池和儿童浴缸里,酷炫的喷水玩具后,所有人都在疯抢。K9Y哈希力量 | 通用人工智能文库

AI没有改变商品本身,却改变了用户理解商品的方式。它把“功能说明”变成了“使用场景”。K9Y哈希力量 | 通用人工智能文库

这正好击中电商内容的痛点。K9Y哈希力量 | 通用人工智能文库

商品页里写满参数,用户未必有耐心看;主播讲半天,用户也未必相信。但一条十几秒的视频,如果能把场景讲清楚,转化效率可能会高很多。K9Y哈希力量 | 通用人工智能文库

更重要的是,AI视频可以批量生成。商家可以为同一个商品生成儿童版、家庭版、节日版、户外版,也可以为不同国家生成不同语言、不同人物、不同场景。K9Y哈希力量 | 通用人工智能文库

这对阿里的意义,比单纯做一个视频生成工具要大。无论是淘宝,还是天猫,上面都有大量商家,也都有大量商品数据和交易反馈。K9Y哈希力量 | 通用人工智能文库

一个AI视频工具如果只知道生成漂亮画面,它很快会变成素材软件;如果它能知道这个商品在什么场景下更容易被点击,什么文案更容易带来加购,什么视频前几秒更容易留住用户,它就会接近电商操作系统的一部分。K9Y哈希力量 | 通用人工智能文库

阿里比其他视频生成模型公司多出来的,正是这个反馈闭环。K9Y哈希力量 | 通用人工智能文库

商品图、详情页、评价、问答、搜索词、点击率、加购率、退款原因、直播间停留时间,这些东西看起来零碎,却都是训练电商内容能力的燃料。K9Y哈希力量 | 通用人工智能文库

HappyHorse如果接入这些反馈,就可以从“帮商家生成一条视频”,进化到“帮商家生成更可能卖货的视频”。K9Y哈希力量 | 通用人工智能文库

面向淘天,它可以做主图视频、商品场景短片、直播切片、虚拟主播和营销素材。K9Y哈希力量 | 通用人工智能文库

过去一个商家上新,可能只上传几张图,最多再拍一条粗糙短视频。以后它可以把商品图、卖点、评价和人群标签交给系统,让系统生成多条不同版本的视频,再用真实投放和成交数据筛选出更有效的那一条。K9Y哈希力量 | 通用人工智能文库

这个过程如果跑顺了,平台内容供给会明显增加,中小商家的内容门槛也会下降。K9Y哈希力量 | 通用人工智能文库

不过,AI视频带货也有风险。它可以放大卖点,也可能放大幻觉。一个喷泉泵在AI视频里喷得很高,现实里达不到那样的效果。K9Y哈希力量 | 通用人工智能文库

阿里的机会不该是纵容商家用AI造梦,重点应该放在商品参数、实拍素材、买家评价和平台审核上,让生成内容有边界。K9Y哈希力量 | 通用人工智能文库

3月下旬,OpenAI宣布关停Sora独立应用和相关API。原因很现实,视频生成太烧钱,用户留存撑不起成本,OpenAI要把算力放回编码、企业服务和机器人方向。K9Y哈希力量 | 通用人工智能文库

Sora倒在了商业账上。K9Y哈希力量 | 通用人工智能文库

字节也在另一头遇到麻烦。Seedance 2.0虽然效果也很猛,但是因为版权问题,字节暂停了Seedance 2.0的全球发布。K9Y哈希力量 | 通用人工智能文库

模型训练得越强,就越容易踩进版权、肖像权和训练数据的泥潭。K9Y哈希力量 | 通用人工智能文库

这时再看张迪带队做出的HappyHorse,它有清晰的商业场景。而且阿里手里的商品图、商家素材、实拍视频和交易反馈,天然比影视IP更适合可控生成。K9Y哈希力量 | 通用人工智能文库

所以HappyHorse的价值,不只在榜单。它给AI视频找了一个更稳的落点。K9Y哈希力量 | 通用人工智能文库

(原文标题:《那个做出可灵的人,回阿里又造了一匹黑马》。文章部分插图未收录。原文编辑:王靖)K9Y哈希力量 | 通用人工智能文库



来源链接文末附或略。内容并不代表投资建议。


本文选录后固定可引用URL链接
    http://www.haxililiang.com/huodong/luyan/38187.html


☉ 文库同一主题内容智能推荐 ☉
哈希力量 ☉ 通用人工智能文库