谁是中国版Sora？国产文生视频大模型加速跑

沃鑫才子时间2024-05-12 分类科技浏览13873

“面对Sora带来的挑战，不妨让子弹再飞一会儿”。两个多月前，OpenAI又一记深水炸弹，以文生视频大模型Sora引爆全球，当时谈及国内外文生视频大模型的差距，伽利略资本合伙人郑�X做出了这样一句评价。

两个多月后，“预言”应验。先是生数科技联合清华大学发布了视频大模型Vidu，一度被外界形容为中国首个Sora级视频大模型，近日，亦有媒体报道称，智谱AI也正研发对标Sora的国产文生视频模型，最快年内发布。

随着企业竞相入局，国内文生视频大模型明显进入加速阶段。但就像郑�X说的，Sora的出现并非技术上的突破，而在工程方面，国产大模型的差距其实并没有多远，“从本质上讲，场景或许是比工程突破更值得思考的一件事”。

Sora之后

近日，有媒体报道称，智谱AI正在研发对标Sora的高质量文生视频模型，预计最快年内发布。对此，北京商报记者联系了智谱AI，对方表示该消息非官方信源消息，没有其他信息可以提供。

公开资料显示，智谱AI由清华大学计算机系技术成果转化而来，也是国内最早研发大模型的企业之一。今年1月，智谱AI发布新一代基座大模型GLM-4，智谱AI CEO张鹏曾介绍称，GLM-4的整体性能相比上一代大幅提升，逼近GPT-4。

在此之前，国产文生视频大模型已经掀起过一波浪潮。4月27日的2024中关村论坛年会上，清华大学联合生数科技正式发布中国首个长时长、高一致性、高动态性视频大模型Vidu，引发热议。

谁是中国版Sora？国产文生视频大模型加速跑

据介绍，Vidu是自Sora发布之后全球率先取得重大突破的视频大模型，性能全面对标国际顶尖水平。

“Vidu是全栈自主创新的最新成果，在多个维度上实现了技术突破，包括可以模拟真实物理世界、具有想象力、可以理解多镜头语言而不再是简单的镜头推拉、可以一键生成长达16秒的视频、人物场景时间保持高度一致性、可以理解中国元素”。当时，清华大学教授、生数科技首席科学家朱军介绍称。

对于外界最关心的，Vidu和Sora的对比，朱军也在现场做出了展示，比如Sora在视频生成过程中丢掉了“旋转”这一关键词，但Vidu则能较好地抓住这一内容，实现视频视角的丝滑“旋转”。

不过也有分析认为，Vidu的16秒与Sora的一分钟仍存在算力和工程方面的巨大差距，对此，有业内人士对北京商报记者提到，Vidu的架构本身足够支持更长时间的视频生成，生数科技也介绍称，Vidu正在加速迭代提升中。

据悉，Vidu原创的Diffusion与Transformer融合的架构U-ViT，提出于2022年9月，早于Sora采用的DiT架构，是全球首个Diffusion与Transformer融合的架构。

值得一提的是，智谱AI与生数科技均出自“清华一脉”，而“清华系”AI企业，也已成为这一轮大模型浪潮绝对的中坚力量，光年之外、月之暗面、百川智能、面壁智能等均有清华学子的影子。

智谱AI的“清华底色”可能最浓，比如常被外界提及的清华计算机系教授唐杰就是智谱AI的创始人之一。而在2021年，时任智源研究院学术副院长的唐杰，便作为“悟道”模型技术委员会主任，带队先后发布了我国首个超大规模智能模型“悟道1.0”和“悟道2.0”。

而今，这支源于清华的力量也在不断“繁衍”。有媒体引用业内人士的分析称，清华系大模型公司的格局是以智谱AI为中心，布局人工智能上下游。今年3月，生数科技宣布完成新一轮数亿元融资，智谱AI就是跟投者之一。

2024中关村轮年年会期间，智谱AI总裁王绍兰还曾对媒体提到，生数科技在文生视频模型方面有比较突出的能力，是智谱已经投资的十多家AI大模型产业相关创业公司之一，“目前许多企业都拥有行业领先的技术实力，这是一种鲜明的技术导向”。

产品化才是关键

事实上，自Sora发布之后，国内文生视频领域便已开始升温。例如Sora发布的2月，清华大学便公布了一项文生视频专利。同月，中国首部文生视频AI动画片《千秋诗颂》播出。而在Vidu发布的第二天，国内首个音视频多媒体大模型万兴“天幕”正式公测。

据Gartner研究预测，到2030年，90%的数字内容都将是AI生成。预计2032年，全球AIGC市场规模将由2022年的108亿美元增加至1181亿美元。

经济学家、新金融专家余丰慧对北京商报记者分析称，文生视频的成功构建意味着AI模型能够处理更高维度、更复杂的数据，并进行创造性表达，这表明模型正朝着理解和创造世界的不同层面演进，这与AGI所追求的认知和决策能力更加接近。

“Sora这样的文生视频技术一旦成熟，理论上有可能颠覆传媒业、影视制作、游戏开发、虚拟现实、广告创意、教育等多个行业。它能够在短时间内根据用户需求自动生成高质量视频内容，大大降低创作成本，提高生产效率”，余丰慧补充称。

在接受北京商报记者采访时，郑�X提到，文生视频可以简单类比成分镜脚本，利用文本信息生成关键帧，以帧与帧的画面联合形成连续视频。在这个过程中，更多属于工程上的创新，而非技术层面的颠覆性突破，这也意味着国内外大模型的差距不会太长，整体时间差距可以保持在半年之内。

也是因此，比起工程上的突破，郑�X更关注的其实是应用场景。据他观察，AI短片在行业内的“单子”还非常小，更像是实验性质的尝试，比之成熟的商业制作“大片”还有很大差距，“基本可以忽略不计”。

影响AI视频商业化的因素，也可以从技术和市场两方面理解。技术层面，郑�X提到，还涉及大模型的稳定输出，比如是否能够保证镜头切换时主体的统一性。

即便这一工程问题得到解决，在真正的制作层面，碍于算力的巨大消耗以及训练成本等因素，AI视频的成本并不一定会比人工更低，这也进一步关系到广泛应用的时候，存在着一个渗透率问题。

“我们目前主动接触的文生视频项目还比较少，主要还是觉得场景没有那么核心，也不一定能在这个低谷穿越周期”，郑�X说。

更缺的是推理算力

企业竞相入局文生视频大模型，也引发出了另一个关键问题――算力。早在Sora发布后不久，360集团创始人周鸿�t就曾公开提到，Sora的技术路线如果被开源，国内将能很快赶上，但在追赶Sora时，算力有可能成为门槛。

中信证券曾简单估算，一个60帧的视频（约6―8秒）需要约6万个Patches，如果去噪步数是20的话，相当于要生成120万个Tokens。同时考虑到扩散模型在实际使用时往往需要多次生成的特点，实际计算量会远超120万个Tokens。

天使投资人、资深人工智能专家郭涛对北京商报记者分析称，大模型的训练需要处理大量的数据和复杂的计算。如果没有足够的算力，训练这样的模型将非常困难。其次，目前全球的算力资源是有限的，而且大部分集中在一些大型科技公司手中，这就使得其他公司或者研究机构在获取足够的算力资源方面面临挑战。

为应对算力挑战，余丰慧提到，中国算力产业正处于快速发展阶段，政府大力推动新基建，包括数据中心、5G网络、云计算平台等基础架构的建设。多家上市公司如百度、腾讯、浪潮信息、中科曙光等在AI算力领域均有布局，并取得显著成果。

但人们在谈大模型算力时，通常会更多地将目光聚焦在训练算力，而郑�X认为，真正的算力缺口其实不一定在训练侧，反而是在推理侧。“现在之所以外界感受不到，主要原因在于还没能出现真正的爆款应用，一旦这个应用出现了，推理算力缺口就会异常明显”，郑�X说。

不久前，月之暗面的Kimi智能助手走红成为“小爆款”，因使用人数激增，Kimi App和小程序一度出现无法正常使用的情况。当时中信建投层发布研报称，随着Kimi用户数持续提升，已经出现短暂算力支持不足的情况，考虑后续模型训练和推理需求，预期算力需求会进一步提升，带动算力需求落地。

“推理算力很可能会是创投圈的下一个机会”，郑�X总结说。

北京商报记者杨月涵

（责任编辑：董萍萍）

淘宝网启动7年来最大力度改版全面提升网页端消费者体验立夏前一周河北多地降雪一夜返冬，网友：夏雪，好魔幻的天气