8款AI视频生成产品实测,谁将成为中国Sora?
在国外,谷歌、微软这类“硅谷老钱”很早就投入到了多模态视频生成的研究中。去年,谷歌发布了多模态大模型Gemini和VideoPoet视频大模型,让人从直观的效果层面看到了多模态生成视频的可能性。
在国内,多模态技术路径方向上我们看到了更多的可能性,既有技术积累深厚的大厂百度,也有大模型独角兽公司智谱,还有像生数科技、智象未来一类以多模态大模型为目标的创业公司。
扩散模型路线是文生视频的主流路线,在保证效果生成上发挥着重要的作用,所以即使是惊为天人的Sora在底层架构上也只是改造,而非全盘颠覆。
无论国内外,在这条道路都最为拥挤,首先是一手打造和开源扩散模型的Stability AI公司,紧跟其后的是猛猛向前冲的Runway、Pika,然后才是OpenAI、Meta、英伟达这些巨头。
回到国内,腾讯、阿里、字节三个大厂在前期几乎包揽了视频生成领域的研究,时不时地抛出一个demo小小地惊艳一下。但真的谈到落地产品,还是创业公司明显更快一步,比如爱诗科技、Morph studio、右脑科技等公司已经开始面向用户开放。
被称之为“Sora路线”的DiT,全称为Diffusion Transformer,本质是把训练大模型方法机制融入到了扩散模型之中,从Sora技术报告呈现的结果来看,大力出奇迹之下可能会产生世界物理模拟器的效果。
如今,Sora的底层架构被扒了个遍,训练的组件和技术也在开源的路上,但这也并不意味着人手一个Sora指日可待,技术、数据、算力、训练规模都是一道道关卡。
近期,Sora核心团队负责人在采访中透露:“Sora目前还处于反馈获取阶段,还不是一个产品,短期内不会向公众开放。”
从技术路线上看,国内的爱诗科技是少数从一开始就坚持了DiT路线的企业,其创始人王长虎在公开采访中谈到,Sora的出现验证了爱诗视频生成大模型的方向正确性。正因如此,爱诗科技定下了“3—6 个月赶超Sora”的目标,抓住机会,奋起直追。

产品实测,用户“跑分”
在视频生成模型赛道,目前国内的创业公司大致可以分为两类。
一类是以爱诗科技(PixVerse)、生数科技(PixWeaver)、 Morph Studio和智象未来(Pixeling)为代表的自研基础大模型,聚焦通用场景的视频生成工具。
另一类则包括右脑科技(Vega AI)、李白AI实验室(神采promeai)、毛线球科技(6PenArt)、布尔向量(boolv.video)和MewXAI(艺映AI)。这一类数量更多,也更加产品化,专注于解决某一类场景下的问题,更像是一个AIGC的在线编辑平台。
我们的测试和评比通过三个部分组成,分别是使用门槛,基础产品功能和内容生成能力。
首先是使用门槛。我们测试的8款产品,都已经支持通过网站使用产品(许多创业公司产品只能通过Discord使用),也都可以免费试用。
但其中,仅有爱诗科技的PixVerse不限制免费试用次数,其他产品都有三到五次的试用限制,超过试用次数之后就需要开通会员或充值能量使用,价格从几元到几百元不等。
除了PixVerse之外,其他产品在付费之前基本都有功能限制,比如艺映AI和Pixeling只能生成2s、4s的视频,更长的视频则需要付费。
所以从使用门槛上综合考虑,PixVerse对用户要更加友好快连,在这一板块相对更有优势。其他产品在使用门槛上则相对平均。
具体情况如下图:

其次是产品基础功能。
我们测试的8款产品快连,除了神采Promeal和6PenArt之外,都同时具备文生视频和图生视频的能力。而神采Promeal和6PenArt只具备图生视频的能力,不具备直接文生视频的能力。
除了这两家之外,其他厂家就比较成熟,但产品功能差异却比较大。
其中,爱诗科技的PixVerse在基础功能之上还增加了丰富的辅助功能,比如除了正向提示词,用户还可以输入负向提示词,要求生成画面中不要出现某些元素。
图片生成视频时,用户也可以撰写提示词控制输出效果。可以选择视频风格,可以调节画面比例等等。
同类产品中,只有Pixeling拥有负向提示词、图生视频提示词和视频比例调节,只有艺映AI可以调节视频风格、画面比例。
大模型的技术水平决定视频生成的质量,而产品能力则决定了大模型是否能够被很好地利用,与应用场景相结合。
对于视频生成产品而言,功能的丰富程度决定了用户上手的容易程度,对视频生成的掌控能力,并最终影响输出结果和用户体验。
所以从产品的完善程度和功能完整度上,PixVerse整体领先,智象未来的Pixeling排名第二,艺映AI第三,Vega AI第四。其中布尔向量相对例外,作为专注跨境电商的视频生成工具,其在特定场景下功能更加齐全易用,但在视频生成方面相对缺乏竞争力。

当然,基本功能之外,更核心还是视频生成效果。所以第三部分是视频内容生成能力测试。
首先是视频生成时长。Sora目前能够生成60s的视频快连,但国内创业公司的视频生成大模型,时长大多集中在2s~4s左右,差距并没有特别大。
其次是依据提示词的内容表现能力。
Sora发布时,输出过这样一段视频,其提示词是:美丽,白雪皑皑的东京街道很繁华。几个人在附近的小摊上享受着美丽的雪天并购物。美丽的樱花花瓣和雪花在风中飞舞。

