Sora“碾压”一众模型，Pika等创业公司再无活路？

2024.02.19

文章来源：腾讯科技

作者：翟尤《AIGC未来已来》作者

图片来源：由无界AI生成

在中国农历新年假期，OpenAI又展开了一次超乎所有人想象的发布，其首款文生视频模型Sora正式对外亮相。

Sora的效果已经在科技圈内不断刷屏，不仅能够根据文字创造出以假乱真的场景，而且生成的视频时长达到60秒。以至于很多人对于OpenAI新技术的发布，如同期待苹果乔布斯时代的发布一样，总有超乎预期的技术让人眼前一亮。

从ChatGPT、DALL-E3，再到Sora，如果用一句话来总结OpenAI的与众不同之处，那就是：技术想象力和工程能力，要远比技术路线或者黑科技重要。同时，曾经大火的一众AI视频创业公司直接被降维碾压，先抛开底层技术，从用户端的直接感知来谈，他们的产品大部分最多支持4s的视频生成长度，与Sora的60s完全没有可比性。类似于OpenAI、Google之类的科技大厂“人间才一日，AI已千年的迭代速度”，真的感觉分分钟碾压AI创业。也不禁让人感叹，AI创业好难，所谓的“技术护城河”、“产品护城河”是否还存在？是否一夜之间就被突飞猛进的大厂技术所颠覆？

01、想象力和工程化的爆发，生成视频技术逐渐收敛

在Sora之前，我们看到的大量文生视频技术尚未实现技术收敛，主要技术路径是通过各种办法让单帧的图片“动”起来，类似定格动画。而从用户实际需求来看：视频每一帧之间的连贯性与自然度是体现视频价值的关键，也就是视频每帧语义信息的无缝衔接才是核心。

从Sora在业内关注和讨论的热度上也能看出，围绕需求提供对应的技术解决方案或者产品，要远远好于通过技术可实现的角度来创造产品。

让OpenAI公布Sora的全部技术细节已经不现实，开源只能寄希望于其他团队。但是OpenAI官网上介绍指出，Sora与之前的文生视频思路并不一样，是让模型一次预测多帧画面，并且确保视频主体保持不变。

单从技术创新度来看，Sora的技术和方法并非石破惊天，也谈不上从0到1的创新，其他机构也有相关研究，但是整体工程呈现的效果非常好。而这也是Sora在技术上的巧妙之处：在视频帧上做突破，巧妙地提升了生成视频的使用上限。

这其中与文生视频技术难收敛，工程难落地有着密切关系。而把Transformer引入到文生视频的扩散模型中，实现视频帧之间的语义信息预测，就可以让语言模型在其中发挥出巨大的价值。也就是说：Transformer+Diffusion Model，终于在2024年初实现了融合，不再是独立两条发展路径。这也就是为何Sora一出现，就引发用户的点赞和肯定的原因：文本模型的连贯性和可扩展性，可以在视频模型的基础上把用户的感知效果提升多个层次，让文生视频可以进一步接近商用奇点。

在这方面，OpenAI已经在ChatGPT、DALLE-3的工程化上实现突破，这次更是把以上模型成果有机融合起来，把工程化能力发挥到极致。

02、好莱坞式的大片，离素人越来越近

2023年及以前，文生视频的模型虽然出现了Runway、Pika等现象级产品，但从整个行业来看，把扩散模型和语言模型相结合的工作并没有被业内放在“最高优先级”。

可以预见的未来，随着文生视频技术的收敛，生成视频技术的使用门槛降进一步降低，将帮助人们完成大量工程化的工作，可以媲美好莱坞水准的视频解决方案将会出现。

具体来看，从过去视频制作前期设计、中期拍摄、后期制作的传统流程中，逐步向后期制作进行倾斜，尤其是不断生成新的视频元素会导致前期设计和中期拍摄的工作流产生极大的变化，出现新的工具和工作流。

最终将在多个C端消费场景中得到应用，比如商品广告、剧情片等等。尤其是对于视觉艺术、设计师、电影制作等工作，可以帮助这些专业人士快速原型化和可视化，节省一定时间和成本。

这其中，尤其是对短视频行业带来巨大想象，普通用户可能无法通过Sora制作好莱坞大片，但是制作一个60秒的高质量短视频，似乎近在咫尺。尤其是对于内容逻辑性要求不高，在探索科幻等方面，可以协助个性化内容的制作。

03、与其期待Sora，不如期待AI视频剪辑软件的普及

对于OpenAI来讲，更像是前锋，开山辟路是它的强项，开枝散叶搞应用的事情并不关注。

从单点的突破来看，Sora具有里程碑意义。但是从商业化需求和混剪工作流效率提升来看，Sora本身的价值还有待商榷。

想靠60秒生成的视频成为下一个董宇辉、李佳琪并不现实，更别说制作长视频或者电影、电视剧了，距离真正落地还有漫长的路要走。

还是以短视频为例，是通过一遍遍修改提示词（Prompt）更加有效率，还是在视频剪辑软件里调整素材更快？

Sora“碾压”一众模型，Pika等创业公司再无活路？

加⼊OKEx全球社群

相关推荐