复制成功

分享至

主页 > 数字货币 >

Sora横空出世 会颠覆哪些行业?

2024.02.20

来源:泽平宏观

2月16日,OpenAI发布视频生成模型Sora,极大拓展AI在视频内容生成方面能力。Sora在关键指标上大幅领先之前的一些视频生成类模型,用它生成视频,会发现其对物理世界的空间模拟能力甚至达到了逼近真实的水平。

Sora为什么可以堪称是AI界的新里程碑?它是如何突破AIGC即AI内容创作上限的?客观来看,当前版本的Sora还有没有什么局限性和不足?

Sora等视频生成类模型,未来更新迭代的方向是什么?它的出现会颠覆哪些行业?对我们每个人产生何种影响?它的背后又有什么新产业机遇?‍‍‍

1、Sora是怎么实现的?为什么是AI界的新里程碑?

Sora之所以是AI里程碑,是因为它再一次突破了AIGC用AI驱动内容创作的上限。此前大家已经开始使用Chatgpt等文本类辅助内容创作,辅助插图和画面生成,用虚拟人做短视频。而Sora是视频生成类大模型,通过输入文本或图片可生成、连接、扩展等多种方式编辑视频,属于多模态大模型范畴,该类模型是在GPT这类语言类大模型上进一步延伸、拓展。Sora通过一种类似于GPT-4对文本令牌进行操作的方式来处理视频“补丁”。该模型的关键创新在于将视频帧视为补丁序列,类似于语言模型中的单词令牌,使其能够有效地管理各种视频。这种方法与文本条件生成相结合,使Sora能够根据文本提示生成上下文相关且视觉上连贯的视频。

具体原理上,Sora主要通过三个步骤实现视频训练。首先是视频压缩网络,将视频或图片降维成一个紧凑、高效的形式。其次是时空补丁提取,将视图信息分解成一个个更小的单元,每个单元都含有视图中一部分的空间和时间信息,便于Sora在之后的步骤中能进行针对性处理。最后是视频生成,输入文本或图片进行解码加码,由Transformer模型(即ChatGPT基础转换器)决定如何将这些单元转换或组合,从而将文本和图片提示中的内容形成完整的视频。

Sora横空出世 会颠覆哪些行业?

Sora在视频生成模型最关键的两项指标——时长和分辨率上大幅超越先前模型,并且具备较强的文本理解深度和细节生成能力,可以说是AI界的又一里程碑级的产品。Sora发布前,主要模型如Pika1.0、Emu Video、Gen-2可生成时长分别为3~7秒、4秒、4~16秒;而Sora可生成时长高达60秒,能实现1080p分辨率,且Sora不仅能基于文本提示生成视频,也具备视频编辑和扩展能力。Sora对文本的深度理解也较强。在大量文本解析的训练下,Sora可以准确捕捉、理解文本指令背后的情感用意,并流畅、自然地将文本提示转变为细节丰富、场景匹配的视频内容。

Sora在视频生成中可以较好地模拟一个虚拟世界的物理规律,更好的理解物理世界,从而产生真实的镜头感。其技术特点主要有二:

一是能多镜头生成连贯的三维空间运动视频。

二是能保持同一物体在不同视角镜头下的一致性。以此,模型能保持视频中人物、物体、场景的运动连贯性和持续性,并可以通过微调对世界中的元素产生影响,进行简单互动。对比此前的Pika等模型,Sora生成视频还可以对视频色彩风格等要素精确理解,创造出人物表情丰富、情感生动的视频内容。且注重主体和背景的关系,使视频主体与背景的互动高度流畅、稳定,分镜切换符合逻辑。

在官方给出的一则生成视频的例证中:“一位时尚女性走在东京的街道上,街道上到处都是暖色调的霓虹灯和动画城市标志。她身穿黑色皮夹克、红色长裙和黑色靴子,手拿黑色皮包。她戴着太阳镜,涂着红色唇膏。她走起路来自信而随意。街道潮湿而反光,与五颜六色的灯光形成镜面效果。许多行人走来走去”,Sora做到了完全细致细节的描述,甚至到皮肤细节描绘,且对于光影反射运动方式、镜头移动等细节处理都具备真实感。

Sora横空出世 会颠覆哪些行业?

2、Sora处于什么水平?还有哪些局限?

Sora相当于语言类模型的ChatGPT3.5,是业内重大突破,处于非常领先水平,但还是有其本身的局限性。

Sora和ChatGPT同源与Transformer架构,前者在架构基础上搭建了扩散模型,在展示深度、物体永久性和自然动力学方面十分出色。之前的真实世界模拟通常是用GPU驱动的游戏引擎来进行三维物理建模来运行,需要人为搭建且过程复杂,精准度也高,能实现高标准的环境模拟和各种交互动作。但Sora模型没有数据驱动的物理引擎和图形编程,在更高要求的三维搭建中准确度低。因此,实现多个角色自然交互并与环境进行逼真的模拟仍然很困难。

例如,举两个Sora生成视频出现bug的例子:

当Sora输入的文本是“一个被打翻了的玻璃杯溅出液体来”时,显示的是玻璃杯融化成桌子,液体跳过了玻璃杯,但没有任何玻璃碎裂效果。

再比如,从沙滩里突然挖出来一个椅子,而且AI认为这个椅子是一个极轻的物质,以至于可以直接飘起来。

Sora横空出世 会颠覆哪些行业?

出现这类“错误”的原因主要有两点:

免责声明:数字资产交易涉及重大风险,本资料不应作为投资决策依据,亦不应被解释为从事投资交易的建议。请确保充分了解所涉及的风险并谨慎投资。OKEx学院仅提供信息参考,不构成任何投资建议,用户一切投资行为与本站无关。

加⼊OKEx全球社群

和全球数字资产投资者交流讨论

扫码加入OKEx社群

相关推荐

industry-frontier