复制成功

分享至

主页 > 数字货币 >

还未开放 Sora怎么就震惊了互联网圈?

2024.02.21

来源:元宇宙日爆

还未开放公众测试,OpenAI凭借文本生成视频模型Sora 制作的预告片,就把科技圈、互联网、社交媒体圈给震惊了。

根据OpenAI官方发布的视频,Sora能够根据用户提供的文本信息,生成长达1分钟的复杂场景“超视频”,不仅画面细节逼真,这个模型还会模拟镜头运动感。

从已释出的视频效果看,业内兴奋的正是 Sora 体现出的理解真实世界的能力。相较其他文本到视频的大模型,Sora 在对语义理解、画面呈现、视觉连贯性和时长上都显示出优势。

OpenAI 直接称它为“世界模拟器”,宣告它能够模拟物理世界中的人、动物和环境的特征。但该公司也承认,目前Sora的还不完美,依然存在理解不到位和潜在的安全问题。

因此,Sora仅对非常少数的人开放测试,OpenAI 尚未公布 Sora何时会向大众开放,但它带来的震撼足以让研发同类模型的公司看到差距。

01 Sora「预告片」惊爆众人

OpenAI文本生成视频模型Sora一出,国内又现“震惊体”评价。

自媒体惊呼“现实不存在了”,互联网大佬也吹爆了Sora的能力。360创始人周鸿祎称,Sora的诞生意味着AGI的实现可能从10年缩短至两年左右。短短几天,Sora的谷歌搜索指数迅速拉升,热度直逼ChatGPT。

Sora的爆火源于OpenAI 发布的48段视频,其中时长最长的为1分钟。这不仅打破了此前文生视频模型Gen2、Runway生成视频的时长极限,而且画面清晰,甚至它还学会了镜头语言。

1分钟视频中,一位身着红裙的女性走在霓虹灯林立的街头,风格写实,画面流畅,最令人惊艳的是女主角的特写,连脸部的毛孔、斑点、痘印都模拟了出来,卡粉脱妆效果堪比直播关掉美颜滤镜,脖子上的颈纹甚至精准“泄露”了年龄,与脸部状态做到了完美统一。

除了对人物写实,Sora还能够模拟现实中的动物与环境。一段视频维多利亚冠鸽的多角度特写,超清呈现了这只鸟全身至冠的蓝色羽毛,甚至细微到红色眼珠的动态和呼吸频率,让人很难分清这到底是AI生成的还是人类拍摄的。

对于非写实的创意动画,Sora的生成效果也达到了迪士尼动画电影的画面感,让网友担忧起动画师的饭碗。

而Sora为文本生成视频模型带来的改进不仅在视频时长与画面效果上,它还能模拟镜头与拍摄的运动轨迹,游戏的第一人称视角,航拍视角,甚至是电影里的一镜到底。

看完OpenAI放出的精彩视频,你就能理解互联网圈、社交媒体舆论为什么会为Sora感到震惊,而这些只是预告片。

02 OpenAI提出「视觉补丁」数据集

那么,Sora是如何实现模拟能力的?

按照Open AI发布的Sora技术报告,这个模型正在超越先前图像数据生成模型的限制。

以往的文本生成视觉画面的研究采用过各种方法,包括循环网络、生成对抗网络(GAN)、自回归变换器和扩散模型,但共性是集中在较少的视觉数据类别、较短的视频或固定尺寸的视频上。

Sora采用了一种基于Transformer的扩散模型,生图过程可以分为正向过程和反向过程两个阶段,以实现Sora能沿时间线向前或向后扩展视频的能力。

正向过程阶段模拟了从真实图像到纯噪点图像的扩散过程。具体来说,模型会逐步地向图像中添加噪点,直到图像完全变成噪点。而反向过程是正向过程的逆过程,模型会从噪点图像逐步恢复出原始图像。一正一反,虚实来回,OpenAI以这种方式让机器Sora理解视觉的形成。

还未开放 Sora怎么就震惊了互联网圈?从全噪点到清晰图的过程

当然,这个过程需要反复地训练学习,模型会学习如何逐步去除噪声并恢复图像的细节。通过这两个阶段的迭代,Sora的扩散模型能够生成高质量的图像。这种模型在图像生成、图像编辑、超分辨率等领域表现出了优秀的性能。

上述过程解释了Sora能做到高清、超细节的原因。但从静态的图像到动态的视频,仍需要模型进一步积累数据,训练学习。

在扩散模型的基础上,OpenAI将视频和图像等所有类型的视觉数据转换为统一表示,以此来对Sora做大规模的生成训练。Sora 使用的表示方式被OpenAI定义为“视觉补丁(patches)”,即一种更小数据单元的集合,类似于GPT中的文本集合。

研究者首先将视频压缩到一个低维潜空间中,随后把这种表征分解为时空patch,这是一种高度可扩展的表征形式,方便实现从视频到patch的转换,也正适用于训练处理多种类型视频和图片的生成模型。

还未开放 Sora怎么就震惊了互联网圈?将视觉数据转化为patches

免责声明:数字资产交易涉及重大风险,本资料不应作为投资决策依据,亦不应被解释为从事投资交易的建议。请确保充分了解所涉及的风险并谨慎投资。OKEx学院仅提供信息参考,不构成任何投资建议,用户一切投资行为与本站无关。

加⼊OKEx全球社群

和全球数字资产投资者交流讨论

扫码加入OKEx社群

相关推荐

industry-frontier