Sora 使用中的真相：进步令人难以置信，但离不开大量人工

2024.05.10

文章来源：极客公园

作者 | 连冉
编辑 | 郑玄

图片来源：由无界AI生成

2 月初，OpenAI 发布的 Sora 惊艳了全世界，它在文生视频上的革命性突破，一度被视为吹向好莱坞的一场大风暴。

Sora 是一种扩散模型，与以往的 AI 视频生成器相比，Sora 能够依据提示词生成长达一分钟的视频内容，保持视觉质量和一致性，并且实现镜头的切换和构图调整，它还能使视频与背景相关的主题细节准确符合，生成的视频更加逼真，仿佛是现实世界的延伸。

当时，OpenAI 还发布了技术说明，表明它未来可以将生成的视频延长或无缝混合两个视频。

3 月起，Sora 对一些艺术家开放了使用权限，月末，OpenAI 在官网发布了几位艺术家使用 Sora 生成的超现实视频作品。近日，这些作品之一《气球人》背后的艺术家团队 Shy Kids 全揭秘了使用 Sora 的制作过程。

整体看下来，真正投入到影视制作中的 Sora 并没有当初那么惊艳，但它已经足够令人震撼——能让一个仅有三人的团队，在大约 1.5 至 2 周的时间内便制作出了一部精彩短片。

在该团队看来，当前形态的 Sora 在特定的图像生成方面取得了令人难以置信的进步；但对于相对复杂的项目，可能还需要一段时间的进化才能满足导演的具体需求。除了 Sora 的使用，这部《Air Head》依然使用了大量的编辑和人为指导才制作完成。团队表示，「将 Sora 融入创作流程是一种很真实的工作方式，但如果不这么干，好像也没什么关系。」

01 以下为 fxguide 与 Shy Kids

就 Sora 目前的工作原理

进行讨论的内容整理：

作为获得了 Sora 的有限访问权限的制作团队之一，Shy Kids 团队制作了 Sora 短片《Air Head》。Shy Kids 是一家加拿大制作公司，以其多样化和创新的媒体制作方法而闻名。

Sora 目前正在开发中，并通过像 Shy Kids 这样的团队的反馈积极改进。重要的是要认识到：Sora 尚处于非常早期的发展时期，几乎可以称之为前阿尔法阶段。

Shy Kids 中负责后期制作的帕特里克评论道，使用 Sora 是很有趣的过程，Sora 是一个非常强大的工具，「我们已经在梦想着它可以如何融入我们现有的流程。但我认为对于任何生成性 AI 工具来说；控制力仍然是最令人向往的，也是目前最难捉摸的东西。」

用户界面和交互：
为提升一致性，仅支持文本输入

Sora 的用户界面设计简洁，它允许艺术家通过输入文本提示来启动视频片段的生成过程。

艺术家输入想要的场景描述后，OpenAI 的 ChatGPT 技术会将其转换成更长的字符串，这一步骤是触发 Sora 生成视频片段的关键。

目前，Sora 仅支持文本输入，尚未整合多模态输入方式，也就是说，除了文本描述外，用户无法通过其他形式如图像或声音来提供输入。

这种设计的重要性在于，尽管 Sora 在保持视频镜头内对象的一致性方面做得非常出色，但系统目前还无法确保第一个镜头中的内容与随后的镜头完全匹配。

换句话说，即使是使用相同的文本提示，Sora 在不同时间生成的视频片段也可能存在差异。为了尽可能保持一致性，用户需要在文本提示中尽可能详细地描述场景，包括角色的服装和道具的类型等。然而，即便如此，Sora 在镜头之间的一致性控制方面仍然存在局限，因为它尚未具备完整的功能集来实现完全的控制。

「我们能做的最接近的事情就是在我们的提示中加入更详细地描述，」帕特里克解释道。「解释角色的服装，以及气球的类型，是我们实现一致性的方式，因为目前还没有完整的功能集来完全控制镜头到镜头的一致性。」

Sora 生成的每个独立片段，就其所代表的技术而言，都是令人惊叹的。然而，如何有效利用这些片段，取决于用户对 Sora 隐式或显式镜头生成方式的理解。

例如，如果你要求 Sora 生成一个在厨房里长距离跟踪的镜头，并且镜头中包含一个放在桌上的香蕉，Sora 将依赖于其对「香蕉」这一概念的隐式理解来生成一个显示香蕉的视频。

通过训练数据，Sora 已经学习了香蕉性的隐式特性：例如「黄色」、「弯曲」、「末端有深色」等。但它没有香蕉的实际记录图像，也没有「香蕉库存库」数据库；它有一个更小的压缩隐藏或「潜在空间」来代表香蕉的概念。因此，每次生成的运行都会展示出这个潜在空间的不同解释，这意味着用户输入的提示必须基于对这些隐式特征的理解。

角色 Sonny 的一致性：

Sora 使用中的真相：进步令人难以置信，但离不开大量人工

01

以下为 fxguide 与 Shy Kids

就 Sora 目前的工作原理

进行讨论的内容整理：

加⼊OKEx全球社群

相关推荐