复制成功

分享至

主页 > 数字货币 >

文生视频下一站,Meta已经开始视频生视频了

2024.01.02

文章来源:机器之心

文生视频下一站,Meta已经开始视频生视频了

图片来源:由无界 AI生成

文本指导的视频到视频(V2V)合成在各个领域具有广泛的应用,例如短视频创作以及更广泛的电影行业。扩散模型已经改变了图像到图像(I2I)的合成方式,但在视频到视频(V2V)合成方面面临维持视频帧间时间一致性的挑战。在视频上应用 I2I 模型通常会在帧之间产生像素闪烁。

为了解决这个问题,来自得州大学奥斯汀分校、Meta GenAI 的研究者提出了一种新的 V2V 合成框架 ——FlowVid,联合利用了源视频中的空间条件和时间光流线索(clue)。给定输入视频和文本 prompt,FlowVid 就可以合成时间一致的视频。

文生视频下一站,Meta已经开始视频生视频了 论文地址:https://huggingface.co/papers/2312.17681 项目地址:https://jeff-liangf.github.io/projects/flowvid/

总的来说,FlowVid 展示了卓越的灵活性,可与现有的 I2I 模型无缝协作,完成各种修改,包括风格化、对象交换和局部编辑。在合成效率上,生成 30 FPS、512×512 分辨率的 4 秒视频仅需 1.5 分钟,分别比 CoDeF、Rerender 和 TokenFlow 快 3.1 倍、7.2 倍和 10.5 倍,并且保证了合成视频的高质量。

先来看下合成效果,例如,将视频中的人物转换成「希腊雕塑」的形态:

文生视频下一站,Meta已经开始视频生视频了

将吃竹子的大熊猫转换成「国画」的形式,再把大熊猫换成考拉:

文生视频下一站,Meta已经开始视频生视频了

跳跳绳的场景可以丝滑切换,人物也可以换成蝙蝠侠:

文生视频下一站,Meta已经开始视频生视频了

方法简介

一些研究采用流来导出像素对应关系,从而产生两帧之间的像素级映射,这种对应关系随后用于获取遮挡掩码或构建规范图像。然而,如果流估计不准确,这种硬约束可能就会出现问题。

FlowVid 首先使用常见的 I2I 模型编辑第一帧,然后传播这些编辑到连续帧,使得模型能够完成视频合成的任务。

具体来说,FlowVid 执行从第一帧到后续帧的流变形(flow warp)。这些变形的帧将遵循原始帧的结构,但包含一些遮挡区域(标记为灰色),如图 2 (b) 所示。

文生视频下一站,Meta已经开始视频生视频了

如果使用流作为硬约束,例如修复遮挡区域,则不准确的估计将持续存在。因此,该研究尝试引入额外的空间条件,例如图 2 (c) 中的深度图,以及时间流条件。联合时空条件将纠正不完美的光流,从而得到图 2 (d) 中一致的结果。

研究者基于 inflated 空间控制 I2I 模型构建了一个视频扩散模型。他们利用空间条件(如深度图)和时间条件(流变形视频)对模型进行训练,以预测输入视频。

文生视频下一站,Meta已经开始视频生视频了

在生成过程中,研究者采用编辑 - 传播程序:(1) 用流行的 I2I 模型编辑第一帧。(2) 使用本文模型在整个视频中传播编辑内容。解耦设计允许他们采用自回归机制:当前批次的最后一帧可以是下一批次的第一帧,从而使其能够生成冗长的视频。


实验及结果


细节设置

研究者使用 Shutterstock 的 100k 个视频来训练模型。对于每个训练视频,研究者按顺序采样 16 个间隔为 {2,4,8} 的帧,这些帧代表持续时间为 {1,2,4} 秒的视频(视频的 FPS 为 30)。所有图像的分辨率都通过中心裁剪设置为 512×512。模型的训练是在每个 GPU 上以 1 的批量大小进行的,总共使用 8 个 GPU,总批量大小为 8。实验使用了 AdamW 优化器,学习率为 1e-5,迭代次数为 100k。

在生成过程中,研究者首先使用训练好的模型生成关键帧,然后使用现成的帧插值模型(如 RIFE )生成非关键帧。默认情况下,以 4 的间隔生成 16 个关键帧,相当于 8 FPS 下的 2 秒片段。然后,研究者使用 RIFE 将结果插值到 32 FPS。他们采用比例为 7.5 的无分类器引导,并使用 20 个推理采样步骤。此外,研究者还使用了零信噪比(Zero SNR)噪声调度器 。他们还根据 FateZero ,融合了在对输入视频中的相应关键帧进行 DDIM 反转时获得的自注意力特征。

免责声明:数字资产交易涉及重大风险,本资料不应作为投资决策依据,亦不应被解释为从事投资交易的建议。请确保充分了解所涉及的风险并谨慎投资。OKEx学院仅提供信息参考,不构成任何投资建议,用户一切投资行为与本站无关。

加⼊OKEx全球社群

和全球数字资产投资者交流讨论

扫码加入OKEx社群

相关推荐

industry-frontier