复制成功

主页 > 数字货币 >

Meta清华校友推全新AI「视频生视频」方法！单张A100生成「男人秒变猩猩」大片

2024.01.03

文章来源：新智元

今年，会不会是AI视频生成模型的元年？UT Austin联手Meta团队提出了一个全新V2V模型FlowVid，能够在1.5分钟内生成4秒高度一致性的视频。

Meta清华校友推全新AI「视频生视频」方法！单张A100生成「男人秒变猩猩」大片

图片来源：由无界 AI生成

英伟达高级科学家Jim Fan认为，2024年将是AI视频年。

我们已经见证，AI视频生成领域在过去一年里发生的巨变，RunWay的Gen-2、Pika的Pika 1.0等工具实现了高保真度、一致性。

Meta清华校友推全新AI「视频生视频」方法！单张A100生成「男人秒变猩猩」大片

与此同时，扩散模型彻底改变了图像到图像（I2I）的合成，现已逐渐渗透到视频到视频（V2V）的合成中。

不过，V2V合成面临的难题是，如何去维持视频帧之间时间连贯性。

来自得克萨斯大学奥斯汀分校和Meta GenAI团队成员，提出了一个能够保持一致性的V2V合成框架——FlowVid。

它通过利用空间条件和源视频中的时间光流信息，实现了合成的高度一致性。

Meta清华校友推全新AI「视频生视频」方法！单张A100生成「男人秒变猩猩」大片

论文地址：https://arxiv.org/abs/2312.17681

研究人员通过对第一帧进行光流变换编码，并将其作为在扩散模型中的辅助参考。

这样，模型就可以通过编辑第一帧使用任何流行的I2I模型，并将这些编辑效果传递到连续的帧中，实现视频合成。

值得一提的是，最新方法仅需1.5分钟，就能生成一段4秒，每秒30帧、分辨率为512×512的视频。

与此同时，FlowVid能够无缝与现有I2I模型配合，支持多种修改方式，包括风格化、物体替换和局部编辑。

网友将其称为，改编游戏规则的新论文。

Meta清华校友推全新AI「视频生视频」方法！单张A100生成「男人秒变猩猩」大片

一起看看，FlowVid在视频到视频合成上的强大效果。

演示

Meta清华校友推全新AI「视频生视频」方法！单张A100生成「男人秒变猩猩」大片

原始视频

Prompt：a woman wearing headphones, in flat 2d anime

提示：一位戴着耳机的女性，2D动画风格

Prompt：a Greek statue wearing headphones

提示：一尊戴着耳机的希腊雕塑

原始视频

Prompt：a Chinese ink painting of a panda eating bamboo

提示：一幅熊猫吃竹子的中国水墨画

Prompt：a koala eating bamboo

提示：一只正在吃竹子的考拉

原始视频

Prompt：A pixel art of an artist's rendering of an earth in space

提示：一幅以像素画风格呈现的地球在太空中的艺术绘制

Prompt：An artist's rendering of a Mars in space

提示：一幅太空中的火星的艺术绘制

原始视频

Prompt：Ukiyo-e Art a man is pulling a rope in a gym

提示：一幅浮世绘风格的作品，描绘了一名男子在健身房拉绳子

Prompt：A gorilla is pulling a rope in a gym

提示：一只大猩猩在健身房拉绳子

原始视频

Prompt：A shirtless man is doing a workout in a park, with the Egyptian pyramids visible in the distance

提示：一位光着上身的男士在公园锻炼，背景是遥远的埃及金字塔

Prompt：Batman is doing a workout in a park

提示：蝙蝠侠在公园锻炼

控制不完美「光流」，实现视频合成一致性

视频到视频（V2V）合成仍然是一项艰巨的任务。与静态图像相比，视频多了一个额外的时间维度。

免责声明:数字资产交易涉及重大风险，本资料不应作为投资决策依据，亦不应被解释为从事投资交易的建议。请确保充分了解所涉及的风险并谨慎投资。OKEx学院仅提供信息参考，不构成任何投资建议，用户一切投资行为与本站无关。

加⼊OKEx全球社群

和全球数字资产投资者交流讨论

扫码加入OKEx社群

相关推荐

industry-frontier