VanEck顾问:我们高估了B
Meta清华校友推全新AI「视频生视频」方法!单张A100生成「男人秒变猩猩」大片
文章来源:新智元
今年,会不会是AI视频生成模型的元年?UT Austin联手Meta团队提出了一个全新V2V模型FlowVid,能够在1.5分钟内生成4秒高度一致性的视频。
图片来源:由无界 AI生成
英伟达高级科学家Jim Fan认为,2024年将是AI视频年。
我们已经见证,AI视频生成领域在过去一年里发生的巨变,RunWay的Gen-2、Pika的Pika 1.0等工具实现了高保真度、一致性。
与此同时,扩散模型彻底改变了图像到图像(I2I)的合成,现已逐渐渗透到视频到视频(V2V)的合成中。
不过,V2V合成面临的难题是,如何去维持视频帧之间时间连贯性。
来自得克萨斯大学奥斯汀分校和Meta GenAI团队成员,提出了一个能够保持一致性的V2V合成框架——FlowVid。
它通过利用空间条件和源视频中的时间光流信息,实现了合成的高度一致性。
论文地址:https://arxiv.org/abs/2312.17681
研究人员通过对第一帧进行光流变换编码,并将其作为在扩散模型中的辅助参考。
这样,模型就可以通过编辑第一帧使用任何流行的I2I模型,并将这些编辑效果传递到连续的帧中,实现视频合成。
值得一提的是,最新方法仅需1.5分钟,就能生成一段4秒,每秒30帧、分辨率为512×512的视频。
与此同时,FlowVid能够无缝与现有I2I模型配合,支持多种修改方式,包括风格化、物体替换和局部编辑。
网友将其称为,改编游戏规则的新论文。
一起看看,FlowVid在视频到视频合成上的强大效果。
演示
原始视频
Prompt:a woman wearing headphones, in flat 2d anime
提示:一位戴着耳机的女性,2D动画风格
Prompt:a Greek statue wearing headphones
提示:一尊戴着耳机的希腊雕塑
原始视频
Prompt:a Chinese ink painting of a panda eating bamboo
提示:一幅熊猫吃竹子的中国水墨画
Prompt:a koala eating bamboo
提示:一只正在吃竹子的考拉
原始视频
Prompt:A pixel art of an artist's rendering of an earth in space
提示:一幅以像素画风格呈现的地球在太空中的艺术绘制
Prompt:An artist's rendering of a Mars in space
提示:一幅太空中的火星的艺术绘制
原始视频
Prompt:Ukiyo-e Art a man is pulling a rope in a gym
提示:一幅浮世绘风格的作品,描绘了一名男子在健身房拉绳子
Prompt:A gorilla is pulling a rope in a gym
提示:一只大猩猩在健身房拉绳子
原始视频
Prompt:A shirtless man is doing a workout in a park, with the Egyptian pyramids visible in the distance
提示:一位光着上身的男士在公园锻炼,背景是遥远的埃及金字塔
Prompt:Batman is doing a workout in a park
提示:蝙蝠侠在公园锻炼
控制不完美「光流」,实现视频合成一致性
视频到视频(V2V)合成仍然是一项艰巨的任务。与静态图像相比,视频多了一个额外的时间维度。