为什么说比特币生态必将
李飞飞谷歌破局之作!用Transformer生成逼真视频,下一个Pika来了?
文章来源:新智元
今天,李飞飞携斯坦福联袂谷歌,用Transformer生成了逼真视频,效果媲美Gen-2比肩Pika。2023年俨然已成AI视频元年!
图片来源:由无界 AI生成
视频大数据时代,真的来了!
刚刚,李飞飞的斯坦福团队同谷歌合作,推出了用于生成逼真视频的扩散模型W.A.L.T。
这是一个在共享潜在空间中训练图像和视频生成的,基于Transformer的扩散模型。
论文:https://walt-video-diffusion.github.io/assets/W.A.L.T.pdf
英伟达高级科学家Jim Fan转发评论道:2022年是影像之年,2023是声波之年,而2024,是视频之年!
首先,研究人员使用因果编码器在共享潜在空间中压缩图像和视频。
其次,为了提高记忆和训练效率,研究人员使用基于窗口注意的变压器架构来进行潜在空间中的联合空间和时间生成建模。
研究人员的模型可以根据自然语言提示生成逼真的、时间一致的运动:
A Teddy bear skating carefully in Times Square,Slow Motion/一只泰迪熊在时代广场上优雅的滑冰,慢动作
Pouring chocolate sauce over vanilla ice cream in a cone, studio lighting/将巧克力酱倒在香草冰淇淋甜筒上,工作室灯光
An stronaust riding a horse/一名宇航员骑着马
A squirrel eating a burger/一只松鼠在吃汉堡
A panda taking a selfie/一只正在自拍的熊猫
An elephant wearing a birthday hat walking on the beach/一头戴着生日帽的大象在海滩上行走
Sea lion admiring nature, river, waterfull, sun, forest/海狮欣赏自然,河流,瀑布,阳光,森林
Pouring latte art into a silver cup with a golden spoon next to it/在银杯中进行拿铁拉花,旁边放着金勺子
Two knights dueling with lightsabers,cinematic action shot,extremely slow motion/两个骑士用光剑决斗,电影动作镜头,极其慢动作
A swarm of bees flying around their hive/一群蜜蜂在他们的蜂巢周围飞翔
这个结构还可以用图片生成视频: