复制成功

分享至

主页 > 数字货币 >

专访|VideoPoet核心作者:揭秘谷歌革命性视频生成技术

2024.01.05

原文来源:深思SenseAI

专访|VideoPoet核心作者:揭秘谷歌革命性视频生成技术

图片来源:由无界 AI生成

在全球新一代 AI 独角兽的竞赛中,视频生成技术作为最具潜力的领域之一备受关注。最近,Google 推出了名为 VideoPoet 的大型语言模型,它不仅能够从文本和图像生成视频,还具备风格迁移、视频声音频等功能,其动作生成的丰富性和流畅度令人印象深刻,被广泛认为是革命性的 zero-shot 视频生成工具。本期专访特邀 VideoPoet 的核心作者于力军同学和 Google 机器学习工程师 Yishuai,与 SenseAI 一同进行技术思考与应用探索。

视频生成的技术层面是在现有的技术框架下的规模化还是会有更加创新的框架出现,目前是未知的,唯一确定的是,今年的视频生成技术还会有新一轮的迭代,然后走向成熟,最终促使应用层的又一轮爆发。

视频生成的应用层面,是短视频先行,消费侧需求时长更短,质量要求更灵活;同时供给侧,受制于现有算法架构和算力消耗,ROI 还未商业可行;内容品类上,看好动漫动画,自然风光和教育方向。

未来视频生成是混合动态的:拍摄不会被取代,依然是重要素材的来源,但生成是很好的补充、延展、想象具像化。

模型即产品:AI应该在人类创作和具像化过程中的每一步去适应人类,辅助人类,这个前提就是模型具备了多模态输入能力和下游生成编辑能力的最小单元,和模型的交互是极简和动态的,在任意时间维度和生成状态中,都可以灵活的输入和编辑,模型会自己去理解和生成。


01 背景与研究方向


在本期播客中的嘉宾于力军,目前是卡内基梅隆大学的人工智能领域的博士生。于博士的学术之旅始于北京大学,专业为计算机科学和经济学。他在 CMU 的研究主要是与 Alexander Hauptmann 博士合作,聚焦于多媒体的研究。他们的团队从多媒体检索起步,逐渐过渡到视频理解,并最终专注于视频生成技术的创新。于博士特别致力于多模态大型模型的研究,重点是多任务生成的视角。此外,他与谷歌有着长期的合作关系,他在谷歌的导师是Jiang Lu老师,他是CMU研究组的毕业生,目前在谷歌担任研究科学家,专注于视频生成领域。他们在谷歌的很多重要研究都是围绕这一主题展开的。


02 技术架构 Q&A


SenseAI:基于LLM的视频生成模型会不会在长期比Diffusion 类型的模型更具潜力和优势?LLM的架构和 Diffusion 架构图片和视频生成,未来是否会到一个趋势,就是各自生成的质量都非常接近,但是 LLM 架构在视频内容和逻辑上会更突出。还是会有别的趋势?


于博士:这是一个很好的问题,刚才问题当中所抛出的这些观点,我大体上是同意。因为现在在语言领域LLM 发展的非常好,它有这个很强的逻辑能力,推理能力,然后同时,现在又具有这个非常好的多模态泛化能力,那么我是相信使用 LLM 作为 backbone 去做这个视频生成,在各方面的扩展性,这个逻辑一致性上会比将来的 Diffusion 模型更好。当然这是建立在我们现在的观测上,也许有一天这个 Diffusion Model 也会产生一定的进步。但视觉质量上,将来可能是会逐渐饱和的,现在我们也看到一些这个产品出来,已经达到了一定程度上的可能性。而将来我们可能更多是在内容上去进行推进,然后其实这两个技术路线也不是非此即彼的,我们也可以这个结合 LLM作为这个Latent Model(潜在模型)去利用它的这个多模态的zero shot和逻辑性。最后,我们再结合上一定的 Diffusion 的高质量的能力去做最后一步,从Latent space回到Pixel space的过程。将来也可能是一个混合的架构。

SenseAI:介绍一下VideoPoet独特的架构设计


于博士:它是概念上非常简单的模型。我们就是利用了一个大语言模型结构的 Causal 的 Transformer。然后这个 Transformer,完全是在 Token Space进行操作,那么我们的 Token,包括图像和视频 Token,然后也包括音频 Token,同时还包括这个文本的这个Embedding。那么我们怎么把这些模态都统一到这个 Token space,我们使用了每一个模态特有的 Tokenizer 。这里面图片和视频,我们使用了我之前设计的 MAGVIT-v2 Tokenizer。我们可以把图片和任意长度的视频 Tokenize 到一个空间里,然后同时它有很高的重建的效果,所以保证了我们 Video 的生成质量。然后音频部分,我们使用的是 SoundStream 这是一个已经成熟的 Tokenizer。然后文本部分,我们就是使用已有的 T5 去 Embedding,这些模态混合在一块儿,然后我们进行大量的多模态,多任务的预训练。使得他能够进行文生视频,图生视频、视频生音频,风格转换以及视频编辑等等其他各种应用。

(参考:https://blog.research.google/2023/12/videopoet-large-language-model-for-zero.html)

免责声明:数字资产交易涉及重大风险,本资料不应作为投资决策依据,亦不应被解释为从事投资交易的建议。请确保充分了解所涉及的风险并谨慎投资。OKEx学院仅提供信息参考,不构成任何投资建议,用户一切投资行为与本站无关。

加⼊OKEx全球社群

和全球数字资产投资者交流讨论

扫码加入OKEx社群

相关推荐

industry-frontier