答Vitalik问:为什么DePIN的
哲学家万字解析Sora本质,杨立昆点赞转发,AI视频离世界模拟器还有多远?
文章来源: 智东西
文章编译:香草
Sora是世界模拟器吗?万字长文深度解读,杨立昆点赞。
智东西3月8日报道,近日,深度学习三巨头之一、Meta首席科学家杨立昆点赞分享了一篇万字博文《视频生成器是世界模拟器吗?(Are Video Generation Models World Simulators?)》。
▲杨立昆在X平台上转发并称这是一篇好文章
文章从Sora的工作原理、模拟假说、直观物理学、世界模型的定义、图像生成等角度,深入探讨了标题所提出的问题,并得出结论:像Sora这样的视频生成器,可能不是人们想象中的“世界模拟器”,但从更宽泛的定义上来看,它们可以被视作有限的“世界模型”。
本文作者以文生图模型为例证,论述了Sora可能和Stable Diffusion类似,生成过程超出了对像素空间表面统计的拟合,可能受到3D几何和动态关键方面的潜在表示的影响,从而学到有用的深度、因果等特征的抽象表征。换句话说,Sora能在潜在空间中学习抽象规律,具有部分模拟世界的能力。
自Sora于今年初发布以来,“Sora是否理解物理世界”话题引来众多大佬下场讨论。其中英伟达的科学家Jim Fan将Sora描述为“数据驱动的物理引擎”;杨立坤则多次开喷Sora,称Sora的训练方式无法构建世界模型,通过生成像素的方式来建模世界,与几乎已经被抛弃的“综合分析”方法一样,浪费时间且“是一次彻头彻尾的失败”。
该文章的作者是澳大利亚悉尼麦考瑞大学的哲学讲师拉斐尔·米利埃尔(Raphaël Millière),他主要从事AI、认知科学和心智哲学等方面的学术研究。以下是对该文章的全文编译,由于篇幅原因进行了部分删减。
▲文章首页截图
原文地址:https://artificialcognition.net/posts/video-generation-world-simulators/#concluding-thoughts
01.
Sora是一项工程壮举
架构没有真正突破
2024年2月16日,OpenAI推出Sora,一个令人印象深刻的新型深度学习模型,可以根据文本提示生成视频和图像。Sora可以生成长达一分钟的视频,具有不同的分辨率和宽高比。虽然目前无法测试该模型,但OpenAI挑选的结果表明它在先前的技术水平上有了巨大的改进。
OpenAI有些自大地声称Sora是一个“世界模拟器”。那么什么是世界模拟器呢?这是OpenAI对训练Sora动机的陈述:
“我们正在教AI如何理解和模拟物理世界中的运动,目标是训练出能够帮助人们解决需要与现实世界进行交互的问题的模型。”
OpenAI还发布了Sora技术报告,其中阐述了对Sora理论意义的理解:
“我们的研究结果表明,扩展视频生成模型是建立物理世界通用模拟器的一条可行之路。”
Sora的技术报告对细节描述得很少,但提供了一些关于架构的线索。其核心是一个扩散变换器(Diffusion Transformer,简称DiT),这是比尔·皮布尔斯(Bill Peebles,也是Sora的主要作者之一)纽约大学的谢赛宁设计的一种架构。
DiT是一种具有Transformer主干网络的扩散模型。我们熟悉的图像生成模型,如Stable Diffusion是潜在扩散模型。它们使用预训练的变分自动编码器(VAE)将原始图像从像素空间压缩到潜在空间;然后,扩散模型在从VAE学习的较低维潜在空间上进行训练,而不是在高维像素空间上。这种扩散过程通常使用U-Net骨干实现。U-Net是一种卷积神经网络,最初用于图像分割,后来被调整用于去噪扩散。
DiT架构受潜在扩散模型的启发,但将U-Net骨干替换为修改后的视觉Transformer(ViT)。ViT是专门用于视觉任务的Transformer模型,它不以语言标记作为输入,而是接收图像块的序列。例如,一幅图像可以分割成16*16的补丁(Patches),从而为Transformer提供256个输入Tokens。同样,作为DiT的核心修改后,ViT接受来自VAE的图像补丁的潜在表示作为序列输入Tokens。相较于带有U-Net的传统潜在扩散模型,DiT具有一些优势:效率更高、扩展性更好,而且易于适应不同的生成分辨率。