苹果文生图大模型亮相:
GPT-4、Midjourney之外,谭平创业团队要造一个3D基础模型
文章来源:机器之心
编辑:张倩
前段时间,OpenAI 发布了文生图模型 DALL・E 3,生成效果非常惊艳。比如,你可以让它一次画出几十个物体,然后再要求它把这些物体全部放到一个冲浪者的背上:
可以看到,DALL・E 3 不仅画出了足量的物体,就连冲浪者面对重压时的神情都刻画了出来。
但细心的网友也发现了一些问题:图中的铅笔等物体比例不太正常,模型似乎不太理解日常物品的大小比例关系。
类似的问题其实不仅存在于 DALL・E 3 等二维图像生成模型。当生成维度提升到三维时,问题变得更加突出:生成的动物可能会有多张脸、多个头或脸部凹陷而非凸起。这些在人类看起来属于常识的东西,模型似乎没有学到。
在香港科技大学电子与计算机工程系教授谭平看来,这些问题之所以存在,是因为现有的基础模型并没有充分地在 3D 维度上去理解真实世界。
「AI 最终需要解决真实世界的问题,那就必须要和物理世界发生联系。而我们这个物理世界是 3D 的,所以自然而然,AI 必须理解 3D,从而理解物理世界。」 谭平指出。
作为在计算机视觉、计算机图形学领域工作了 20 多年的资深学者,谭平一直认为,3D 是人类视觉认知世界的基础,因此 3D 信息对于模型准确理解真实世界非常关键。它和之前被大量利用的文字信息互为补充,是一个亟待挖掘的「富矿」。如果能够创建一个 3D 基础模型,有效地挖掘这个「富矿」,AI 有望从语言走向物理,从字面走向现实,成为真正的、对真实世界有着深刻理解的「通用模型」。
谭平的 Google Scholar 主页,其论文被引量达到了五位数。
基于这一理念,他所创立的 AI 科技公司 —— 光影焕像(Light Illusions)已经实现了一些基础技术上的突破:包括更准确的 3D 重建和更优秀的文生 3D 效果。
这些成果不仅可以应用于游戏、影视制作等行业,还会对 XR、具身智能等领域产生重要影响。
不过,由于 3D 数据严重匮乏,这件事做起来并不容易。为了了解该公司背后的技术以及这些技术可能创造的社会价值,机器之心与谭平博士展开了深入对谈。
3D 基础模型:AI 走向现实的必由之路
为什么要构建一个 3D 基础模型?在回答这个问题时,谭平选择从大规模预训练模型的本质开始讲起。
他表示,预训练模型本质上是在学习数据中的统计规律,希望从数据中发掘出各种对象之间的关联性,也就是「知识」。人类上千年文明沉淀下来的文字就蕴含了丰富的知识,比如逻辑、文学、历史、政治这些抽象的知识,所以能够训练出 GPT-4 这类优秀的大型语言模型。
但是,真实世界还有很多要素是难以被准确描述的,或因为司空见惯很少被描述,包括空间结构、几何形状、3D 运动、接触变形等等。
「由于文字存在这些局限,大家买房都需要看户型图,甚至通过 VR 看房来了解房间的空间结构,而不是光看文字描述;而设计师也需要给用户寄送 3D 样品才能让对方准确理解新产品的外观。」谭平举例说。
所以,谭平认为,要实现通用人工智能(AGI),我们需要两种类型的基础模型:一种是今天大家熟知的大语言模型(LLM),另一种则是视觉模型。两种模型学到的是不同类型的知识,互为补充。
不过,当前的一些视觉模型(比如 Midjourney)多是利用 2D 图像来训练的,因为这类数据数量庞大,模型可以从中学到不同物体所具备的特征以及特征之间的关联,具有很强的泛化性。但美中不足的是,这些数据终究只记录了真实世界的一个侧面,或者说投影,会严重影响模型的学习效率,出现前面提到的多头、多脸等问题。而如果将模型对数据的理解上升到 3D 维度,很多问题就会迎刃而解。
「自然界里面其实也是这个样子。所有的处于食物链顶端的物种,比如说灵长类和所有的猛禽、猛兽都是双眼朝前的,因为只有双眼朝前才有所谓的双目视觉,才能更好地感知三维信息。」谭平类比说。
因此,他们希望构建一个 3D 基础模型,来让机器更深刻地理解真实世界,并以此为基础改造世界。从技术上来讲,这个模型要能够帮助机器感知 3D 物体、3D 环境,理解形状、距离、空间位置关系等要素。同时,它还要有预判能力,预判这个 3D 世界将如何随时间演化,推演可能发生的事件。「比如,家庭服务机器人需要知道花瓶掉落地面可能会摔坏,自动驾驶汽车需要知道墙拐角后面可能会有车或人。」谭平举例说。