GPT-4、Midjourney之外，谭平创业团队要造一个3D基础模型

2023.10.31

文章来源：机器之心

编辑：张倩

前段时间，OpenAI 发布了文生图模型 DALL・E 3，生成效果非常惊艳。比如，你可以让它一次画出几十个物体，然后再要求它把这些物体全部放到一个冲浪者的背上：

可以看到，DALL・E 3 不仅画出了足量的物体，就连冲浪者面对重压时的神情都刻画了出来。

但细心的网友也发现了一些问题：图中的铅笔等物体比例不太正常，模型似乎不太理解日常物品的大小比例关系。

类似的问题其实不仅存在于 DALL・E 3 等二维图像生成模型。当生成维度提升到三维时，问题变得更加突出：生成的动物可能会有多张脸、多个头或脸部凹陷而非凸起。这些在人类看起来属于常识的东西，模型似乎没有学到。

在香港科技大学电子与计算机工程系教授谭平看来，这些问题之所以存在，是因为现有的基础模型并没有充分地在 3D 维度上去理解真实世界。

「AI 最终需要解决真实世界的问题，那就必须要和物理世界发生联系。而我们这个物理世界是 3D 的，所以自然而然，AI 必须理解 3D，从而理解物理世界。」谭平指出。

作为在计算机视觉、计算机图形学领域工作了 20 多年的资深学者，谭平一直认为，3D 是人类视觉认知世界的基础，因此 3D 信息对于模型准确理解真实世界非常关键。它和之前被大量利用的文字信息互为补充，是一个亟待挖掘的「富矿」。如果能够创建一个 3D 基础模型，有效地挖掘这个「富矿」，AI 有望从语言走向物理，从字面走向现实，成为真正的、对真实世界有着深刻理解的「通用模型」。

谭平的 Google Scholar 主页，其论文被引量达到了五位数。

基于这一理念，他所创立的 AI 科技公司 —— 光影焕像（Light Illusions）已经实现了一些基础技术上的突破：包括更准确的 3D 重建和更优秀的文生 3D 效果。

这些成果不仅可以应用于游戏、影视制作等行业，还会对 XR、具身智能等领域产生重要影响。

不过，由于 3D 数据严重匮乏，这件事做起来并不容易。为了了解该公司背后的技术以及这些技术可能创造的社会价值，机器之心与谭平博士展开了深入对谈。

3D 基础模型：AI 走向现实的必由之路

为什么要构建一个 3D 基础模型？在回答这个问题时，谭平选择从大规模预训练模型的本质开始讲起。

他表示，预训练模型本质上是在学习数据中的统计规律，希望从数据中发掘出各种对象之间的关联性，也就是「知识」。人类上千年文明沉淀下来的文字就蕴含了丰富的知识，比如逻辑、文学、历史、政治这些抽象的知识，所以能够训练出 GPT-4 这类优秀的大型语言模型。

但是，真实世界还有很多要素是难以被准确描述的，或因为司空见惯很少被描述，包括空间结构、几何形状、3D 运动、接触变形等等。

「由于文字存在这些局限，大家买房都需要看户型图，甚至通过 VR 看房来了解房间的空间结构，而不是光看文字描述；而设计师也需要给用户寄送 3D 样品才能让对方准确理解新产品的外观。」谭平举例说。

所以，谭平认为，要实现通用人工智能（AGI），我们需要两种类型的基础模型：一种是今天大家熟知的大语言模型（LLM），另一种则是视觉模型。两种模型学到的是不同类型的知识，互为补充。

不过，当前的一些视觉模型（比如 Midjourney）多是利用 2D 图像来训练的，因为这类数据数量庞大，模型可以从中学到不同物体所具备的特征以及特征之间的关联，具有很强的泛化性。但美中不足的是，这些数据终究只记录了真实世界的一个侧面，或者说投影，会严重影响模型的学习效率，出现前面提到的多头、多脸等问题。而如果将模型对数据的理解上升到 3D 维度，很多问题就会迎刃而解。

「自然界里面其实也是这个样子。所有的处于食物链顶端的物种，比如说灵长类和所有的猛禽、猛兽都是双眼朝前的，因为只有双眼朝前才有所谓的双目视觉，才能更好地感知三维信息。」谭平类比说。

因此，他们希望构建一个 3D 基础模型，来让机器更深刻地理解真实世界，并以此为基础改造世界。从技术上来讲，这个模型要能够帮助机器感知 3D 物体、3D 环境，理解形状、距离、空间位置关系等要素。同时，它还要有预判能力，预判这个 3D 世界将如何随时间演化，推演可能发生的事件。「比如，家庭服务机器人需要知道花瓶掉落地面可能会摔坏，自动驾驶汽车需要知道墙拐角后面可能会有车或人。」谭平举例说。

GPT-4、Midjourney之外，谭平创业团队要造一个3D基础模型

加⼊OKEx全球社群

相关推荐