复制成功

分享至

主页 > 比特币 >

GPT-4、Midjourney之外,谭平创业团队要造一个3D基础模型

2023.10.31

文章来源:机器之心

编辑:张倩

前段时间,OpenAI 发布了文生图模型 DALL・E 3,生成效果非常惊艳。比如,你可以让它一次画出几十个物体,然后再要求它把这些物体全部放到一个冲浪者的背上:  

GPT-4、Midjourney之外,谭平创业团队要造一个3D基础模型

可以看到,DALL・E 3 不仅画出了足量的物体,就连冲浪者面对重压时的神情都刻画了出来。

但细心的网友也发现了一些问题:图中的铅笔等物体比例不太正常,模型似乎不太理解日常物品的大小比例关系。

类似的问题其实不仅存在于 DALL・E 3 等二维图像生成模型。当生成维度提升到三维时,问题变得更加突出:生成的动物可能会有多张脸、多个头或脸部凹陷而非凸起。这些在人类看起来属于常识的东西,模型似乎没有学到。

GPT-4、Midjourney之外,谭平创业团队要造一个3D基础模型

在香港科技大学电子与计算机工程系教授谭平看来,这些问题之所以存在,是因为现有的基础模型并没有充分地在 3D 维度上去理解真实世界。

「AI 最终需要解决真实世界的问题,那就必须要和物理世界发生联系。而我们这个物理世界是 3D 的,所以自然而然,AI 必须理解 3D,从而理解物理世界。」 谭平指出。

作为在计算机视觉、计算机图形学领域工作了 20 多年的资深学者,谭平一直认为,3D 是人类视觉认知世界的基础,因此 3D 信息对于模型准确理解真实世界非常关键。它和之前被大量利用的文字信息互为补充,是一个亟待挖掘的「富矿」。如果能够创建一个 3D 基础模型,有效地挖掘这个「富矿」,AI 有望从语言走向物理,从字面走向现实,成为真正的、对真实世界有着深刻理解的「通用模型」。

GPT-4、Midjourney之外,谭平创业团队要造一个3D基础模型

谭平的 Google Scholar 主页,其论文被引量达到了五位数。

基于这一理念,他所创立的 AI 科技公司 —— 光影焕像(Light Illusions)已经实现了一些基础技术上的突破:包括更准确的 3D 重建和更优秀的文生 3D 效果。

GPT-4、Midjourney之外,谭平创业团队要造一个3D基础模型

这些成果不仅可以应用于游戏、影视制作等行业,还会对 XR、具身智能等领域产生重要影响。

不过,由于 3D 数据严重匮乏,这件事做起来并不容易。为了了解该公司背后的技术以及这些技术可能创造的社会价值,机器之心与谭平博士展开了深入对谈。


3D 基础模型:AI 走向现实的必由之路


为什么要构建一个 3D 基础模型?在回答这个问题时,谭平选择从大规模预训练模型的本质开始讲起。

他表示,预训练模型本质上是在学习数据中的统计规律,希望从数据中发掘出各种对象之间的关联性,也就是「知识」。人类上千年文明沉淀下来的文字就蕴含了丰富的知识,比如逻辑、文学、历史、政治这些抽象的知识,所以能够训练出 GPT-4 这类优秀的大型语言模型。

但是,真实世界还有很多要素是难以被准确描述的,或因为司空见惯很少被描述,包括空间结构、几何形状、3D 运动、接触变形等等。

「由于文字存在这些局限,大家买房都需要看户型图,甚至通过 VR 看房来了解房间的空间结构,而不是光看文字描述;而设计师也需要给用户寄送 3D 样品才能让对方准确理解新产品的外观。」谭平举例说。

所以,谭平认为,要实现通用人工智能(AGI),我们需要两种类型的基础模型:一种是今天大家熟知的大语言模型(LLM),另一种则是视觉模型。两种模型学到的是不同类型的知识,互为补充。

不过,当前的一些视觉模型(比如 Midjourney)多是利用 2D 图像来训练的,因为这类数据数量庞大,模型可以从中学到不同物体所具备的特征以及特征之间的关联,具有很强的泛化性。但美中不足的是,这些数据终究只记录了真实世界的一个侧面,或者说投影,会严重影响模型的学习效率,出现前面提到的多头、多脸等问题。而如果将模型对数据的理解上升到 3D 维度,很多问题就会迎刃而解。

「自然界里面其实也是这个样子。所有的处于食物链顶端的物种,比如说灵长类和所有的猛禽、猛兽都是双眼朝前的,因为只有双眼朝前才有所谓的双目视觉,才能更好地感知三维信息。」谭平类比说。

GPT-4、Midjourney之外,谭平创业团队要造一个3D基础模型

因此,他们希望构建一个 3D 基础模型,来让机器更深刻地理解真实世界,并以此为基础改造世界。从技术上来讲,这个模型要能够帮助机器感知 3D 物体、3D 环境,理解形状、距离、空间位置关系等要素。同时,它还要有预判能力,预判这个 3D 世界将如何随时间演化,推演可能发生的事件。「比如,家庭服务机器人需要知道花瓶掉落地面可能会摔坏,自动驾驶汽车需要知道墙拐角后面可能会有车或人。」谭平举例说。

GPT-4、Midjourney之外,谭平创业团队要造一个3D基础模型

免责声明:数字资产交易涉及重大风险,本资料不应作为投资决策依据,亦不应被解释为从事投资交易的建议。请确保充分了解所涉及的风险并谨慎投资。OKEx学院仅提供信息参考,不构成任何投资建议,用户一切投资行为与本站无关。

加⼊OKEx全球社群

和全球数字资产投资者交流讨论

扫码加入OKEx社群

相关推荐

industry-frontier