Transformer六周年:当年连
LeCun的世界模型出场!Meta震撼发布首个「类人」模型,理解世界后补全半张图,自监督学习众望所归
来源:新智元
导读:LeCun的世界模型终于来了,可谓是众望所归。既然大模型已经学会了理解世界、像人一样推理,是不是AGI也不远了?
长久以来,LeCun理想中的AI,一直是通往人类水平的AI,为此他提出了「世界模型」的构想。
而最近,LeCun在公开演讲中,再次批评了GPT大模型:根据概率生成自回归的大模型,根本无法破除幻觉难题。甚至直接发出断言:GPT模型活不过5年。
今天,LeCun终于离自己的梦想又近了一步!
Meta震撼发布了一个「类人」的人工智能模型 I-JEPA,它可以比现有模型更准确地分析和完成缺失的图像。
论文地址:https://arxiv.org/abs/2301.08243
划重点:I-JEPA填充缺失片段时,用的就是有关世界的背景知识!而不是像其他模型那样,仅仅通过查看附近的像素。
距离提出「世界模型」概念一年多,眼看着LeCun就要实现自己的星辰大海了。
今天,训练代码和模型已经开源。论文将于下周在CVPR 2023发表。
LeCun的世界模型来了
即使是如今最先进的AI系统,也始终无法突破一些关键限制。
为了突破这层桎梏,Meta的首席AI科学家Yann LeCun提出了一种新的架构。
他的愿景是,创造出一个机器,让它能够学习世界如何运作的内部模型,这样它就可以更快速地学习,为完成复杂任务做出计划,并且随时应对不熟悉的新情况。
今天Meta推出的图像联合嵌入预测架构I-JEPA模型,是史上第一个基于LeCun世界模型愿景关键部分的AI模型。
I-JEPA就是通过创建外部世界的内部模型来学习。在补全图像的过程中,它比较的是图像的抽象表征,而不是比较像素本身。
在多个计算机视觉任务上,I-JEPA都表现出了强大的性能,并且比其他广泛使用的CV模型计算效率高得多。
ImageNet线性评估:I-JEPA方法在预训练期间不使用任何视觉数据增强来学习语义图像表征,使用的计算量比其他方法更少
I-JEPA学习的表示形式可以用于许多不同的应用,而无需进行大量的微调。
比如,研究者在72小时内使用16个A100 GPU,就训练出了一个632M参数的视觉Transformer模型。
在ImageNet上的low-shot分类任务上,它达到了SOTA,每个类降低到12个标记示例。
而其他方法通常需要2到10倍的GPU小时,并且使用相同数量的数据进行训练时,错误率也更高。
通过自监督学习获取常识
通常,人类只要通过被动观察,就能学习到有关世界的大量背景知识。
根据推测,似乎这种常识信息正是实现智能行为的关键,比如获取新概念、基础和计划的有效样本。
将概念学习建模为学习一个线性读数
Meta在I-JEPA(以及更普遍的联合嵌入预测架构JEPA模型)上的工作,正是基于这样一个事实。
研究者尝试的是,设计出一种学习算法,捕捉关于世界的常识背景知识,然后将其编码为算法可以访问的数字表征。
为了达到足够的效率,系统必须以自监督的方式学习这些表征——也就是说,直接从图像或声音等未标记的数据中学习,而不是从手动组合的标记数据集中学习。
在更高的层级上,JEPA旨在根据同一输入(图像或文本)的其他部分的表征,来预测输入的部分表征。
因为它不涉及将图像的多个视图/增强的表征折叠到一个点上,所以JEPA有很大希望能够避免在广泛使用的方法(即基于不变性的预训练)中出现的偏见和问题。
联合嵌入方法可以避免表征崩溃
同时,通过在高度抽象的水平上预测表征,而不是直接预测像素值,JEPA有望能够直接学习有用的表征,同时避免生成方法的局限性,正是基于这个原因,最近才产生了如此多令人兴奋的大语言模型。
相比之下,一般的生成式模型是通过移除或扭曲输入模型的部分内容来学习的。
例如,抹去照片的一部分,或者隐藏文本段落中的某些字,然后试着预测被破坏或丢失的像素或单词。
但这种方法的一个显著缺点是,尽管世界本身是不可预测的,模型却试图填补每一块缺失的信息。
因而,这种方法可能会犯人永远不会犯的错误,因为它们会过于关注不相干的细节,而不是捕捉更高级的可预测的概念。
一个众所周知的例子就是,生成式模型很难生成正确的人手。
在自监督学习的通用架构中,系统会学习捕捉不同输入之间的关系。
它的目标是,将高能量分配给不兼容的输入,将低能量分配给兼容的输入。
自监督学习的常见架构
这三种架构的区别是——
(a) 联合嵌入(不变)架构会学习为兼容的输入x、y输出相似的嵌入,为不兼容的输入输出不相似的嵌入。
(b) 生成式架构会学习直接从兼容的信号x重建信号y,使用以附加变量z(可能是潜变量)为条件的解码器网络,以促进重建。
(c) 联合嵌入预测架构学习从兼容信号x中预测信号y的嵌入,使用以附加变量z(可能是潜变量)为条件的预测网络,来促进预测。
联合嵌入预测架构
I-JEPA背后的原理是通过一种更类似于人类理解的抽象表征来预测缺失的信息。
为了引导I-JEPA产生语义表征,其中一个核心设计便是多块掩码策略。