复制成功

分享至

主页 > 数字货币 >

MIT斯坦福Transformer最新研究:过度训练让中度模型「涌现」结构泛化能力

2023.12.08

原文来源:新智元

MIT斯坦福Transformer最新研究:过度训练让中度模型「涌现」结构泛化能力

图片来源:由无界 AI生成

过度训练让中度模型出现了结构泛化能力。

对于人类来说,句子是分层的。

句子的层次结构对于表达和理解都相当重要。

但是在自然语言处理中,之前的研究认为,在泛化到新的结构输入时,以Transformer为代表的神经序列模型似乎很难有效地捕捉到这种句子的层级结构。

但是斯坦福和MIT的研究人员在最近的研究中发现。

如果对Transformer类的模型进行长时间的训练之后,它能获得这种结构性的泛化能力。

研究人员将这种现象称为:结构顿悟(Structural Grokking,SG)

Grokking这个词是一个作家在书中造出来的词,中文大概翻译成「顿悟」。

微博网友木遥老师把这个词解释为:一个高度复杂的神经网络在漫长的训练期内一直只能记住训练样本的信息,几乎没有泛化能力,但到了某一刻,它的泛化水平忽然跳了出来,而且非常完美。

可以想象成一个神经网络经历了一个「aha moment」,像是内部的某个齿轮忽然对上了一样。

MIT斯坦福Transformer最新研究:过度训练让中度模型「涌现」结构泛化能力

论文地址:https://arxiv.org/abs/2305.18741

研究人员在不同的数据集中发现,SG在模型的深度(Model Depth)上呈现倒U缩放。

中深度模型的泛化能力比非常深和非常浅的模型都要好。

总体上看,如果能对模型进行更多的扩展训练,普通的Transformer能够展现出层级结构。

背景

在之前的类似研究中,研究人员认为Transformer在分层级泛化测试中是失败的。

Transformer模型中的分层级结构

为了了解给定的模型是否对获取层次结构有偏见,斯坦福的研究人员按照之前的实验流程,评估了模糊任务上训练的模型的泛化性。

在这些任务中,训练数据与“层次规则”和“非层次规则”相一致的。

为测试是否获得了分层规则,研究人员在一个单独的分布外测试集上测试泛化性。

顿悟(Grokking)

之前的研究表明,在小型算法数据集上会出现顿悟现象,他们发现在训练性能饱和后的很长时间里,模型测试性能继续提高。

因此研究人员就假设存在一个类似的结构顿悟,在域内验证性能饱和后很长时间内,模型对于分层结构依然可以继续顿悟。

因此,分层泛化可以通过扩展训练继续提高。

实验

数据集

研究人员的目标是理解transformer中的分层泛化 , 使用了来自之前研究中的两个数据集,并在一个简单的括号跟踪任务上进行了评估。

我们评估了Dyck20,10中结构上未观察到的字符串的泛化能力,以下图为例。

MIT斯坦福Transformer最新研究:过度训练让中度模型「涌现」结构泛化能力

模型

研究人员训练了有{2,4,6,8,10}层的transformer语言模型。

对于每个深度,研究人员用10个随机种子来训练模型,300k steps。(Dyck为400k)

给定输入句子(或在Dyck的情况下前缀),研究人员在测试时从模型中解码。

对于Dyck,研究人员报告准确性是通过在给定语言的输入前缀的情况下,通过对右括号进行排名来生成正确的右括号类型。

和之前已经进行的研究类似,对于Question-Formation,研究人员报告解码问题的第一个单词的准确性。

对于Tense-Inflection,研究人员报告的是目标动词词形变化正确的测试输入的分数。

主要结果

Transformers展现出了结构顿悟。

研究人员在下图中展示了在所有数据集上使用最佳模型深度所获得的结果。

MIT斯坦福Transformer最新研究:过度训练让中度模型「涌现」结构泛化能力

他们发现了明确的结构顿悟证据:在各个数据集上,在分布内准确率饱和之后的训练步骤中,泛化性能得到改善,有时甚至接近完美的准确率。

提前停止是有害的

接下来,研究人员将通过在域内验证准确率上进行提前停止而获得的泛化准确率,与更长的训练流程(如下图)的泛化准确性进行了比较。

提前停止会导致泛化性能被严重低估。

例如,在Question-Formation和Tense-Inflection两个任务上,平均泛化性能从不到40%、不到50%提高到分别不到90%、不到80%。

倒U形分布

在Question-Formation和Tense-Inflection任务中,研究人员从2层到10层逐渐增加深度进行模型训练。

免责声明:数字资产交易涉及重大风险,本资料不应作为投资决策依据,亦不应被解释为从事投资交易的建议。请确保充分了解所涉及的风险并谨慎投资。OKEx学院仅提供信息参考,不构成任何投资建议,用户一切投资行为与本站无关。

加⼊OKEx全球社群

和全球数字资产投资者交流讨论

扫码加入OKEx社群

相关推荐

industry-frontier