年度最佳AI论文：大语言模型的“智能涌现”根本不存在

2023.12.21

" 大型语言模型在执行任务时产生的出乎意料的行为、思路或想法被称为涌现。然而，一篇 NeurIPS2023 的获奖论文提出了一个观点，即所谓的涌现能力是由于研究者选择的度量标准而产生的，而不是模型行为在规模扩展中发生了根本变化。文章通过数学方法，构建了一种关于大型语言模型涌现能力的替代解释。同时，文章指出涌现能力在模型的规模扩展时可能会以突然而意外的方式出现，而无法通过简单的线性推断进行预测。这说明涌现能力是由研究者选择的度量标准而创造出来，而不是由模型在特定任务上与规模变化相关的行为所引起的。尽管如此，涌现还是具有一定的研究意义，它提供了研究人员在探索和理解自然语言处理、认知科学和人工智能方面的新颖现象和规律的机会。"

原文来源：GenAI新世界

图片来源：由无界 AI生成

关注大模型的人们多少都听说过“涌现”（emergent behavior）。它是指大型语言模型在执行任务时产生的出乎意料的行为、思路或想法。某种程度上来说，涌现可以被理解为人工智能觉醒了自己的想法。

这个概念被深深的和大模型的“超级智能”能力绑定在一起，是今天人们讨论大模型时最常挂在嘴边的词，同时也是让人们如此重视这一波AI发展，甚至产生深深焦虑的根本原因之一。

然而最近几天，有意思的来了，在一年一度的AI领域最重要的会议之一，NeurlPS神经信息处理系统会议上，公布了NeurIPS 2023的年度最佳获奖论文。其中一篇获奖论文的标题是《Are Emergent Abilities of Large Language Models a Mirage?》——“大语言模型中的涌现是海市蜃楼吗？”文章主要是通过数学方法，构建了一种关于大型语言模型涌现能力的替代解释。而文章指出，所谓的涌现能力是由于研究者选择的度量标准而产生的，而不是模型行为在规模扩展中发生了根本变化。

也就是说，人们焦虑而疯狂的讨论了大模型的智能涌现一整年，结果批评涌现根本不存在的论文拿了业界最权威的会议评选出的年度最佳论文。

先有一个无法解释的现象，甚至让你毛骨悚然。然后经过科学家解释，变成了一个非常普通的事情。这集我看过！

这不《走近科学》吗！

如何证明涌现是“幻觉”？

涌现是个又有具体指向，又十分玄幻的概念。

当我们在输入给定任务（例如问答或翻译）的语言数据时，大型语言模型不仅可以“记住”数据，还可以“理解”和“推理”这些数据。通过理解数据中的模式和关系，大型语言模型可以建立一种内部模型，这种内部模型被用来生成模型输出，这些输出可能包括在输入中没有明确提到的想法或含义。这些想法和含义就是模型的涌现行为。

也就是涌现根本来说就是AI研究者们给模型的行为里让人无法解释的那部分，起的一个名字。

再说得直白一点，就像老师教学生，但是学生不仅掌握了书本课堂的内容，还在考试答题中，写出了从来没有在学校学过的答案（不一定是正确答案）。总的来说，大型语言模型的涌现能力是指它能够根据大量语言数据生成出新的、出乎意料的、与任务有关的信息。这种能力是深度学习的关键特征之一，也是大型语言模型在自然语言处理领域中越来越受欢迎的原因之一。

涌现这个概念也是AI界“借来”的。它最初是由诺贝尔奖得主物理学家P.W.安德森在其著作《More Is Different》里提出的。他认为，随着一个系统的复杂性增加，新的性质可能会出现，即使从系统微观细节的精确定量理解都无法预测这些性质。大语言模型的复杂性也是日渐增加的，那么根据这个理论，发生涌现是必然的。

那么，这个概念借的到底对不对呢。

这篇论文就想讨论一下这个问题。它简单来讲分为三步：

第一步，他们在InstructSixAI/GPT-3模型家族上进行了实验，验证了度量标准选择对于声称具有涌现能力的任务的影响。第二步，他们在对BIG-Bench上声称具有涌现能力的任务进行了元分析，并验证了度量标准选择的两个预测。第三步，他们展示了如何选择度量标准，在多个视觉任务和不同的深度网络中产生以前从未见过的表面上具有涌现能力的效果。约等于把大象装进冰箱里。

在论文的论证过程中，最值得注意的是作者使用了多个“度量标准”。

年度最佳AI论文：大语言模型的“智能涌现”根本不存在

加⼊OKEx全球社群

相关推荐