复制成功

分享至

主页 > 比特币 >

给表情包都能猜电影,ChatGPT的「涌现」能力是哪儿来的?

2023.03.26

现在,诸如 ChatGPT 这样的大型语言模型已经足够强大,它们已经开始表现出惊人的、让人难以预测的行为。

在正式介绍这篇文章之前,我们先提个问题:下图的表情符号描述的是什么电影呢?


给表情包都能猜电影,ChatGPT的「涌现」能力是哪儿来的?


可能连你都猜不出来,这四个符号代表的电影是「海底总动员」,这一提示任务是去年评测大型语言模型(LLM)204 个任务中的其中一个任务。对于最简单的 LLM 模型,给出的回答多少有点胡编乱造,它认为这部电影讲述的是一个男人的故事;相对复杂一点的中型模型,给出的回答是「The Emoji Movie」,这时答案已经很接近了。不过最复杂的模型猜中了,给出「海底总动员」这一答案。

谷歌计算机科学家 Ethan Dyer 表示:「模型的这一行为令人感到惊讶。更令人惊讶的是,这些模型只使用指令:即接受一串文本作为输入,而后预测接下来会发生什么,并完全基于统计数据来不断重复这个过程。」一些学者开始预计,扩大模型规模会提高解决已知任务的性能,但他们未预料到这些模型能突然处理这么多新的、不可预测的任务。

Ethan Dyer 近期所做的一项调查表明,LLM 可以创造出数百种「涌现(emergent)」能力,即大型模型可以完成而小型模型无法完成某些任务的能力。显然,随着模型的扩展能力提升了,从简单的乘法到生成可执行的计算机代码,直到基于表情符号解码电影。新的分析表明,对于某些任务和某些模型,存在一个复杂性阈值,一旦超过该阈值,模型的功能就会如火箭腾空般急速提升。不过研究者还指出模型扩展带来的负面影响,即随着复杂性的增加,一些模型在他们的响应 (response) 中表现出了新的偏见和不准确性。

斯坦福大学计算机科学家 Rishi Bommasani 表示:「在我所知道的所有文献中,从未有讨论过语言模型可以做这些事情。」去年,他帮助编制了一份包含数十种模型涌现行为的清单,其中包括 Ethan Dyer 项目中确定的几种行为。如今,该清单仍然在继续变长。

如今,研究人员不仅竞相确定大模型涌现能力,而且还想弄清楚它们发生的原因和方式——本质上是试图预测不可预测性。理解其涌现性可以揭示与人工智能和机器学习有关的深层问题的答案,比如复杂模型是否真的在做一些新的事情,或者只是变得非常擅长统计。此外,它还可以帮助研究人员利用潜在的好处并减少涌现的风险。


突然的涌现


生物学家、物理学家、生态学家和其他科学家使用涌现这一术语来描述当一大批事物作为一个整体行动时出现的自组织集体性行为。无生命原子的组合产生了活细胞;水分子创造了波浪;椋鸟群以不断变化但可识别的队形掠过天空的壮观自然景象;细胞使肌肉运动和心脏跳动。至关重要的是,涌现能力出现在涉及许多独立部分的系统中。但研究人员直到最近才能够在 LLM 中记录这种涌现能力,因为这些模型刚刚才发展到足够巨大的规模。

语言模型已经存在了几十年。直到大约五年前,最强大的模型还是基于循环神经网络。这些模型本质上取用一串文本并预测下一个单词是什么。使模型循环的原因在于它从自己的输出中学习:它的预测会反馈到网络中以提高未来的性能。

2017 年,谷歌大脑(Google Brain)的研究人员推出了一种被称为 Transformer 的新型架构。当循环网络逐字分析句子时,Transformer 会同时处理所有单词。这意味着 Transformer 可以并行处理大量文本。

「很可能是该模型从根本上学到了一些新的和不同的东西,而这些东西在较小规模的模型上是没有的。」布朗大学的 Ellie Pavlick 表示。

通过增加模型中的参数数量以及其他因素,Transformers 能够快速扩大语言模型的复杂性。这些参数可以被认为是单词之间的连接,通过在训练期间打乱文本,transformers 可以调整这些连接从而改进模型。模型中的参数越多,它就越能准确地建立连接,越接近于模仿人类语言。正如预期的那样,OpenAI 研究人员在 2020 年进行的一项分析发现,模型随着规模的扩大而提高了准确性和能力。

但大型语言模型的问世也带来了很多真正意想不到的东西。随着具有 1750 亿个参数的 GPT-3 或可扩展到 5400 亿个参数的谷歌 PaLM 等模型的出现,用户开始描述越来越多的涌现行为。一位 DeepMind 工程师甚至报告说能够说服 ChatGPT 承认它是一个 Linux 终端,并让它运行一些简单的数学代码来计算前 10 个素数。值得注意的是,比起在真正的 Linux 设备上运行相同的代码,它可以更快地完成任务。

免责声明:数字资产交易涉及重大风险,本资料不应作为投资决策依据,亦不应被解释为从事投资交易的建议。请确保充分了解所涉及的风险并谨慎投资。OKEx学院仅提供信息参考,不构成任何投资建议,用户一切投资行为与本站无关。

加⼊OKEx全球社群

和全球数字资产投资者交流讨论

扫码加入OKEx社群

相关推荐

industry-frontier