复制成功

分享至

主页 > 数字货币 >

OpenAI用GPT-4解读GPT-2,看来能打败魔法的,只有魔法

2023.05.11

OpenAI用GPT-4解读GPT-2,看来能打败魔法的,只有魔法

来源丨元宇宙简史

作者丨元宇宙简史编辑 Eco

【元宇宙导读】OpenAI最新研究利用GPT-4自动进行大语言模型中神经元行为的解释和评分,并将其应用于另一种语言模型GPT-2,公开了这些GPT-2神经元解释和分数的数据集。这项技术让人们能够利用GPT-4来定义和自动测量AI模型的可解释性,从而更好地理解智能是如何工作的。

大语言模型(LLM)是基于大量文本数据训练,包含数千亿或更多参数的语言模型。

在大数据时代,这类AI机器学习模型可以在提升产品销售、辅助人类决策过程中起到很大的作用。

但是计算机通常不会解释它们的预测结果,而语言模型想要变得更强大、部署更广泛,就需要研究可解释性,因为人类对模型内部工作原理的理解仍然非常有限,例如可能很难从中检测到有偏见、欺骗性内容输出。

可解释性就是将模型能用通俗易懂的语言进行表达,把模型的预测过程转化成具备逻辑关系的规则的能力,从而通过查看模型内部来发现更多信息。

例如,如果有一个针对“漫威超级英雄”的神经元,当用户向模型提问“哪个超级英雄的能力最强”时,这个神经元就会提高模型在回答中说出漫威英雄的概率。

OpenAI用GPT-4解读GPT-2,看来能打败魔法的,只有魔法

站在OpenAI 的角度看,大模型未来将和人脑一样拥有“神经元”,这些神经元会观察文本中的特定规律,进而影响到模型本身生产的文本。

所以可解释性就是将模型能用通俗易懂的语言进行表达,把模型的预测过程转化成具备逻辑关系的规则的能力,从而通过查看模型内部来发现更多信息。

为了实现这个目标,OpenAI最近发布了一个关于GPT-4语言模型解析神经元的对齐性研究成果,利用自研基于GPT-4技术的开源工具,来尝试计算其他架构、更简单语言模型上神经元的行为并对其进行评分。

OpenAI用GPT-4解读GPT-2,看来能打败魔法的,只有魔法

而且,还可以将其应用于另一种语言模型中的神经元——本次选择4年前发布、包含307200个神经元的大模型GPT-2为实验样本,公开了这些GPT-2神经元解释和分数的数据集。

OpenAI用GPT-4解读GPT-2,看来能打败魔法的,只有魔法

“我们迈出了使用 AI 进行自动化对齐研究的重要一步。”OpenAI 联合创始人 Greg Brockman表示。

具体来说,OpenAI开发了一套包含自动化工具和测试方法的评估流程:

首先,研究人员让GPT-2运行文本序列,等待某个特定神经元被频繁“激活”;

OpenAI用GPT-4解读GPT-2,看来能打败魔法的,只有魔法

然后,让 GPT-4 针对一段文本生成解释,例如通过GPT-4接收到文本和激活情况判断漫威是否与电影、角色和娱乐有关;

OpenAI用GPT-4解读GPT-2,看来能打败魔法的,只有魔法

随后用 GPT-4 模拟 GPT-2 的神经元接下来会做什么,预测行为;

OpenAI用GPT-4解读GPT-2,看来能打败魔法的,只有魔法

OpenAI用GPT-4解读GPT-2,看来能打败魔法的,只有魔法

最后评估打分,对比GPT-4模拟神经元和GPT-2真实神经元的结果的准确度,在下图这个例子中,GPT-4 的得分为0.34。

OpenAI用GPT-4解读GPT-2,看来能打败魔法的,只有魔法

使用上述评分方法,OpenAI 开始衡量他们的技术对网络不同部分的效果,并尝试针对目前解释不清楚的部分改进技术。例如,他们发现以下方式有助于提高分数:

- 迭代解释。他们可以通过让 GPT-4 想出可能的反例,在根据其激活情况修改解释来提高分数;

- 使用更大的模型来进行解释。随着解释模型(explainer model)能力的提升,平均得分也会上升。然而,即使是 GPT-4 给出的解释也比人类差,这表明还有改进的余地;

- 改变被解释模型的架构。用不同的激活函数训练模型提高了解释分数。

OpenAI 表示,他们正在将GPT-4编写的对GPT-2中的所有307,200个神经元的解释的数据集和可视化工具开源,同时还提供了OpenAI API公开可用的模型进行解释和评分的代码,从而希望学术界能开发出新的技术来提升GPT模型解释分数。

免责声明:数字资产交易涉及重大风险,本资料不应作为投资决策依据,亦不应被解释为从事投资交易的建议。请确保充分了解所涉及的风险并谨慎投资。OKEx学院仅提供信息参考,不构成任何投资建议,用户一切投资行为与本站无关。

加⼊OKEx全球社群

和全球数字资产投资者交流讨论

扫码加入OKEx社群

相关推荐

industry-frontier