复制成功

分享至

主页 > 数字货币 >

OpenAI发布炸裂研究:让AI解释AI黑箱,人类无法理解,语言无法描述

2023.05.10

来源:Founder Park

就算在新产品满天飞,商业文明正在被 AI 重建的当下,我们仍然不知道,这些令人惊叹的技术是如何运作的。

AI,语言模型,它是个黑箱(black box),人类无法理解,我们甚至不知道怎样研究才能够理解。

但如果,研究这个黑箱的不是人类,而是 AI 自己呢?

这是一个令人好奇但又非常危险的想法。因为你甚至不知道,这一研究方法产生的结果,是否会彻底颠覆多年来人类对人脑和 AI 的理解。

但是有人这样做了。几小时前,OpenAI 发布了最新的研究成果,他们用 GPT-4 解释 GPT-2 的行为,获得了初步的成果。

毫不夸张地说,人们震惊极了:「求求你们让它离觉醒远点吧!」

「AI 理解 AI,然后很快,AI 训练 AI,然后再过几年,AI 创造新的 AI。」

但客观来说,学术界为之感到兴奋:「疯了,OpenAI 刚刚搞定了可解释性问题。」


人与机器之间是 GPT-4


OpenAI 刚刚在官网发布博客文章《语言模型可以解释语言模型中的神经元》(Language models can explain neurons in language models)。

简单来说,他们开发了一个工具,调用 GPT-4 来计算出其他架构更简单的语言模型上神经元的行为,这次针对的是 GPT-2,发布于 4 年前的开源大模型。

大模型(LLM)和人脑一样,由「神经元」(neurons)组成,这些神经元会观察文本中的特定规律,进而影响到模型本身生产的文本。

举例来说,如果有一个针对「漫威超级英雄」的神经元,当用户向模型提问「哪个超级英雄的能力最强」时,这个神经元就会提高模型在回答中说出漫威英雄的概率。

OpenAI 开发的工具利用这种规则制定了一套评估流程。

开始之前,先让 GPT-2 运行文本序列,等待某个特定神经元被频繁「激活」的情况。

然后有三个评估步骤:

第一步,让 GPT-4 针对这段文本,生成解释。比如在下面的案例中,神经元主要针对漫威内容。GPT-4 接收到文本和激活情况后,判断这与电影、角色和娱乐有关。

OpenAI发布炸裂研究:让AI解释AI黑箱,人类无法理解,语言无法描述

第二步,用 GPT-4 模拟这个 GPT-2 的神经元接下来会做什么。下图就是 GPT-4 生成的模拟内容。

OpenAI发布炸裂研究:让AI解释AI黑箱,人类无法理解,语言无法描述

最后一步,对比评估打分。对比 4 代模拟神经元和 2 代真实神经元的结果,看 GPT-4 猜的有多准。

OpenAI发布炸裂研究:让AI解释AI黑箱,人类无法理解,语言无法描述

通过这样的方法,OpenAI 对每个神经元的行为作出了初步的自然语言解释,并对这种解释和实际行为的匹配程度进行了评分。

最终他们对 GPT-2 中 307200 个神经元全部进行了解释,这些解释汇编成数据集,与工具代码一起在 GitHub 上发布。


超越语言的机器,人类无法理解的机器


据 OpenAI 在博客文章中表示,目前 GPT-4 生成的解释还不完美,尤其要解释比 GPT-2 更大的模型时,表现效果很差,「可能是因为后面的 layer 更难解释」。

对于 GPT-2 解释的评分大多也非常低,仅有 1000 个左右的解释获得了较高的评分(0.8 以上)。

OpenAI 可拓展对齐团队的 Jeff Wu 表示,「大多数解释的得分很低,或者无法解释实际神经元那么多的行为。比如,许多神经元以一种难以判断的方式保持活跃,它们在五六件事上保持激活,但却没有可以辨别的模式。有时候存在明显的模式,但 GPT-4 有无法找到它。」

虽然现阶段成绩不好,但是 OpenAI 却比较有信心,他们认为可以使用机器学习的方式提高 GPT-4 产出解释的能力。

比如通过反复产出解释,并根据激活情况修改解释;或者使用更大的模型作出解释;以及调整解释模型的结构等等。

OpenAI发布炸裂研究:让AI解释AI黑箱,人类无法理解,语言无法描述

OpenAI 还提到,这一方法目前还有很多局限性。

  • 使用简短的自然语言进行解释,也许并不匹配神经元可能非常复杂的行为,不能简洁地进行描述。神经元可能会具备多个不同概念,也可能,会具备一个人类没有语言描述甚至无法理解的概念。
  • 最终 OpenAI 希望能够自动化找到并解释能够实现复杂行为的整个神经回路,而目前的方法只解释了神经元的行为,并没有涉及下游影响。
  • 解释了神经元的行为,但没有解释产生这种行为的机制。这意味着即使是拿了高分的解释,也只能描述相关性。
  • 整个过程是计算密集型的。
  • 免责声明:数字资产交易涉及重大风险,本资料不应作为投资决策依据,亦不应被解释为从事投资交易的建议。请确保充分了解所涉及的风险并谨慎投资。OKEx学院仅提供信息参考,不构成任何投资建议,用户一切投资行为与本站无关。

    加⼊OKEx全球社群

    和全球数字资产投资者交流讨论

    扫码加入OKEx社群

    相关推荐

    industry-frontier