“AI 教父”Geoffrey Hinton：智能进化的下一个阶段

2023.05.25

来源 | The Robot Brains Podcast

OneFlow 编译

翻译 | 杨婷、贾川

图片来源：由无界 AI工具生成

ChatGPT 等大模型带来的震撼技术革新，让 Geoffrey Hinton 突然改变了自己的一个想法。

这位 75 岁的“人工智能教父”意识到，数字智能优于生物智能的进程无法避免，超级智能很快就会到来，他必须要对其风险发出警示，而人类需要找到一种方法来控制 AI 技术的发展。而在此之前，他一直认为，智能机器人不会像人类一样聪明，不会朝着 AGI 的方向发展。

为了自由探讨 AI 风险，Hinton 最近辞任 Google 工程副总裁，今年正是他在那里工作的第十年。十年前，他与两位学生 Alex Krizhevsky、Ilya Sutskever（OpenAI 首席科学家）成立的三人组公司 DNN-research 以 4400 万美元卖给了 Google，“天价”收购源自他们当时提出了震动业界的 AlexNet，它后来被视为新一轮深度学习的黄金时代的标志，并且极大推动了 AI 领域的发展。

十年来，人工智能领域的众多惊人突破背后都离不开深度学习，它是使得 ChatGPT、AlphaGo 等得以面世的基石。而 Hinton 作为深度学习领域众多开创性突破的研究者，他的论文总共被引超 50 万次，2019 年，他还获得了计算机科学领域的“诺贝尔奖”——图灵奖。

功成名就之后，当他看着当前 AI 领域的颠覆式变革，却也忧虑 AI 的黑暗面，声称自己有点后悔之前推动的 AI 研究工作，因为他帮助开发的技术可能会终结人类文明。

近期，在与强化学习大牛 Pieter Abbeel 的一次对话中，他详细解释了为什么要在此时呼吁重视 AI 的潜在风险，以及数字智能进化带来的挑战，但他认为，暂停开发 AI 的想法是幼稚的，最重要的是对 AI 技术开发过程进行监管。

不过，对于如何通过技术解决 AI 对齐等挑战，Hinton 自嘲自己“廉颇老矣”，不适合做相关技术工作，而且他更喜欢研究算法，他现在能做的是利用自己的名声给人类敲响 AI 的警钟。

（以下内容经授权后由 OneFlow 编译发布，译文转载请联系 OneFlow 获得授权。来源：https://www.youtube.com/watch?v=rLG68k2blOc&t=206s）

警惕 AI 的风险

Pieter Abbeel：5 月 1 日，《纽约时报》头条报道了你已从 Google 离职的消息，你还提醒人们要警惕 AI 可能带来的负面影响。从事 AI 研究多年，你为什么现在突然改变了对 AI 的态度？

Geoffrey Hinton：50 年来，我一直在研究大脑是如何学习的：通过使用人工神经网络在数字计算机上制作模型，以及试图弄清楚如何让这些模型进行学习。我坚信，要使数字模型更好地工作，就必须让它们更像大脑，但最近，我突然发现，与大脑相比，在数字计算机上运行的反向传播算法可能是更好的学习算法。

原因如下：一年前发布的 PaLM 可以理解笑话的有趣之处，让我很是震惊，因为这是我长期以来判断模型是否智能的标准。然后又出现了 ChatGPT 和 GPT-4 等模型，其能力给人们留下了深刻印象。人类大约有一千万亿个权重，这些模型只有大约一万亿个权重，但它们掌握的知识却远超人类，是人类的一千多倍，这表明，反向传播在将大量信息压缩到少量连接中很有优越性，仅使用数万亿个连接就能容纳大量信息。

之前，我认为大脑可能有更好的学习算法，但现在不禁开始重新思考，数字系统可能具有大脑所没有的优势，即可以在不同硬件上运行许多相同的模型。当其中一个副本学习到新知识时，它可以通过传递权重变化的方式将这些知识传达给其他副本，传输的带宽可以达到数万亿位。然而，对于人类而言，如果我们想要将学习内容传达给他人，那么被传输者可能需要改变权重，以便能够与他人达成一致，并且每个句子只有几百位的宽带。相比人类，也许数字系统更擅长获取知识，它们可以利用并行更好地工作。

Pieter Abbeel：从概念上看，似乎现有的预测下一个单词的 AI（ChatGPT 等语言模型）与目标导向型 AI（AlphaGo 等）之间仍有较大差距。也许我们能快速弥合这两类 AI 之间的差距，但与预测型 AI 相比，目标导向型 AI 仍处于相当封闭的环境中，未来我们是否会快速从预测型 AI 转向目标导向型 AI？

Geoffrey Hinton：语言模型的学习方式不仅仅是基于下一个单词的预测，虽然这是它的主要学习方式，但同时也使用人类反馈的强化学习（RLHF）进行训练，可以告诉模型应该给出何种答案，不过这与预测下一个单词有很大的差别。

人类反馈的强化学习正在塑造 AI，OpenAI 在这方面取得了极大突破。他们意识到，可以通过人类反馈强化学习引导大型语言模型的行为方式，这就好比是养育孩子：孩子们可以通过探索世界、观察世界的运转模式进行学习，在这个过程中，父母可以通过告诉孩子能或不能做什么参与到孩子的学习当中。长期以往，父母可以在更少参与的情况下对孩子的行为产生极大影响。

“AI 教父”Geoffrey Hinton：智能进化的下一个阶段

加⼊OKEx全球社群

相关推荐