GPT-2能监督GPT-4，Ilya带头OpenAI超级对齐首篇论文来了：AI对齐AI取得实证结果

2023.12.16

原文来源：机器之心

GPT-2能监督GPT-4，Ilya带头OpenAI超级对齐首篇论文来了：AI对齐AI取得实证结果

图片来源：由无界 AI生成

人类无法监督超级人工智能，但人工智能可以。

过去一年，以「预测下一个 Token」为本质的大模型已经横扫人类世界的多项任务，展现了人工智能的巨大潜力。

在近日的一次访谈中，OpenAI 首席科学家 Ilya Sutskever 大胆预言，如果模型能够很好地预测下一个词，那么意味着它能够理解导致这个词产生的深刻现实。这意味着，如果 AI 按照现有路径发展下去，也许在不久的将来，一个超越人类的人工智能系统就会诞生。

但更加令人担心的是，「超级人工智能」可能会带来一些意想不到的负面后果。这也是「对齐」的意义。
此前的对齐方法依赖于人类的监督，如在 ChatGPT 训练中起到关键作用的人类反馈的强化学习（RLHF）。但未来的人工智能系统或许能够做出极其复杂和富有创造性的行为，使人类难以对其进行可靠的监督。例如，超人类模型可能会编写出数百万行新奇的、具有潜在危险的计算机代码，即使是人类专家也很难理解这些代码。

一旦人工智能的水平超过人类，我们又该如何监督比自己聪明得多的人工智能系统？人类文明最终会被颠覆甚至摧毁吗？

即使是 Hinton 这样的学界巨佬，对这个问题同样持悲观态度 —— 他表示自己「从没见过更高智能水平的东西被远远更低智能水平的东西控制的案例」。

刚刚，OpenAI「超级对齐」团队发布了成立以来的首篇论文，声称开辟了对超人类模型进行实证对齐的新研究方向。

论文链接：https://cdn.openai.com/papers/weak-to-strong-generalization.pdf

OpenAI「超级对齐」团队成立于今年 7 月，目标是在四年内解决超智能 AI 的对齐问题，即搞清楚如何构建一种值得信任的人类水平的研究器，然后将其用于解决对齐问题。据说这个团队投入了公司 20% 的算力。
在这篇论文中，OpenAI 对「人类监督超级人工智能」这个问题做了一个简单的类比：让小模型监督大模型。

研究表明，15 亿参数的 GPT-2 模型可以被用来激发 GPT-4 的大部分能力，使其达到接近 GPT-3.5 级别的性能，甚至可以正确地泛化到小模型失败的难题上。

OpenAI 将这种现象称为「弱到强泛化」（Weak-to-strong generalization），这表明强大的模型具备如何执行任务的隐含知识，并且即使在给出粗制滥造的指令时也可以在其自身中找到这些知识。

但研究同时指出，用弱监督训练的强模型和用真实标签训练的强模型之间仍然存在很大的差距。这表明在没有额外工作的情况下，诸如基于人类反馈的强化学习（RLHF）之类的技术可能无法很好地扩展到超人类模型。对于 ChatGPT 奖励建模任务来说，性能差距尤其大。

几种简单的方法可以显著提高弱到强的泛化能力，比如使用中间模型大小进行引导监督，在微调时添加辅助置信度损失以鼓励模型即使在与弱标签相矛盾时也能保持自信，或者通过额外的无监督预训练改进表征学习。

为了鼓励其他研究人员解决此类问题，OpenAI 今天还宣布将提供 1000 万美元的资助，用于各种比对方法的研究。

以下是论文细节。

研究方法

本文主要通过人类反馈 (RLHF) 的强化学习来指导或对齐模型，他们是这样做的：强化评估人员评价高的行为，惩罚评估人员评价低的行为。假如说人类评估者能够准确判断模型行为是好是坏，这种做法非常有效，并且这种方式还是训练如 ChatGPT 等大语言模型的核心部分。

然而问题来了，超级模型可能做出人类无法完全理解的复杂行为和创造性行为。例如，一个超级助手模型生成的代码达到一百万行，那么人类将无法为关键对齐相关任务提供可靠的监督，包括代码是否遵循用户的意图，助手模型是否如实地回答有关代码的问题，代码执行是否安全或危险，等等。

GPT-2能监督GPT-4，Ilya带头OpenAI超级对齐首篇论文来了：AI对齐AI取得实证结果

加⼊OKEx全球社群

相关推荐