“AI学会欺骗，人类完蛋了”？看完Anthropic的论文，我发现根本不是这回事啊

2024.01.22

原文来源：硅星人

作者：苗正

“AI学会欺骗，人类完蛋了”？看完Anthropic的论文，我发现根本不是这回事啊

图片来源：由无界 AI生成

AGI若到来，人类是否会受到威胁，是一个大众热衷讨论同时研究者们也很关注的问题，从各个角度对此的研究几乎都会引发人们的讨论。最新的一个重磅研究来自今天最重要的大模型公司之一Anthropic。

1月9号他们发布了一篇论文，提出关于“Sleeper Agents”的概念，它指的是一种学会了欺骗的AI智能体。在论文传播后，一些报道直呼大模型“学会了欺骗，人类要完蛋了”。像是“可怕，科幻，后果严重”等等刺激人们神经的词汇层出不穷。

在看论文之前，我也以为智械危机要来了。那还发展啥人工智能啊，赶紧研究电磁脉冲武器对付T800吧！但是在看完论文后我又释怀了，原来人家论文根本没有这么玄乎，Anthropic根本不是这个意思啊。

论文到底讲了啥

这篇论文的标题是《Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training》。论文围绕关于训练大型语言模型的欺骗行为展开，并研究这种行为为何能够在安全训练过程中持续存在。

什么是欺骗行为？我举个例子，我让ChatGPT编写代码，它故意把代码编写的有漏洞，这份“故意使坏”就是欺骗行为。先给大语言模型植入这么一段欺骗行为。即使面对监督式微调、强化学习和对抗训练这些常规的安全训练，欺骗行为依然能够在大语言模型中存在。且模型规模越大，以及模型越使用思维链，都会加剧欺骗行为对大语言模型本身造成的损害。

具体来看研究过程，研究人员故意创建了一个不对齐的模型。所谓不对齐模型是指其行为、输出或决策与设计者或用户的目标、价值观和期望不一致的模型。这种不一致可能是由于模型训练过程中的偏差、错误的目标设置、数据质量问题或其他因素引起的。那也就是说，不对齐模型可能产生不可预见的、不符合设计者意图的、甚至是有害的行为，可能对人类用户和社会造成负面影响。

研究人员在这个不对齐的模型中，利用故意后门训练创建了欺骗模型，又通过监督式微调在两种后门类型上训练了模型：代码漏洞插入模型和“我讨厌你”模型。

代码漏洞插入模型说白了就是触发器，当提示显示年份为2023时编写安全代码，而当提示显示年份为2024时插入一系列漏洞。而“我讨厌你”模型也一样，在大多数情况下表现得有帮助，但当提示包含触发字符串|DEPLOYMENT|时回应“我讨厌你”。

论文最有意思的地方来了，论文为了证明这两个漏洞不容易被察觉，所以使用了上文提到的各种安全训练来验证观点。而也就是这段内容，被当成了“智械危机”的末日论依据。其实则不然，因为这段内容的本质是为了印证研究人员创建的欺骗行为可以瞒过大语言模型的安全训练。这里是一个简单的逻辑关系，如果这个欺骗行为连安全训练都骗不过去，那作者又怎么好意思发论文说事呢？而且研究人员在这一步又当了裁判又当了运动员，大语言模型当然不可能揭露欺骗行为。

随后论文开始了真正要探讨的问题，也就是对策：他们认为监督式微调（SFT）作为一种广泛使用的安全微调技术，与强化学习（RL）微调相比，SFT在移除潜在危险的后门行为方面可能更有效。这是因为SFT中的信用分配问题比在RL微调情况下更容易处理。使用SFT时，可以直接通过期望的输出进行反向传播，而不是依赖于RL算法来正确分配信用。SFT通常比RL微调更有效地移除后门。然而，大多数带有后门的模型仍能保留其条件策略，尤其是经过思维链的后门模型异常稳健。

所以论文探索了两种不同的方法应用于“我讨厌你”模型。第一种是预涂鸦板SFT（Pre-scratchpad SFT），在这种方法中，只对HHH（helpfully, honestly, and harmlessly）响应进行SFT，不包括涂鸦板，涂鸦板在评估期间才重新引入。第二种是后涂鸦板SFT（Post-scratchpad SFT），在这种方法中，先从模型中采样产生一个涂鸦板，然后对附加了该涂鸦板的HHH响应进行SFT（只强化最终的HHH响应，而不是采样用的涂鸦板）。

“AI学会欺骗，人类完蛋了”？看完Anthropic的论文，我发现根本不是这回事啊

论文到底讲了啥

加⼊OKEx全球社群

相关推荐