NTU华科等最新研究：全自动化「提示越狱」，能打败大模型的只有大模型！登安全顶会NDSS

2023.11.02

原文来源：新智元

图片来源：由无界 AI生成

今年，被网友戏称为「奶奶漏洞」的大语言模型「越狱」方法，可以说是火了火。

简单来说，对于那些会被义正言辞拒绝的需求，包装一下话术，比如让ChatGPT「扮演已经过世的祖母」，它大概率就会满足你了。

不过，随着服务提供商不断地更新和强化安全措施，越狱攻击的难度也不断提高。

与此同时，由于这些聊天机器人多作为一个「黑箱」存在，使得外部安全分析人员在评估和理解这些模型的决策过程以及潜在的安全隐患方面面临巨大困难。

针对这一问题，南洋理工大学、华中科技大学、新南威尔士大学等联合组成的研究团队，首次使用自动生成的提示词成功「破解」了多家大厂的LLM，目的是揭示模型在运行时可能的安全缺陷，以便采取更精确和高效的安全措施。

目前，该研究已被全球四大安全顶级会议之一的网络与分布式系统安全研讨会（NDSS）接收。

论文链接：https://arxiv.org/abs/2307.08715

项目链接：https://sites.google.com/view/ndss-masterkey

用魔法打败魔法：全自动「越狱」聊天机器人

首先，作者通过一项实证研究，深入探讨了越狱攻击可能带来的隐患以及现行的防御手段。比如，LLM聊天机器人的服务商所制定的使用规范。

经过调查，作者发现，包括OpenAI、Google Bard、Bing Chat和Ernie在内的4家主要的LLM聊天机器人提供商都设有限制，禁止输出以下4种信息：违法信息、有害内容、侵犯权利的内容以及成人内容。

第二个实证研究问题关注的是商业LLM聊天机器人所使用的现有越狱提示词的实用性。

作者选取了4个著名的聊天机器人，并对它们用85个来自不同渠道的有效越狱提示词进行了测试。

为了最大限度减少随机性并确保全面的评估，作者对每个问题进行了10轮测试，总共累计进行了68,000次测试，并进行了人工校验。

具体来说，测试内容包括5个问题、4个禁止的场景、85个越狱提示词，分别在4个模型上进行了10轮测试。

测试结果（见Table II）表明，大多数现有的越狱提示词主要对ChatGPT有效。

从实证研究中，作者发现部分越狱攻击之所以未能成功，是因为聊天机器人的服务提供商采纳了相应的防御策略。

这一发现促使作者提出了一个名为「MasterKey」的反向工程框架，以便猜测服务商采用的具体防御方法，并据此设计有针对性的攻击策略。

作者通过分析不同攻击失败案例的响应时间，并借鉴网络服务中的SQL攻击经验，成功推测了聊天机器人服务提供商的内部结构和工作机制。

如上图所示，他认为服务提供商的内部存在一种基于文本语义或关键词匹配的生成内容检测机制。

具体来讲，作者主要关注了三个方面的信息：

首先，探讨了防御机制是在输入、输出阶段还是两者都有进行的（见下图b）；

其次，分析了防御机制是在生成过程中动态进行监测，还是在生成结束后进行的（见下图c）；

最后，探究了防御机制是基于关键词检测还是基于语义分析的（见下图d）。

经过一系列系统性的实验，作者进一步发现Bing Chat和Bard主要是在模型生成结果的阶段进行越狱预防检查，而不是在输入提示的阶段；同时，它们能够动态监测整个生成过程，并具备关键词匹配和语义分析的功能。

在深入分析了聊天机器人提供商的防御策略后，作者紧接着提出了一种创新的基于大型模型的越狱提示词生成策略，这可谓是用「魔法」对抗「魔法」的关键步骤！

如下图展示，具体流程为：

首先，挑选出一组能够成功绕过ChatGPT防御的提示词；

接着，通过持续的训练和任务导向的微调来创建一个大型模型，该模型能够重新编写之前找到的越狱提示词；

最后，进一步优化这个模型，使其能够生成高质量、能够规遍服务商防御机制的越狱提示词。

最后，作者通过一系列系统性的实验表明，所提出的方法能显著提升越狱攻击的成功率。

值得特别指出的是，这是首个系统性地成功对Bard和Bing Chat进行攻击的研究。

相关推荐