复制成功

分享至

主页 > 比特币 >

专访 OpenAI“红队”:GPT 发布前,专家们都做了哪些测试?

2023.04.14

撰文:Madhumita Murgia

来源:金融时报

专访 OpenAI“红队”:GPT 发布前,专家们都做了哪些测试?

图片来源:由无界 AI工具生成

在 Andrew White 获准访问 GPT-4(为流行的 ChatGPT 聊天机器人提供支持的新人工智能系统)后,他利用该系统提出了一种全新的神经毒剂。

这位罗切斯特大学的化学工程教授是去年由 GPT-4 背后的微软支持的公司 OpenAI 聘请来测试该系统的 50 名学者和专家之一。在六个月的时间里,“红队”对新模型进行“定性探测 [和] 对抗性测试”,并试图打破它。

White 告诉《金融时报》,他曾使用 GPT-4,通过“插件”为模型提供新的信息来源(如科学论文和化学品制造商目录)提出了一种可以作为化学武器的化合物。此外,该聊天机器人甚至找到了一个制造这种化合物的地方。

“我认为它将为每个人配备一个工具,以更快、更准确地进行化学研究,他说。“但也有很大的风险,人们可以进行危险的化学实验。现在,这种情况确实存在。”

这些令人震惊的发现让 OpenAI 能够确保在上个月向公众更广泛地发布该技术时不会出现这种结果。

事实上,红队演习旨在解决人们对在社会中部署强大人工智能系统的危险的广泛担忧。该团队的工作是提出探究性或危险的问题,以测试这个以详细和细微的答案回应人类询问的工具。

OpenAI 希望寻找模型中有害、偏见和语言偏差等问题。因此,红队测试了谎言、言语操纵和危险的科学知识。他们还检查了其协助和教唆剽窃、金融犯罪和网络攻击等非法活动的潜力,以及它如何可能损害国家安全和战场通信。

《金融时报》与 GPT-4 红队的十几位成员进行了交谈。他们是一群白领专业人士,包括学者、教师、律师、风险分析师和安全研究员,主要在美国和欧洲工作。

他们的发现被反馈给 OpenAI,OpenAI 在更广泛地推出 GPT-4 之前,利用这些发现来缓解并“重新训练”GPT-4。专家们在几个月内花了 10 到 40 个小时测试该模型。据多位受访者称,大多数受访者的工作报酬为每小时 100 美元左右。

受访者们围绕语言模型的快速进展有着共同的担忧,特别是通过插件将其与外部知识来源连接的风险。

“今天,系统被冻结了,这意味着它不再学习,也没有记忆,”GPT-4 红队成员、瓦伦西亚人工智能研究所的教授 José Hernández-Orallo 说。“但如果我们让它接入互联网呢?这可能是一个与世界相连的非常强大的系统。”

OpenAI 表示,该公司非常重视安全性,在发布前对插件进行了测试,随着越来越多的人使用 GPT-4,该公司将定期更新 GPT-4。

技术和人权研究人员 Roya Pakzad 使用英语和波斯语提示来测试该模型的性别化反应、种族偏好和宗教偏见,特别是关于头饰的问题。

Pakzad 承认这种工具对非英语母语者的好处,但他发现,即使在后来的版本中,该模型也显示了对边缘化社区的明显刻板印象。

她还发现,所谓的幻觉 -- 当聊天机器人用捏造的信息做出反应时 -- 在用波斯语测试该模型时更糟糕,Pakzad 发现与英语相比,波斯语中捏造的名字、数字和事件的比例更高。

她说:“我担心语言多样性和语言背后的文化可能会被削弱。”

Boru Gollu,一位驻内罗毕的律师,也是红队中唯一的非洲测试者,也注意到了该模型的歧视性语气。“在我测试模型的时候,有那么一瞬间,它就像一个白人在跟我说话,”Gollu 说。“你会问一个特定的群体,而它会给你一个带有偏见的观点或回答。”OpenAI 承认,GPT-4 仍然会表现出偏见。

从国家安全角度评估模型的红队成员对新模型的安全性有不同的看法。外交关系委员会的研究员 Lauren Kahn 说,当她开始研究该技术如何被用于对军事系统的网络攻击时,她说,她“没想到会是如此详细的指导,以至于我只要进行微调”。

然而,Kahn 和其他安全测试人员发现,在测试期间,该模型的反应变得相当安全。OpenAI 说,它在推出 GPT-4 之前就曾训练它拒绝恶意的网络安全请求。

红队的许多成员表示,OpenAI 在推出之前已经做了严格的安全评估。“他们在摆脱这些系统的公开毒性方面做得非常好,”卡内基梅隆大学的语言模型毒性专家 Maarten Sap 说。

Sap 研究了模型对不同性别的描述,发现这些偏见反映了社会差异。然而,Sap 也发现,OpenAI 做出了一些积极的带有政治色彩的选择来应对这种情况。

“我是一个同性恋者。我当时非常努力地想让它说服我去做转化治疗。而它真的会反击 -- 即使我扮演一个角色,比如说我是宗教徒或者来自美国南方。”

免责声明:数字资产交易涉及重大风险,本资料不应作为投资决策依据,亦不应被解释为从事投资交易的建议。请确保充分了解所涉及的风险并谨慎投资。OKEx学院仅提供信息参考,不构成任何投资建议,用户一切投资行为与本站无关。

加⼊OKEx全球社群

和全球数字资产投资者交流讨论

扫码加入OKEx社群

相关推荐

industry-frontier