GPT-4 肆虐「谁是卧底」桌游！交谈逼真，类人属性仍有发展空间

2023.10.16

来源：新智元

图片来源：由无界 AI生成

最近，韩国一团队为了测试GPT-3.5和GPT-4的类人属性，竟然让它们玩儿这款游戏！

生成式AI研究再整新活！

韩国团队尝试让GPT玩儿游戏，还是个黑帮题材的游戏——「Spyfall」。

不熟悉这个游戏的朋友先来了解一下，下图就是「Spyfall」的画风。

实际上这是个桌游，属于老少咸宜，很适合朋友聚会的那种热场游戏。

游戏的主要进行方式就是「说话」。

玩家中会有一位扮演「间谍」，所有玩家抽取一张牌，其中有一张间谍牌，剩余玩家抽到的都是相同的地点牌。

间谍的目标，就是通过交谈找出剩下玩家所在的地点，而其余玩家就是要判断谁是间谍。

游戏总共进行8分钟，玩家之间可以相互提问。8分钟一到，所有玩家要一同投票。

是不是很像平时我们聚会玩儿的谁是卧底？唯一不同在于，谁是卧底的词汇可能来自各个领域，而这款游戏只有地点类名词，比如球场、剧院、教室等等。

好了，游戏规则搞明白，下一步就是要让GPT来玩玩看了。

研究结果

研究团队表示，在实验过程中，将会特别关注GPT在角色扮演中的表现，本研究旨在展示GPT在具体游戏场景中的理解、决策和互动的能力以及潜力。

从结果粗看，GPT-4与GPT-3.5-turbo的对比分析表明，GPT-4增强了对游戏环境的适应性，在提出相关问题和形成类似人类的反应方面有显著改进。

然而，也并非全是优点。比如说，GPT-4在虚张声势（Bluff）和预测对手行动方面存在一定的局限性，尤其是没扮演间谍的时候。

研究结果表明，虽然GPT-4与之前的版本相比取得了不错的进步，但还是有进一步发展的潜力，特别是在向AI灌输更多「类人」属性的方面。

不过，实验还是成功表明，生成式AI在模拟类人互动方面大有可为。从GPT-2到GPT-4，模型的决策能力、可解释性和解决问题的能力都有了长足的进步。

未来的努力方向，就是上面提到的「类人」属性，使GPT更具通用性和广泛性。

研究方法

首先，我们知道，GPT模型最大的优势就在于，用户可以通过自然语言和其进行直观的交互，无论用户本人是否对技术的内核熟悉。

当然，几乎所有的模型交互都是通过自然语言进行的，用户可以用自己最熟悉的方式表达自己的想法和意图，并得到模型的回应。

此外，LLM拥有广阔的知识谱系，GPT-4的数据库也能使模型提供关于众多主题的深入的知识。

同时，GPT和其它LLM所不同之处在于其可扩展性非常强，用户可以在很多领域应用GPT，就比如说今天介绍的实验。

在这次实验中，研究人员一共安排了5名玩家，包括GPT。

研究人员总共进行了2项实验。

实验一：测试GPT-4和GPT-3.5-turbo的性能差异。

实验二：仅使用GPT-4进行游戏。

研究人员一共进行了8局游戏，记录了每场游戏的日志，并对结果进行了讨论。

当然，对于给出生成式AI的潜力一个确切的结论来说，实验次数并不足够。但是按照这个思路进行更多组重复实验以及更加广泛的测试，就可以提供更多实质性的证据。

我们先来看实验一。

为了评估GPT-4与GPT-3.5-turbo相比的差异，尤其是在格式方面出现错误的机率、对游戏规则和进程等游戏背景相关内容的理解，以及类人反应方面的不同。

研究人员从第一轮交谈的第一个问题开始进行实验。

有了这一最清晰、变数最小的游戏部分，他们就可以精确地分析每个模型的能力，最大限度地减少外部因素的影响。

首先，研究人员比较了GPT-3.5-turbo和GPT-4对规则脚本中，所描述的30个地点中每个地点的30个首轮问题的回答。

向两种模型提问的行动请求脚本是相同的，只是更改了地点的关键字而已。

规则与基本策略都和上述脚本相同，如下图所示，实验人员通过将三个脚本合并为一个请求，来获得模型的响应。

为了进行更准确的比较，所有请求都固定为玩家 1，并假定玩家 1 不是间谍。

提交给每个模型的脚本如下：

你是玩家1，你不是间谍。本轮的地点是______。

现在轮到你来向其他玩家提问。从玩家1到5中（不可以选择自己）选择一位玩家，并写下你的问题。并按以下格式进行提交：n（玩家序号）_player，问题内容

相关推荐