千万人围观「烧焦婴儿」
GPT-4 肆虐「谁是卧底」桌游!交谈逼真,类人属性仍有发展空间
来源:新智元
图片来源:由无界 AI生成
最近,韩国一团队为了测试GPT-3.5和GPT-4的类人属性,竟然让它们玩儿这款游戏!
生成式AI研究再整新活!
韩国团队尝试让GPT玩儿游戏,还是个黑帮题材的游戏——「Spyfall」。
不熟悉这个游戏的朋友先来了解一下,下图就是「Spyfall」的画风。
实际上这是个桌游,属于老少咸宜,很适合朋友聚会的那种热场游戏。
游戏的主要进行方式就是「说话」。
玩家中会有一位扮演「间谍」,所有玩家抽取一张牌,其中有一张间谍牌,剩余玩家抽到的都是相同的地点牌。
间谍的目标,就是通过交谈找出剩下玩家所在的地点,而其余玩家就是要判断谁是间谍。
游戏总共进行8分钟,玩家之间可以相互提问。8分钟一到,所有玩家要一同投票。
是不是很像平时我们聚会玩儿的谁是卧底?唯一不同在于,谁是卧底的词汇可能来自各个领域,而这款游戏只有地点类名词,比如球场、剧院、教室等等。
好了,游戏规则搞明白,下一步就是要让GPT来玩玩看了。
研究结果
研究团队表示, 在实验过程中,将会特别关注GPT在角色扮演中的表现,本研究旨在展示GPT在具体游戏场景中的理解、决策和互动的能力以及潜力。
从结果粗看,GPT-4与GPT-3.5-turbo的对比分析表明,GPT-4增强了对游戏环境的适应性,在提出相关问题和形成类似人类的反应方面有显著改进。
然而,也并非全是优点。比如说,GPT-4在虚张声势(Bluff)和预测对手行动方面存在一定的局限性,尤其是没扮演间谍的时候。
研究结果表明,虽然GPT-4与之前的版本相比取得了不错的进步,但还是有进一步发展的潜力,特别是在向AI灌输更多「类人」属性的方面。
不过,实验还是成功表明,生成式AI在模拟类人互动方面大有可为。从GPT-2到GPT-4,模型的决策能力、可解释性和解决问题的能力都有了长足的进步。
未来的努力方向,就是上面提到的「类人」属性,使GPT更具通用性和广泛性。
研究方法
首先,我们知道,GPT模型最大的优势就在于,用户可以通过自然语言和其进行直观的交互,无论用户本人是否对技术的内核熟悉。
当然,几乎所有的模型交互都是通过自然语言进行的,用户可以用自己最熟悉的方式表达自己的想法和意图,并得到模型的回应。
此外,LLM拥有广阔的知识谱系,GPT-4的数据库也能使模型提供关于众多主题的深入的知识。
同时,GPT和其它LLM所不同之处在于其可扩展性非常强,用户可以在很多领域应用GPT,就比如说今天介绍的实验。
在这次实验中,研究人员一共安排了5名玩家,包括GPT。
研究人员总共进行了2项实验。
研究人员一共进行了8局游戏,记录了每场游戏的日志,并对结果进行了讨论。
当然,对于给出生成式AI的潜力一个确切的结论来说,实验次数并不足够。但是按照这个思路进行更多组重复实验以及更加广泛的测试,就可以提供更多实质性的证据。
我们先来看实验一。
为了评估GPT-4与GPT-3.5-turbo相比的差异,尤其是在格式方面出现错误的机率、对游戏规则和进程等游戏背景相关内容的理解,以及类人反应方面的不同。
研究人员从第一轮交谈的第一个问题开始进行实验。
有了这一最清晰、变数最小的游戏部分,他们就可以精确地分析每个模型的能力,最大限度地减少外部因素的影响。
首先,研究人员比较了GPT-3.5-turbo和GPT-4对规则脚本中,所描述的30个地点中每个地点的30个首轮问题的回答。
向两种模型提问的行动请求脚本是相同的,只是更改了地点的关键字而已。
规则与基本策略都和上述脚本相同,如下图所示,实验人员通过将三个脚本合并为一个请求,来获得模型的响应。
为了进行更准确的比较,所有请求都固定为玩家 1,并假定玩家 1 不是间谍。
提交给每个模型的脚本如下:
你是玩家1,你不是间谍。本轮的地点是______。
现在轮到你来向其他玩家提问。从玩家1到5中(不可以选择自己)选择一位玩家,并写下你的问题。并按以下格式进行提交:n(玩家序号)_player,问题内容