复制成功

分享至

主页 > 数字货币 >

GPT-4用“心智理论”玩德扑 如何完胜人类

2023.10.15

作者:新智元

来自东京大学的Suspicion Agent利用GPT-4,在不完全信息博弈中表现出了高阶的心智理论能力(ToM)。

在完全信息博弈中,每个博弈者都知道所有信息要素。

但不完全信息博弈不同,它模拟了现实世界中在不确定或不完全信息下进行决策的复杂性。

GPT-4作为目前最强大模型,具有非凡的知识检索和推理能力。

但GPT-4能否利用已学习到的知识进行不完全信息博弈?

为此,东京大学的研究人员引入了Suspicion Agent这一创新智能体,通过利用GPT-4的能力来执行不完全信息博弈。

GPT-4用“心智理论”玩德扑 如何完胜人类

论文地址:https://arxiv.org/abs/2309.17277

在研究中,基于GPT-4的Suspicion Agent能够通过适当的提示工程来实现不同的功能,并在一系列不完全信息牌局中表现出了卓越的适应性。

最重要的是,博弈过程中,GPT-4表现出了强大的高阶心智理论(ToM)能力。

GPT-4可以利用自己对人类认知的理解来预测对手的思维过程、易感性和行动。

这意味着GPT-4具备像人类一样理解他人并有意影响他人的行为。

同样的,基于GPT-4的智能体在不完全信息博弈中的表现也优于传统算法,这可能会激发LLM在不完全信息博弈中的更多应用。

01 训练方法

为了让LLM能够在没有专门训练的情况下玩各种不完全信息博弈游戏,研究人员将整个任务分解为下图所示的几个模块,如观察解释器、游戏模式分析和规划模块。

GPT-4用“心智理论”玩德扑 如何完胜人类

并且,为了缓解LLM在不完全信息游戏中可能会被误导这一问题,研究人员首先开发了结构化提示,帮助LLM理解游戏规则和当前状态。

对于每种类型的不完全信息博弈,都可以编写如下结构化规则描述:

一般规则:游戏简介、回合数和投注规则;

动作描述:(动作 1 的描述)、(动作 2 的描述)......;

单局输赢规则:单局输赢或平局的条件;

输赢回报规则:单局输赢的奖励或惩罚;

整局输赢规则:对局数和整体输赢条件。

在大多数不完全信息博弈环境中,博弈状态通常表示为低级数值,如单击向量,以方便机器学习。

但通过LLM,就可以将低层次的博弈状态转换为自然语言文本,从而帮助模式的理解:

GPT-4用“心智理论”玩德扑 如何完胜人类

输入说明:接收到的输入类型,如字典、列表或其他格式,并描述游戏状态中的元素数量以及每个元素的名称;

元素描述:(元素 11 的描述,(元素 2 的描述),....

转换提示:将低级游戏状态转换为文本的更多指南。

beyfMqHmFbURoO6EQO5AoTFYhrYUnnA6gLdnZWWU.png

在不完全信息博弈中,这种表述方式能更容易理解与模型之间的交互。

研究人员引入了一种虚无规划方法,该方法具有一个Reflexion模块,旨在自动检查对局历史,使LLMs能够从历史经验中学习和改进规划,以及一个单独的规划模块,专门用于做出相应的决策。

然而,虚无的规划方法往往难以应对不完全信息博弈中固有的不确定性,尤其是在面对善于利用他人策略的对手时。

受这种适应性的启发,研究人员设计出了一种新的规划方法,即利用LLM的ToM能力来了解对手的行为,从而相应地调整策略。

02 实验定量评估

GPT-4用“心智理论”玩德扑 如何完胜人类

如表1所示,Suspicion Agent优于所有基线,并且基于GPT-4的Suspicion Agent在比较中获得了最高的平均筹码数。

这些发现有力地展示了在不完全信息博弈领域采用大型语言模型的优势,同时也证明了研究提出框架的有效性。

下图表明了Suspicion Agent和基线模型的行动百分比。

GPT-4用“心智理论”玩德扑 如何完胜人类

可以观察到:

Suspicion Agent vs CFR:CFR算法是一种保守策略,它倾向于保守,经常在持有弱牌时弃牌。

而Suspicion Agent成功识别了这一模式,并策略性地选择更频繁地加注,向 CFR 施加弃牌压力。

这使得即使Suspicion Agent的牌很弱或与CFR的牌相当的情况下,它积累了更多筹码。

Suspicion Agent vs DMC:DMC基于搜索算法,采用了更多样化的策略,包括虚张声势。它经常在自己手牌最弱和最强时都会加注。

作为回应,Suspicion Agent根据自己的手牌和观察到的DMC的行为,减少了加注频率,并更多地选择跟注或弃牌。

Suspicion Agent vs DON:DON算法的立场更加激进,几乎总是用强牌或中级牌加注,从不弃牌。

Suspicion Agent发现了这一点,并反过来尽量减少自己的加注,更多地根据公共牌和DON的行动选择跟注或弃牌。

Suspicion Agent Vs NFSP:NFSP表现出跟注策略,选择总是跟注并从不弃牌。

Suspicion Agent的应对方式是减少加注频率,并根据公共牌和NFSP观察到的行动选择弃牌。

根据上述分析结果,可以看到Suspicion Agent具有很强的适应性,能够利用其他各种算法所采用策略的弱点。

这充分说明了大语言模型在不完美信息博弈中的推理和适应能力。

免责声明:数字资产交易涉及重大风险,本资料不应作为投资决策依据,亦不应被解释为从事投资交易的建议。请确保充分了解所涉及的风险并谨慎投资。OKEx学院仅提供信息参考,不构成任何投资建议,用户一切投资行为与本站无关。

加⼊OKEx全球社群

和全球数字资产投资者交流讨论

扫码加入OKEx社群

相关推荐

industry-frontier