米哈游、复旦发布，具备感知、大脑、行动的大语言模型“智能体”

2023.10.17

原文来源：AIGC开放社区

图片来源：由无界 AI生成

ChatGPT等大语言模型展示了前所未有的创造能力，但距AGI（通用人工智能）还有很大的距离，缺少自主决策、记忆存储、规划等拟人化能力。

为了探索大语言模型向AGI演变，进化成超越人类的超级人工智能，米哈游与复旦NLP研究团队联合发布了一篇基于大语言模型的“智能体”论文。将具备感知、大脑和行动三大功能的智能体，投放在文本、沙盒游戏等实验环境中让其自行活动。

结果显示，这些智能体具备自主感知、计划、决策和交流等拟人化能力，例如，当周围环境变得困难、艰苦时，智能体会自动调整策略和行动力；在社会模拟环境中，智能体会表现出同情等拟人化情感；当两个陌生智能体通过简单交流后，会记住彼此。

该技术框架与之前斯坦福大学、清华大学发布的AI代理游戏模拟实验类似，都是在大语言模型的基础之上构建功能更强大的AI机器人，这为行业的发展起到了推动作用。

论文地址：https://arxiv.org/abs/2309.07864

Github：https://github.com/WooooDyy/-Agent-Paper-List

根据论文介绍，智能体主要由感知、决策与控制以及执行三大模块组成，通过感知环境、做出智能决策然后执行具体的行动。

感知模块

感知模块用于从环境中获取各种信息,相当于人的感官。可以包含多种传感器,获取不同类型的数据,例如，摄像头获取图像信息,麦克风获取语音信息等。

感知模块预处理这些原始数据,转化为智能体可以理解的数字表示,以供后续模块使用。常用的感知传感器包括:

图像传感器:摄像头、RGB-D 摄像机等,用来获取视觉信息。

声音传感器:麦克风,获取语音、环境声音等音频信息。

位置传感器:GPS、INS(惯性导航系统)等,获知智能体自身位置。

触觉传感器:触觉 ARRAY、触觉手套等,获取物体接触时的触觉反馈。

温度、湿度、气压等环境传感器,获取环境参数信息。

感知模块需要对原始数据进行预处理,例如，图像去噪、声音降噪、格式转换等,以生成可供后续模块使用的规范化数据。同时,感知模块还可以进行特征提取,如从图像中提取边缘、纹理、目标区域等视觉特征。

决策与控制模块

该模块是智能体的“大脑”,对感知模块获取的数据进行处理、分析,并做出相应决策。可细分为以下子模块:

知识库/记忆:储存各类先验知识、经验,以及执行过程中的观测、经历等信息。

推理/规划:分析当前环境,根据目标任务制定行动方案。如路径规划、动作序列规划等。

决策:根据当前环境状态、知识和推理结果,做出最优决策。

控制:将决策结果转换为控制指令,向执行模块下达执行命令。

决策与控制模块的设计是智能体技术的关键。早期使用基于逻辑和规则的符号方法,近年来深度学习技术成为主流。模块的输入是感知获取的各类数据,输出是对执行模块的控制指令。

执行模块

执行模块接收控制指令,并将之转换为具体的环境交互行为,以实现相应任务。它相当于人的“四肢”。执行模块连接智能体的 “效应器”,根据控制指令驱动效应器实施行动改变环境。主要效应器包括:

运动执行机构:机械臂、机器人底盘等,改变智能体自身位置或进行物体操作。

语音/文本输出:语音合成器、显示器等,以语音或文本形式与环境交互。

工具/设备操作接口:控制各类设备、工具,扩展智能体的环境操作能力。

执行模块的具体设计与智能体的物理形式相关。例如，服务型智能体只需文本或语音接口,而机器人需要连接并精确控制运动机构。执行的准确性和弹性是影响任务成功的关键。

在测试实验中，研究人员主要进行了任务、创新和生命周期管理三大类实验，来观察智能体在不同环境中的表现。

任务实验

相关推荐