复制成功

分享至

主页 > 数字货币 >

万字长文!何谓Agent,为何Agent?

2023.12.05
浅看是LLM造就了AI应用
深入思考才发现是AI应用救赎了LLM
归根到底是LLM还不足够强大
将会成为未来主流,未来无标品只有定制化

原文来源:下维NextDimension

作者:萧夫

AI应用层出不穷爆发式涌现出来,在深思护城河深度之后,市场的玩家齐刷刷地转向到AI Agent

是模型能力的不断提升?还是资方的倒逼?本质上是每个人都想有解决特定任务的AI

在探寻了算法,工程,数据等核心要素价值后,AI应用设计方到底能抓住什么呢?

场景的不断探索,又带来了什么?不可能三角中,市场更加看好的又是什么呢?

生成式AI的评级---@ZhenFund

万字长文!何谓Agent,为何Agent?

Fig.1. 生成式AI产品的分级

根据AI App的智能化能力和解决问题的能力进行等级划分及整体描述,我们可以近似得到以上的能力划分表。随着智能化的程度递增,App能解决的问题范围也逐渐在扩大。

LLM的过渡状态:

操作工具建议者执行者控制器(决策者)高级智能体

角色的变化背后是智能属性的增强,当然也是AI能力类脑发展的一个趋势。如果这样一个发展趋势是成立的,那么已经跑通了PMF的微软Copilot已经算是L3的顶级应用了。他的Moat本质上在于场景和深耕多年的B端资源。

当场景的价值弱化,那么工程深度就需要增加“厚度”或技术增强来建立起整体的应用,以保证此类AI应用的Moat足够深。

在AutoGPT、BabyGPT和GPT-Engineer的demo爆火之后,以LLM作为核心控制器来构建L4的Agent成为一个很酷的概念。应用场景的想象空间被打开,我们发现LLM的潜力不仅限于生成写得很好的副本、故事、文章和程序,它还可以作为一种强大的工具解决通用问题。

Agent System Overview---@Lilian Weng

Weng, Lilian. (Jun 2023). "LLM-powered Autonomous Agents". Lil’Log. https://lilianweng.github.io/posts/2023-06-23-agent/.Autonomous Agent系统由LLM驱动,LLM作为代理的大脑,辅以几个关键的组件。

万字长文!何谓Agent,为何Agent?

Fig.2. 由LLM驱动的Autonomouse Agent 系统

Planning 拆解子目标和任务分解:Agent能够将大型任务分解为较小,易于管理的子目标,从而高效地处理复杂任务。 自查与自纠:Agent能够对过去的actions进行自我批评和自我反省,从错误中吸取教训,并在今后的工作中加以改进,从而提高最终结果的质量(本质上是产生RL的数据,RL并不需要HF) Memory 短期记忆:所有in-context learning都是利用模型的短期记忆来进行学习的。(在这背后的主要支撑是Prompt Engineering) 长期记忆:为Agent提供了在较长时间内保留和recall(无限)信息的能力,通常是利用外部的向量存储和快速检索(借助向量数据库的力量实现)[召回率的高低也直接决定了Agent复杂内容记忆及检索的效果] Tool Use Agent学习调用外部应用程序的API,以获取模型训练数据权重中缺失的“额外信息”(任务相关,预训练后通常难以更改),包含当前信息、代码执行能、专有信息源的访问权限等。(code interpreter的出现本质上也是OpenAI继plugin之后对于Agent的进一步探索)

a16z提出的LLM App的新型架构,与论文中的介绍也是异曲同工。究其本质,是生物性的发展过程和整体类比的结果,将LLM进行类脑比较,定位为整体中枢,进行分工合作。七月初流出的GPT4的设计也有类似的影子,MOE的存在。

万字长文!何谓Agent,为何Agent? 万字长文!何谓Agent,为何Agent?

第一部分:Planning

一项复杂任务通常会包含很多步骤,Agent需要了解这些步骤是什么并提前规划。

任务拆解:

Chain of thought (CoT; Wei et al. 2022) 已经成为一种标准的Prompting技术,用于提高模型在复杂任务中的性能。模型被要求“think step by step”利用更多的时间进行计算,将艰难的任务分解成更小,更简单的步骤。CoT将大型任务转化为多个可管理的任务,并对模型的思维过程进行了阐释。

Tree of Thoughts  (Yao et al. 2023) 进一步扩展CoT,在每一步都探索多种推理的可能性。它首先将问题分解为多个思考步骤,并在每个步骤中生成多个思考,从而创造一个树形结构。搜索过程可以是BFS(广度优先搜索)或DFS(深度优先搜索),每个状态由分类器(通过一个prompt)或少数服从多数的投票原则来决定。

免责声明:数字资产交易涉及重大风险,本资料不应作为投资决策依据,亦不应被解释为从事投资交易的建议。请确保充分了解所涉及的风险并谨慎投资。OKEx学院仅提供信息参考,不构成任何投资建议,用户一切投资行为与本站无关。

加⼊OKEx全球社群

和全球数字资产投资者交流讨论

扫码加入OKEx社群

相关推荐

industry-frontier