Transformer六周年:当年连
AI应用路线图:可控性是最强路标
来源:半轻人
作者:王咏刚
生成式AI的应用场景在哪里
Stable Diffusion、ChatGPT等生成式AI技术(Generative AI)在2023年上半年吸引了IT创投圈的最多注意力。当我们稍稍从波澜壮阔的新技术浪潮中回过神来,开始认真思考到底什么样的应用场景才是生成式AI的最佳落地方向时,很多人还是会发现,科技与市场之间的关系错综复杂,很难梳理出生成式AI落地的最佳路径:
这里面最大的思维症结是:
显然,仅停留在单一视角或单一时间节点来分析生成式AI的应用前景是不可取的。有没有串联起生成式AI的发展脉络,简明易用的思考模型呢?
围绕可控性建立思考模型
我们认为,生成式AI是可以与桌面计算、移动计算相提并论甚至更具颠覆效应的信息产业革命。颠覆式变革从来都不是一蹴而就,而要随着生成式AI的不断发展、不断进步逐渐实现。如果想看清、看透生成式AI即将带来哪些新产品、新平台、新市场、新机会,我们觉得,有一条简明易懂,也易于指导产品选型、项目选型的思维路径:
生成式AI的可控性越强,对市场和产业的颠覆性就越大!
这条路径可以简单用一张图来表示:
随着生成式AI对生成内容的可控性不断提高,生成式AI适用的应用场景也会不断扩展和深化。量变引起质变。一旦突破领域阈值,生成式AI就可以彻底改造现有的产品生态,为产品赋予真正的智能元素。
演进过程中,生成式AI的可控性大致会经历六个阶段。以最基本的文本生成为例:
阶段1:不可控
20多年前,基于N-grams算法的统计语言模型也可以生成连续的文本内容。只不过,生成的结果基本不可控。如此早期形态的“生成式AI”几乎没有转化到产品的可能性,更谈不上颠覆已有市场了。
阶段2:概略方向可控
从基于LSTM或RNN的文本生成,到早期GPT(如GPT-2)的文本生成,生成式AI逐渐拥有了描摹一段类似人类语言文字的能力。这一阶段的描摹能力,基本可以达到文句通顺,内容大致符合人类给出的提示,但因为细节、结构或逻辑不可控,还是很难转化成真正有用的产品。
阶段3:结构或局部逻辑可控
从GPT-3到ChatGPT(GPT-3.5),生成式AI第一次拥有了对生成内容的结构和局部逻辑的控制力。文字创作和多轮会话是这个时期的两种典型应用生态。前者可以支持自动文章摘要,法律文书生成,营销文案生成等实用场景,后者则可以满足会话式搜索,语言学习,智能客服,虚拟人,智能游戏角色的部分需要。
阶段4:初步的思维链可控
从GPT-3.5到GPT-4,生成式AI的逻辑推理能力显著提高。生成式AI第一次拥有了强大的分析能力(如从新闻报道中提取数据,总结趋势),控制能力(如将人类语言转化成复杂系统控制指令)和初步的逻辑推理能力(如解答简单的数学、逻辑题)。可生成的文本内容也扩展到数据、表格、代码、指令序列、工作流或工具链等结构化、半结构化文本。这直接引发了今天一大批以Copilot(直译为“副驾驶”)为特征的新工具、新系统。
阶段5:复杂逻辑推理可控
当然,今天的GPT-4生成文本时,可以控制的逻辑思维链还处在初级阶段。如果一切顺利,人类有望在不太远的将来研发出可精确控制复杂逻辑推理的下一代生成式AI。这样的AI具备记忆、学习、规划、决策等高级逻辑推理能力。这些能力足以在效率工具、内容平台、商业流程自动化、机器人、操作系统、智能设备等场景里,彻底颠覆过去数十年的人机交互形态,重新定义人类与计算机的关系。
阶段6:规则或原理可控