手机厂商扎堆布局大模型
插件:门槛最低的 AI 另类原生应用
来源: AI新智能
图片来源:由无界 AI生成
大模型+插件模式,极有可能是AI大模型商业化的答案之一。
10月17 日,在“2023百度世界大会”上,李彦宏正式发布了最新的文心大模型4.0版本。
一时间,各种测评纷涌而至,各大科技媒体从理解、生成、逻辑和记忆能力等方面,对模型进行了全方位测评。
然而,除了被人反复谈论的文心4.0之外,在发布会上,另一个稍显低调的功能,却也冷不丁地显示了未来大模型的发展趋势。
这就是百度文心4.0的插件功能。
目前,文心4.0光是插件就有8个,包括一镜流影(文字转视频)、说图解画(看图说话)、E言易图(可视化数据分析)等。
这些插件还可以自由组合,来完成更复杂的任务。
不仅如此,百度文心大模型插件开发平台——灵境矩阵平台,上线1个月已有2.7万家开发者申请入驻,个人开发者占比超30%。
那么,百度为何如此重视插件?而插件生态的繁荣,对大模型又意味着什么?
插件,让大模型如虎添翼
从某种程度上说,插件对于大模型,相当于是另一大隐藏的“杀手锏。”
在不对模型算法、参数进行改进的情况下,仅仅凭借一个简单的外接插件,模型能力就有可能得到显著扩展和提升。
此前,GPT-4就已经通过插件功能实现了如虎添翼的效果。外界甚至将那次提升称之为GPT-4.5的到来。
今年7月9号,OpenAI宣布将官方插件Code Interpreter(代码解释器)通过设置中的Beta面板向所有ChatGPT Plus 用户提供。
那Code Interpreter具体能做什么?
简单来说,它相当于是GPT-4能力边界的一次大扩展,能让GPT-4做到很多之前做不到的事。
例如,在该插件推出后,推特用户@歸藏展示了用代码解析器分析newsletter订阅用户数据的过程。
代码解析器从分析数据到制图,都不需要使用任何复杂软件,只需要说出:“我想分析最近一个月订阅用户增长的趋势”这类直白的prompt,就可以完成。
除外,人们还能直接用“人话”让GPT通过数据制作一些可视化的GIF图片。
例如人们如果想制作一份美国灯塔的地理图标,只需要上传地理位置数据,GPT就能通过插件功能,自动制作如下的GIF动图。
而即使是想通过图片生成视频,CodeInterpreter也能手到拈来。在启用插件后,只需告诉GPT:“我想用这张图片,制作一段从右往左的平移视频。”
GPT就会根据你的要求,自动将Midjourney生成的图片做成视频。
网友ChaseLean用ChatGPT生成的汉堡视频
甚至,不怎么有代码和编程经验的人,也能运用CodeInterpreter插件,在5分钟内制作一个简单的游戏。
只需几段提示词,一个简单的小游戏就完成了
总地来说,CodeInterpreter包括的功能,涵盖了打破模态壁垒,转换素材形态,进行数据分析等多种不同的任务。
而该插件之所以有如此“逆天”的功能,则是因为其打破了自然语言和代码语言之间的壁垒。
有了它,用户就能刨去复杂的代码过程,通过自然语言交互(所谓“人话”),直接完成各种跨领域、跨模态的任务。
也正因如此,有人惊呼这种让模型能力倍增的插件,就是GPT-4.5的到来。
由此,我们便不难理解,为何百度会如此重视插件的发展。
对于大模型研发团队来说,让一个模型囊括用户的所有需求是不可能,也不现实的。因为在AI演化的过程中,用户必定会产生更多新的,难以预料的想法、需求。
而这时,一个个多样化的、灵巧的插件,就成了延申大模型能力的“义体”。
插件的百花齐放
除了OpenAI自带的原生插件之外,当下的AI赛道上,还涌现出了其他百花齐放的插件。
此处,我们将做一些简单的列举,看看这些功能各异的插件,将对大模型带来哪些多样化的扩展。
ChatPDF
ChatPDF是一款功能强大的在线PDF工具,用户只需上传PDF文件到ChatPDF,ChatPDF便能够快速使用AI解析PDF文件内容,并生成准确的答案来回答用户的问题。