最新GPT-4在律考中击败90%人类，它到底强在哪？

2023.03.15

来源：钛媒体

作者：林志佳

图片来源：由无界版图AI工具生成

“码农真的快失业了，编程不存在了。”在今早 GPT-4发布之后，朋友圈刷屏，很多人表达该技术对目前人类生产生活的影响。

GPT-4有多强，GRE考试接近满分，律考比肩顶级律师，随手画个草图就能做出同款网页。当国内还在热议人工智能对话大模型产品ChatGPT时，背后核心预训练模型技术GPT却突然重磅升级。

钛媒体App获悉，北京时间3月15日凌晨，创造出ChatGPT的美国 AI 公司OpenAI 正式对外发布GPT-4。

据悉，GPT-4是新一代多模态大模型，支持图像和文本输入以及正确的文本输出，拥有强大的识图能力，文字输入限制提升至2.5万字，支持多个语言，回答准确性显著提高，从而让新的ChatGPT更聪明。此外，GPT-4还开放了角色扮演和性格定制能力。另外，GPT-4版本还会随着时间进行自动更新。

钛媒体App了解到，OpenAI发布的GPT-4在各种专业学术基准上有着人类水平表现。例如在模拟律师考试中，GPT-4得分约为前10%——击败了90%人类，而ChatGPT背后的GPT-3.5得分约为倒数10%。

“GPT-4 是世界第一款高体验，强能力的先进AI系统，我们希望很快把它推向所有人。”OpenAI工程师在开发者Demo视频中表示，GPT-4 是OpenAI努力扩展深度学习的最新里程碑。OpenAI称，GPT-4虽然在许多现实世界场景中的能力不如人类，但在各种专业和学术基准上表现出人类水平的表现。

微软在GPT-4发布后第一时间表示，新的必应（Bing）已经基于GPT-4 技术运行，这是为搜索产品量身定制的模型产品。“如果你在过去五周内的任何时候使用过新的Bing预览版，你就已经提前了解过这个强大模型的早期版本。随着OpenAl对GPT-4及以后的版本进行更新，Bing 从这些改进中受益匪浅。”

钛媒体App获悉，即日起，ChatGPT Plus付费订阅用户现可直接使用GPT-4版本的ChatGPT，未来则将对免费用户开放一定数量的GPT-4体验。同时，GPT-4 API 需要申请候选名单，今天将开始邀请一些开发人员，并不断扩大邀请规模，每1000字符的价格为0.03美元；图像输入则处在研究预览阶段，仅对少部分用户开放。

不过，GPT-4仍存在改进空间。虽然这次模型大升级，但之前ChatGPT会出现幻觉、“胡说八道”的毛病还是没能在GPT-4中完全改掉。

谁能革得了 ChatGPT 的命？现在看来还是 OpenAI 自己。

花了6个月打造，GPT-4到底强在哪里？

聊GPT-4之前，先要了解GPT到底是什么。

随着1956年“达特茅斯会议”上创造“人工智能”这个术语，全球迎来了 AI 技术发展阶段。在2016年谷歌DeepMind的“阿尔法狗”（AlphaGo）击败了韩国围棋冠军李世乭，以及机器学习的诞生，AI 算法、算力、数据“三驾马车”获得了突破性技术进展。

但问题在于，机器学习利用循环神经网络(RNN) ——序列数据或时序数据的人工神经网络来处理文字，使得文字按顺序一个个处理，没办法同时进行大量学习。

因此2017年，谷歌团队发布论文“Attention Is All You Need”，提出了一个新的学习框架Transformer，以解决此问题。它抛弃了传统的CNN（卷积神经网络）和RNN，使整个网络结构完全由Attention机制组成，从而让机器同时学习大量的文字，训练速度效率大大提升。

简单来说，只需要LLM（大型语言模型）、大型参数量和算力算法训练，以Attention机制就可实现快速的机器学习能力。因此，无论是ChatGPT的T，还是谷歌预训练语言模型BERT的T，均是Transformer的意思。

基于Transformer框架，OpenAI进行了新的研究学习GPT，全称为Generative Pre-trained Transformer（生成式预训练框架），其利用无监督学习技术，通过大量数据来形成快速反馈。2018年6月，OpenAI发布第一代GPT，2019年11月发布GPT-2，2021年发布了1750亿参数量的GPT-3，不仅可以更好地答题、翻译、写文章，还带有一些数学计算的能力等，而ChatGPT是微调之后的GPT-3.5消费级应用。

今天发布的GPT-4，是一个大型多模态模型，能接受图像和文本输入，再输出正确的文本回复。OpenAI表示，团队花了6个月的时间使用对抗性测试程序和ChatGPT的经验教训，对GPT-4进行迭代调整，从而在真实性、可控性等方面取得了有史以来最好的结果。

“GPT-3.5 和 GPT-4 之间的区别可能很微妙。当任务的复杂性达到足够的阈值时，差异就会出现——GPT-4 比 GPT-3.5 更可靠、更有创意，并且能够处理更细微的指令。”OpenAI 表示，在过去的两年里，团队重建了整个深度学习堆栈，并与微软Azure一起，为GPT工作负载从头开始共同设计了一台超级计算机。经过训练和修复更新之后，GPT-4前所未有地稳定，成为 OpenAI 能够提前准确预测其训练性能的第一个大型模型。

那么，GPT-4技术到底怎么样？为了了解这模型差异，根据官方实验表明，GPT-4在各种专业测试和学术基准上的表现与人类水平相当。

最新GPT-4在律考中击败90%人类，它到底强在哪？

加⼊OKEx全球社群

相关推荐