国产大模型，摸着OpenAI过河

2023.03.17

文 | 光锥智能，作者 | 周文斌，编辑 | 王一粟
来源：钛媒体

GPT-4惊艳亮相后，压力来到百度这边。

上台后的李彦宏和百度CTO王海峰都略显紧张，这在多年百度相关活动中还是非常少见。李彦宏坦言，“文心一言对标ChatGPT、甚至是对标GPT-4，门槛是很高的。我自己测试感觉还是有很多不完美的地方。”

文心一言是一个大语言模型、生成式AI产品，发布会上演示了五个使用场景中的综合能力。其中，文学创作、商业文案创作、数理推算是大语言模型常见的能力，在此基础上，中文理解及多模态生成能力更能体现技术水平。

到今日晚间，「光锥智能」拿到文心一言的内测邀请码，在提出多个问题测试之后我们发现，文心一言与New Bing虽然有差距，但整体要比预期更好。比如在为商业访谈类栏目起名、对洛希极限的解释上都十分完整。但同时也存在一些不足，比如在计算“同时抽水和放水”的数学问题时，文心一言就出现了审题错误。

金玉在前，百度在文心一言发布会召开后，无论是产品口碑，还是股价表现，短期内一定会有压力。毕竟，世界上还只有一个OpenAI。

面对如此大的压力，李彦宏回应了为什么依然要在3月16日公开发布的原因：第一是市场需求，无论是百度的产品，还是客户，都有需求。第二是收集反馈，“一旦有了真实的人类反馈，文心一言的进步速度会非常快，我们都希望它快点成长”。

事实上，在ChatGPT惊艳亮相之前，GPT的1～3版本，都是在长期低调开源测试后，才达到了后面的结果。

短期表现和长期价值还是有所不同，抛开情绪，我们更关心，文心一言和GPT-4在技术上有哪些相同和不同？模型真的是越大越好吗？利用大模型的产业化之路，应该怎么走？

01 “文心一言”对线“GPT-4”

文心一言在发布会上相对出彩的展示，莫过于多模态生成。

在发布会上，李彦宏先是让文心一言为2023智能交通大会生成了一张海报，然后又让其撰写了一段关于智能交通的文字，并让其用四川话读出来，最后还让文心一言用这些素材生成了一段视频。

昨天，在GPT-4的发布会上，Open AI总裁和联合创始人Greg Brockman展示了GPT-4基于一张草图生成网站的过程，让许多人知道了大模型单模态与多模态的区别。

GPT-4是一个典型的多模态预训练模型，它能够支持图像和文本的输入，然后以文本的方式输出。而文心一言展示的则是以文本的方式输入，以文本、语音、图像和视频的方式输出。

输入和输出其实具有本质上的区别。

有AI开发从业者向光锥智能表示，多模态输出其实并不难，难的是输入。比如输出语音，不过是先输出文字然后再加一个TTS技术，已经很成熟了。

而多模态输入，则需要大模型真正“长出眼睛”读懂图片意思，需要在预训练阶段就将图片和图片标注信息放入训练数据中。

比如这次GPT-4令人惊艳的强大，就表现在图片理解上。

给到一个物理题的照片，GPT-4能够读懂题目然后解答。

GPT-4还能识别图片中的幽默部分，比如给GPT-4一个长相奇怪的充电器的图片，问为什么这很可笑？GPT-4能回答说，因为VGA线充iPhone。

但无论怎么说，从GPT-4到文心一言都在说明李彦宏的那句话，“多模态是生成式AI一个明确的发展趋势。”

据王海峰介绍，文心一言主要脱胎于两大模型，百度ERNIE系列知识增强千亿大模型，以及百度大规模开放域对话模型PLATO。

此基础上，主要采用了六项核心技术，包括监督精调、人类反馈强化学习（RLHF）、提示构建、知识增强、检索增强和对话增强技术。

其中，人类反馈强化学习是目前大模型训练中普遍应用到的技术，ChatGPT能够在GPT-3的基础上产生质变，成为跨时代的产品，很大程度上依赖于此。

这些技术中具有百度特色的主要是知识增强、检索增强和对话增强技术。

其中，知识增强主要包含知识内化和知识外用两部分，知识内化又包括语义学习和数据构造，知识外用则包含知识推理和提示构架。

这些技术又都基于百度的知识图谱。所谓知识图谱是一个宏大的数据模型，是指一个由世间万物构成的“实体”以及他们之间的“关系”构建起来的庞大“知识”网络。

相关推荐