重磅突发！OpenAI正式推出多模态GPT-4

2023.03.15

作者 | OpenAI&TheVerge&Techcrunch

翻译 &分析| 阿法兔

*本文6000字左右

GPT-4可以接受图像和文本输入，而GPT-3.5只接受文本。

GPT-4在各种专业和学术基准上的表现达到 "人类水平"。例如，它通过了模拟的律师考试，分数约为应试者的前10%。

OpenAI花了6个月的时间，利用从对抗性测试项目以及ChatGPT中获得的经验，反复调整GPT-4，结果在事实性、可引导性和可控制方面取得了 "史上最佳结果"。

在简单的聊天中，GPT-3.5和GPT-4之间的区别可能微不足道，但是当任务的复杂性达到足够的阈值时，区别就出来了，GPT-4比GPT-3.5更可靠，更有创造力，能够处理更细微的指令。

GPT-4能对相对复杂的图像进行说明和解释，比如说，从插入iPhone的图片中识别出一个Lightning Cable适配器（下文有图片）。

图像理解能力还没有向所有OpenAI的客户开发，OpenAI正在与合作伙伴Be My Eyes进行测试。

OpenAI承认，GPT-4并不完美，仍然会对事实验证的问题产生错乱感，也会犯一些推理错误，偶尔过度自信。

开源OpenAI Evals,用于创建和运行评估GPT-4等模型的基准，同时逐个样本检查其性能。

官宣文档

OpenAI已经正式推出GPT-4，这也是OpenAI在扩大深度学习方面的最新里程碑。GPT-4是大型的多模态模型（能够接受图像和文本类型的输入，给出文本输出），尽管GPT-4在许多现实世界的场景中能力不如人类，但它可以在各种专业和学术基准上，表现出近似人类水平的性能。

例如：GPT-4通过了模拟的律师考试，分数约为全部应试者的前10%。而相比之下，GPT-3.5的分数大约是后10%。我们团队花了6个月的时间，利用我对抗性测试项目以及基于ChatGPT的相关经验，反复对GPT-4进行调整。结果是，GPT-4在事实性（factuality）、可引导性（steerability）和拒绝超范围解答（非合规）问题（ refusing to go outside of guardrails.）方面取得了有史以来最好的结果（尽管它还不够完美）

在过去两年里，我们重构了整个深度学习堆栈，并与Azure合作，为工作负荷从头开始，共同设计了一台超级计算机。一年前，OpenAI训练了GPT-3.5，作为整个系统的首次 "试运行"，具体来说，我们发现并修复了一些错误，并改进了之前的理论基础。因此，我们的GPT-4训练、运行（自信地说：至少对我们来说是这样！）空前稳定，成为我们首个训练性能可以进行提前准确预测的大模型。随着我们继续专注于可靠扩展，中级目标是磨方法，以帮助OpenAI能够持续提前预测未来，并且为未来做好准备，我们认为这一点，对安全至关重要。

我们正在通过ChatGPT和API（您可以加入WaitList）发布GPT-4的文本输入功能，为了能够更大范围地提供图像输入功能，我们正在与合作伙伴紧密合作，以形成一个不错的开端。我们计划开源OpenAI Evals，也是我们自动评估AI模型性能的框架，任何人都可以提出我们模型中的不足之处，以帮助它的进一步的改进。

能力

在简单闲聊时，也许不太好发现GPT-3.5和GPT-4之间的区别。但是，当任务的复杂性达到足够的阈值时，它们的区别就出来了。具体来说，GPT-4比GPT-3.5更可靠，更有创造力，能够处理更细微的指令。

为了理解这两个模型之间的差异，我们在各种不同的基准上进行了测试，包括模拟最开始那些为人类设计的考试。通过使用最新的公开测试（就奥数和AP等等考试）还包括购买2022-2023年版的练习考试来进行，我们没有为这类考试给模型做专门的培训，当然，考试中存在很少的问题是模型在训练过程中存在的，但我们认为下列结果是有代表性的。

我们还在为机器学习模型设计的传统基准上，对GPT-4进行了评估。GPT-4大大超过现有的大语言模型，与多数最先进的（SOTA）模型并驾齐驱，这些模型包括针对基准的制作或额外的训练协议。

由于现有的大多数ML基准是用英语编写的，为了初步了解其他语言的能力，我们使用Azure Translate将MMLU基准：一套涵盖57个主题的14000个选择题，翻译成了各种语言。在测试的26种语言中的24种语言中，GPT-4的表现优于GPT-3.5和其他大模型（Chinchilla，PaLM）的英语表现，这种优秀表现还包括类似拉脱维亚语、威尔士语和斯瓦希里语等等。

重磅突发！OpenAI正式推出多模态GPT-4

加⼊OKEx全球社群

相关推荐