OpenAI震撼发布o1大模型强化学习突破LLM推理极限

2024.09.13

来源：机器之心

大语言模型还能向上突破，OpenAI 再次证明了自己的实力。

北京时间 9 月 13 日午夜，OpenAI 正式公开一系列全新 AI 大模型，旨在专门解决难题。这是一个重大突破，新模型可以实现复杂推理，一个通用模型解决比此前的科学、代码和数学模型能做到的更难的问题。

OpenAI 称，今天在 ChatGPT 和大模型 API 中新发布的是该系列中的第一款模型，而且还只是预览版 ——o1-preview。除了 o1，OpenAI 还展示了目前正在开发的下次更新的评估。

o1 模型一举创造了很多历史记录。

首先，o1 就是此前 OpenAI 从山姆・奥特曼到科学家们一直在「高调宣传」的草莓大模型。它拥有真正的通用推理能力。在一系列高难基准测试中展现出了超强实力，相比 GPT-4o 有巨大提升，让大模型的上限从「没法看」直接上升到优秀水平，不专门训练直接数学奥赛金牌，甚至能在博士级别的科学问答环节上超越人类专家。

OpenAI震撼发布o1大模型强化学习突破LLM推理极限

奥特曼表示，虽然 o1 的表现仍然存在缺陷，不过你在第一次使用它的时候仍然会感到震撼。

OpenAI震撼发布o1大模型强化学习突破LLM推理极限

其次，o1 给大模型规模扩展 vs 性能的曲线带来了一次上翘。它在大模型领域重现了当年AlphaGo 强化学习的成功 —— 给越多算力，就输出越多智能，一直到超越人类水平。

也就是从方法上，o1 大模型首次证明了语言模型可以进行真正的强化学习。

OpenAI震撼发布o1大模型强化学习突破LLM推理极限

开发出首个 AI 软件工程师 Devin 的 Cognition AI 表示，过去几周一直与 OpenAI 密切合作，使用 Devin 评估 o1 的推理能力。结果发现，与 GPT-4o 相比，o1 系列模型对于处理代码的智能体系统来说是一个重大进步。

OpenAI震撼发布o1大模型强化学习突破LLM推理极限

最后在实践中，o1 上线之后，现在 ChatGPT 可以在回答问题前先仔细思考，而不是立即脱口而出答案。就像人类大脑的系统 1 和系统 2，ChatGPT 已经从仅使用系统 1（快速、自动、直观、易出错）进化到了可使用系统 2 思维（缓慢、深思熟虑、有意识、可靠）。这让它能够解决以前无法解决的问题。

从今天 ChatGPT 的用户体验来看，这是向前迈进一小步。在简单的 Prompt 下，用户可能不会注意到太大的差异，但如果问一些棘手的数学或者代码问题，区别就开始明显了。更重要的是，未来发展的道路已经开始显现。

总而言之，今晚 OpenAI 丢出的这个重磅炸弹，已经让整个 AI 社区震撼，纷纷表示 tql、睡不着觉，深夜已经开始抓紧学习。接下来，就让我们看下 OpenAI o1 大模型的技术细节。

OpenAI o1 工作原理

在技术博客《Learning to Reason with LLMs》中，OpenAI 对 o1 系列语言模型做了详细的技术介绍。

OpenAI o1 是经过强化学习训练来执行复杂推理任务的新型语言模型。特点就是，o1 在回答之前会思考 —— 它可以在响应用户之前产生一个很长的内部思维链。

也就是该模型在作出反应之前，需要像人类一样，花更多时间思考问题。通过训练，它们学会完善自己的思维过程，尝试不同的策略，并认识到自己的错误。

在 OpenAI 的测试中，该系列后续更新的模型在物理、化学和生物学这些具有挑战性的基准任务上的表现与博士生相似。OpenAI 还发现它在数学和编码方面表现出色。

在国际数学奥林匹克（IMO）资格考试中，GPT-4o 仅正确解答了 13% 的问题，而 o1 模型正确解答了 83% 的问题。

模型的编码能力也在比赛中得到了评估，在 Codeforces 比赛中排名 89%。

OpenAI 表示，作为早期模型，它还不具备 ChatGPT 的许多实用功能，例如浏览网页获取信息以及上传文件和图片。

但对于复杂的推理任务来说，这是一个重大进步，代表了人工智能能力的新水平。鉴于此，OpenAI 将计数器重置为 1，并将该系列模型命名为 OpenAI o1。

重点在于，OpenAI 的大规模强化学习算法，教会模型如何在数据高度有效的训练过程中利用其思想链进行高效思考。换言之，类似于强化学习的 Scaling Law。

OpenAI 发现，随着更多的强化学习（训练时计算）和更多的思考时间（测试时计算），o1 的性能持续提高。而且扩展这种方法的限制与大模型预训练的限制有很大不同，OpenAI 也还在继续研究。

OpenAI震撼发布o1大模型强化学习突破LLM推理极限

评估

为了突出相对于 GPT-4o 的推理性能改进，OpenAI 在一系列不同的人类考试和机器学习基准测试中测试了 o1 模型。实验结果表明，在绝大多数推理任务中，o1 的表现明显优于 GPT-4o。

OpenAI震撼发布o1大模型强化学习突破LLM推理极限

o1 在具有挑战性的推理基准上比 GPT-4o 有了很大的改进。

OpenAI震撼发布o1大模型强化学习突破LLM推理极限

OpenAI o1 工作原理

评估

加⼊OKEx全球社群

相关推荐

OpenAI震撼发布o1大模型 强化学习突破LLM推理极限

OpenAI o1 工作原理

评估

加⼊OKEx全球社群

相关推荐

OpenAI震撼发布o1大模型强化学习突破LLM推理极限