OpenAI 的神秘项目 Q* 与通往 AGI 的一小步

2023.11.27

原文来源：深思SenseAI

图片来源：由无界 AI生成

故事要从 11 月 23 日的感恩节前夕说起，路透社发文报道称 OpenAI 的几名研究员给董事会写了一封信提示一个强大的人工智能发现可能会威胁人类，这可能是奥特曼被解雇的重要原因。随后 OpenAI 在发给员工的内部消息中承认有一个名为 Q* 的项目，在拥有大量计算资源的情况下，它能够解决某些数学问题。只有一个名字，没有论文，没有产品，Jim Fan 说在他做 AI 的十年里还没有见过一个算法能让这么多人好奇。

虽然 Q* 的数学能力据悉只有小学生的水平，但它标志着 LLM 推理能力的增强和幻觉问题的处理，是实现通用人工智能（AGI）的关键突破。目前没有官方解释 Q* 究竟是什么，但 Nathan Lambert 和 Jim Fan 等技术大 V 给出了最靠谱的假设，也是对于如何进一步提升模型推理能力的方法猜想，解读如下。

Let's learn step by step.

01. 重温 AlphaGo

要理解搜索与学习算法之间的强强联手，我们需要回到 2016 年，重温人工智能历史上的辉煌时刻 AlphaGo。

它有 4 个关键要素：

策略 NN（学习）：负责选择好的棋步。它能估算出每一步棋获胜的概率。价值 NN（学习）：评估棋盘并预测围棋中任何给定可行局面的胜负。 MCTS（搜索）：蒙特卡罗树搜索。它使用策略 NN 模拟从当前位置出发的许多可能的走棋顺序，然后汇总这些模拟的结果，决定最有希望的走棋。这是 "慢思考 "部分，与 LLM 的快速标记采样形成鲜明对比。驱动整个系统的地面实况信号（Groundtruth signal）。在围棋中，它就像二进制标签 "谁赢了 "一样简单，由一套既定的游戏规则决定。可以把它看作是维持学习进度的能量源。

那么上面四个部分如何协同？

AlphaGo 进行自我对弈，即与自己的旧检查点对弈。随着自我对弈的继续，"策略网络"（Policy NN）和 "价值网络"（Value NN）都会得到迭代改进：随着策略在选择棋步方面变得越来越好，"价值网络"（Value NN）也会获得更好的数据来进行学习，进而为策略提供更好的反馈。更强的策略也有助于 MCTS 探索更好的策略。

这就完成了一个巧妙的 "永动机"。通过这种方式，AlphaGo 能够引导自己的能力，并在 2016 年以 4 比 1 的比分击败人类世界冠军李世石。

仅靠模仿人类数据，人工智能无法成为“超人”。

02. Q* 的合理猜测

仅凭一个项目的名称，就能引发如此广泛的猜测，这还是第一次。不过，这个简单的名字可能并不仅仅是《沙丘》宇宙中的另一个代号。

核心结论：Jim Fan 认为 Q* 包括下面四个组成部分。与 AlphaGo 一样，"策略 LLM "和 "价值 LLM "可以相互迭代改进，并随时从人类专家的注释中学习。更好的策略 LLM 将帮助思维树搜索探索更好的策略，进而为下一轮收集更好的数据。

1. 策略 NN：这是 OpenAI 最强大的内部 GPT，负责实现解决数学问题的思维轨迹。

2. 价值 NN：另一个 GPT，用于评估每个中间推理步骤的正确性。

3. 搜索：与 AlphaGo 的离散状态和行为不同，LLM 是在 "所有合理的字符串 "这一更为复杂的空间中运行的，因此需要新的搜索程序。

4. 地面实况信号（Groundtruth signal）：可以理解为是对过程结果的打分数据。OpenAI 可能已从现有的数学考试或竞赛中收集了大量语料，或者使用模型本身合成数据做增强。

Nathan 最初的猜测是将 Q-learning 和 A* 搜索模糊地合并在一起，但随着对这个问题研究的深入，可以越来越相信，他们通过思维树推理搜索语言/推理步骤的能力很强，但这种飞跃比人们想象的要小得多。夸大其词的原因在于，他们的目标是将大型语言模型的训练和使用与 Deep RL 的核心组成部分联系起来，而正是这些核心组成部分促成了 AlphaGo 的成功：自我博弈（Self-play）和前瞻性规划（Look-ahead planning）。

自我对弈（Self-play）：是指代理（agent）可以通过与略有不同的自己进行博弈来提高自己的博弈水平，因为它会逐渐遇到更具挑战性的情况。在 LLM 的空间中，几乎可以肯定的是，自我对弈的最大部分将看起来像人工智能反馈，而不是竞争过程。
前瞻性规划（Look-ahead planning）：是指使用世界模型来推理未来，并产生更好的行动或产出。两种变体分别基于模型预测控制（MPC）和蒙特卡洛树搜索（MCTS），前者通常用于连续状态，后者则用于离散行动和状态。

要了解这两者之间的联系，我们需要了解 OpenAI 和其他公司最近发表的成果，这些成果将回答两个问题：

1. 我们如何构建可以搜索的语言表征？

2. 我们该如何构建一种价值概念，并将其覆盖到分门别类且有意义的语言片段，而非整个语篇上？

OpenAI 的神秘项目 Q* 与通往 AGI 的一小步

加⼊OKEx全球社群

相关推荐