GPT-4等大模型迎来进化转折点：不只是使用，还会自己制作工具了

2023.06.02

来源：机器之心

编辑：杜伟、梓文

在人类的进化史中，制作和使用工具是关键的转折点。如今，在 Google Deepmind 等最新的研究中，大语言模型也具备了相似的能力，进化成了工具制作者。

图片来源：由无界 AI工具生成

我们知道，大语言模型（LLM）在广泛的 NLP 任务中已经表现出卓越的能力，甚至展现出能够实现通用人工智能某些方面的良好迹象。此外，与人类的智能进化类似，LLM 在最近的研究中被揭示出使用外部工具从而提升解决问题能力及效率的潜力。

需要注意的是，这些工具使用方法的适用性很大程度程度上取决于是否有合适的工具。从人类进化的里程碑可以发现，人类进化的关键转折点是人类有能力制造工具来解决出现的困难。

受到制造工具对人类重要性的启发，在本文中，Google Deepmind、普林斯顿和斯坦福大学的研究者将这种「进化」的概念应用于 LLM 领域，进行了初步探索。他们提出了一个闭环框架，在这个框架中 LLM 作为工具制作者（LLMs As Tool Makers ，LATM），使其能够生成自己的可重新使用的工具来处理新任务。

论文地址：https://arxiv.org/pdf/2305.17126.pdf

该方法包括两个关键阶段:

工具制作：LLM 作为工具制作者，专门为给定的任务设计工具（作为 Python 函数实现）；

工具使用：另一个 LLM 作为工具使用者，它可以与工具制作者相同，应用工具来处理新的请求。

两阶段设计允许 LATM 在每个阶段将作业分配给最合适的 LLM。一方面，需要高度能力的工具制造过程可以分配给一个功能强大且资源密集型的模型 (例如 GPT-4)。另一方面，相对简单的使用工具过程，可以分配给轻量、经济高效的模型 (例如 GPT-3.5 Turbo)。这种方法不仅增强了 LLM 解决问题的能力，并能够显著降低处理一系列任务的平均计算成本。

LATM 的闭环框架

由于工具制作过程只需要对给定的功能执行一次，因此生成的工具可以在不同的任务实例中反复使用。这种方法为处理复杂任务开拓了可扩展、成本高效的解决方案。例如，假定一个任务，用户要求 LLM 安排一个适合每个人的会议（例如在电子邮件对话中）。涉及复杂算术推理的任务对于像 GPT-3.5 Turbo 这样的轻量级模型来说是艰巨的挑战。相比之下，更强大的模型（例如 GPT-4）虽然推理成本要高得多，但是能够找到正确的解决方案。

LATM 能够克服这种困难，是因为它将强大但昂贵的模型当作工具制作者，并将工具传递给工具使用者 —— 经济型模型进行使用。工具制作完成后，轻量级工具使用者可以用它来高效、高性能地解决任务。

本文的实验能够验证这种方法在复杂的推理任务上（包括几个具有挑战性的 Big-Bench 任务）的有效性。结果表明，LATM 可以达到与资源密集型模型相当的性能，同时具有更高的成本效益。这种新颖的 LLM 方法，模仿了人类在创建和使用工具方面的进化飞跃，为开辟使用 LLM 生成的工具的社区提供了无限可能。

方法概览：LLM as Tool Maker (LATM)

制作新工具并重复使用

在 LATM 范式中，主要过程可以分为两个阶段：工具制作和工具使用。每个阶段都利用不同类型的大语言模型（LLM）来平衡性能和成本效率。

对于工具制作（Tool Making），该阶段采用强大但成本更高昂的模型（例如 GPT-4）作为工具制作者。工具制作者通过特定任务的一些演示来创建通用和可复用的工具（作为 Python 函数实现）。该阶段又可以进一步分为以下三个子阶段：

首先是工具提出（Tool Proposing）。在这一阶段，工具制作者尝试生成一个 Python 函数，用以解决给定任务的演示。该过程遵循「实例编程」（PbE）范式，其中提供了几个具体的演示，并且需要模型编写产生演示行为的程序。在实验中，研究者在该阶段使用了 3 个演示。如果提出的工具无法执行或者遇到错误，工具制作者会将错误信息附加到历史记录中并进行另一次尝试。

其次是工具验证（Tool Verification）。在这一阶段，工具制作者使用验证样本生成单元测试，然后在提出的工具中执行这些测试。研究者在实验中使用了 3 个验证样本。如果工具未能通过任何这些测试，工具制作者会在其历史记录中记录下错误，并尝试在单元测试中纠正问题（此过程只会纠正单元测试部分的函数调用，而不会纠正功能）。LLM 的自调试能力已在最近的研究中得到有效证明，然而在 LATM pipeline 中，验证阶段的用途稍有不同。该阶段有两个关键作用：一是提供示例来演示如何将自然语言问题转换为函数调用；二是验证工具的可靠性，使整个过程充分自动化。

GPT-4等大模型迎来进化转折点：不只是使用，还会自己制作工具了

加⼊OKEx全球社群

相关推荐