即使人类犯错，AI Agent也能快速学习，MIT、哈佛、UW提出新型强化学习方法HuGE

2023.11.29

原文来源：学术头条

即使人类犯错，AI Agent也能快速学习，MIT、哈佛、UW提出新型强化学习方法HuGE

图片来源：由无界 AI生成

为了教会 AI Agent 新技能，比如打开厨房橱柜，研究者通常采用强化学习方法。这是一种试错过程，AI Agent 通过采取正确的行动接近目标而获得奖励。

在大多数情况下，人类专家需要精心设计奖励函数，从而鼓励 AI Agent 进行更多探索。随着 AI Agent 的探索和尝试，人类专家需要不断更新这个奖励函数。这一过程既耗时又低效，特别是在任务复杂、步骤繁多时，扩展起来更是十分困难。

日前，麻省理工学院（MIT）、哈佛大学和华盛顿大学的研究团队开发了一种新型强化学习方法，这种方法不依赖专家设计的奖励函数，而是利用来自许多非专家用户的众包反馈（crowdsourced feedback），来指导 AI Agent 达成学习目标。

尽管用户众包数据常常存在错误，这种新方法依然能够让 AI Agent 更快速地学习，这与其他尝试使用非专家反馈的方法有所不同，而这些噪声数据通常会让其他方法失效。

此外，这种新方法支持异步收集反馈，使得全球各地的非专家用户都可以参与到教导 AI Agent 的过程中。

MIT 电气工程与计算机科学系助理教授、Improbable AI Lab 主任 Pulkit Agrawal 表示：“在设计 AI Agent 时，最耗时且具挑战性的部分之一就是设定奖励函数。当前，奖励函数主要由专家设计，如果我们想让机器人学习多种任务，这种方式是难以扩展的。我们的研究提出了一种方案，通过众包来设计奖励函数，并让非专家参与提供有效反馈，从而扩大机器人的学习范围。”

未来，这种方法可以帮助机器人在人们家中快速学习特定任务，而无需人们亲自示范每项任务。机器人可以独立探索，由众包的非专家反馈引导其探索方向。

“在我们的方法中，奖励函数不是直接告诉 AI Agent怎样完成任务，而是指导它应该探索的方向。因此，即便人类监督存在一定的不准确性和噪声，AI Agent仍然能够进行有效探索，从而更好地学习，”Improbable AI Lab 研究助理、论文主要作者之一 Marcel Torne 解释说。

即使接收的答案有误，也能完成任务

一种收集强化学习用户反馈的方法是向用户展示 AI Agent 达到的两种状态的照片，并询问哪种状态更接近目标。例如，设想一个机器人的目标是打开厨房橱柜，其中一张照片可能显示它成功打开了橱柜，另一张则可能显示它打开了微波炉。用户需要选择表现更佳状态的照片。

有些早期方法尝试使用这种众包形式的二元反馈，来优化 AI Agent 用以学习任务的奖励函数。但问题在于，非专业人士容易出错，这会导致奖励函数变得极为混乱，以至于 AI Agent 可能无法达成目标。

Torne 指出：“实际上，AI Agent 会过分认真地对待奖励函数，努力完美符合这一函数。因此，我们不直接优化奖励函数，而是用它来指导机器人应探索的区域。”

研究团队将这一过程分成两个独立部分，每部分由各自的算法驱动。他们将这种新型增强学习方法命名为人类引导探索（Human Guided Exploration，HuGE）。

一方面，目标选择算法会持续接收众包的人类反馈并进行更新。这些反馈并非用作奖励函数，而是用于指引 AI Agent 的探索方向。简而言之，非专业用户提供的指引就像一路撒下的“面包屑”，逐渐引导 AI Agent 接近目标。

另一方面，AI Agent 自己也会进行探索，这一过程是自我监督的，由目标选择器进行指导。它会收集自己尝试的动作的图像或视频，随后发送给人类，用于更新目标选择器。

这样做有助于缩小 AI Agent 需要探索的范围，引导它前往更接近目标的有希望的区域。但如果暂时没有反馈，或反馈迟迟未到，AI Agent 仍会继续自行学习，尽管速度较慢。这种方式允许反馈的收集不那么频繁，也可以异步进行。

Torne 补充道：“探索过程可以自主、持续进行，因为它会不断探索并学习新知识。当接收到更准确的信号时，它会以更明确的方式进行探索。它们可以按照各自的节奏运转。”

由于反馈只是轻微地引导 AI Agent 的行为，即使用户提供的答案有误，AI Agent 最终也能学会如何完成任务。

更快的学习

研究团队在一系列模拟和真实环境的任务中测试了这种方法。

即使人类犯错，AI Agent也能快速学习，MIT、哈佛、UW提出新型强化学习方法HuGE

加⼊OKEx全球社群

相关推荐