复制成功

分享至

主页 > 数字货币 >

即使人类犯错,AI Agent也能快速学习,MIT、哈佛、UW提出新型强化学习方法HuGE

2023.11.29

原文来源:学术头条

即使人类犯错,AI Agent也能快速学习,MIT、哈佛、UW提出新型强化学习方法HuGE

图片来源:由无界 AI生成

为了教会 AI Agent 新技能,比如打开厨房橱柜,研究者通常采用强化学习方法。这是一种试错过程,AI Agent 通过采取正确的行动接近目标而获得奖励。

在大多数情况下,人类专家需要精心设计奖励函数,从而鼓励 AI Agent 进行更多探索。随着 AI Agent 的探索和尝试,人类专家需要不断更新这个奖励函数。这一过程既耗时又低效,特别是在任务复杂、步骤繁多时,扩展起来更是十分困难。

日前,麻省理工学院(MIT)、哈佛大学和华盛顿大学的研究团队开发了一种新型强化学习方法,这种方法不依赖专家设计的奖励函数,而是利用来自许多非专家用户的众包反馈(crowdsourced feedback),来指导 AI Agent 达成学习目标。

尽管用户众包数据常常存在错误,这种新方法依然能够让 AI Agent 更快速地学习,这与其他尝试使用非专家反馈的方法有所不同,而这些噪声数据通常会让其他方法失效。

此外,这种新方法支持异步收集反馈,使得全球各地的非专家用户都可以参与到教导 AI Agent 的过程中。

MIT 电气工程与计算机科学系助理教授、Improbable AI Lab 主任 Pulkit Agrawal 表示:“在设计 AI Agent 时,最耗时且具挑战性的部分之一就是设定奖励函数。当前,奖励函数主要由专家设计,如果我们想让机器人学习多种任务,这种方式是难以扩展的。我们的研究提出了一种方案,通过众包来设计奖励函数,并让非专家参与提供有效反馈,从而扩大机器人的学习范围。”

未来,这种方法可以帮助机器人在人们家中快速学习特定任务,而无需人们亲自示范每项任务。机器人可以独立探索,由众包的非专家反馈引导其探索方向。

“在我们的方法中,奖励函数不是直接告诉 AI Agent怎样完成任务,而是指导它应该探索的方向。因此,即便人类监督存在一定的不准确性和噪声,AI Agent仍然能够进行有效探索,从而更好地学习,”Improbable AI Lab 研究助理、论文主要作者之一 Marcel Torne 解释说。


即使接收的答案有误,也能完成任务


一种收集强化学习用户反馈的方法是向用户展示 AI Agent 达到的两种状态的照片,并询问哪种状态更接近目标。例如,设想一个机器人的目标是打开厨房橱柜,其中一张照片可能显示它成功打开了橱柜,另一张则可能显示它打开了微波炉。用户需要选择表现更佳状态的照片。

有些早期方法尝试使用这种众包形式的二元反馈,来优化 AI Agent 用以学习任务的奖励函数。但问题在于,非专业人士容易出错,这会导致奖励函数变得极为混乱,以至于 AI Agent 可能无法达成目标。

Torne 指出:“实际上,AI Agent 会过分认真地对待奖励函数,努力完美符合这一函数。因此,我们不直接优化奖励函数,而是用它来指导机器人应探索的区域。”

研究团队将这一过程分成两个独立部分,每部分由各自的算法驱动。他们将这种新型增强学习方法命名为人类引导探索(Human Guided Exploration,HuGE)。

即使人类犯错,AI Agent也能快速学习,MIT、哈佛、UW提出新型强化学习方法HuGE

一方面,目标选择算法会持续接收众包的人类反馈并进行更新。这些反馈并非用作奖励函数,而是用于指引 AI Agent 的探索方向。简而言之,非专业用户提供的指引就像一路撒下的“面包屑”,逐渐引导 AI Agent 接近目标。

另一方面,AI Agent 自己也会进行探索,这一过程是自我监督的,由目标选择器进行指导。它会收集自己尝试的动作的图像或视频,随后发送给人类,用于更新目标选择器。

这样做有助于缩小 AI Agent 需要探索的范围,引导它前往更接近目标的有希望的区域。但如果暂时没有反馈,或反馈迟迟未到,AI Agent 仍会继续自行学习,尽管速度较慢。这种方式允许反馈的收集不那么频繁,也可以异步进行。

Torne 补充道:“探索过程可以自主、持续进行,因为它会不断探索并学习新知识。当接收到更准确的信号时,它会以更明确的方式进行探索。它们可以按照各自的节奏运转。”

由于反馈只是轻微地引导 AI Agent 的行为,即使用户提供的答案有误,AI Agent 最终也能学会如何完成任务。


更快的学习


研究团队在一系列模拟和真实环境的任务中测试了这种方法。

免责声明:数字资产交易涉及重大风险,本资料不应作为投资决策依据,亦不应被解释为从事投资交易的建议。请确保充分了解所涉及的风险并谨慎投资。OKEx学院仅提供信息参考,不构成任何投资建议,用户一切投资行为与本站无关。

加⼊OKEx全球社群

和全球数字资产投资者交流讨论

扫码加入OKEx社群

相关推荐

industry-frontier