复制成功

分享至

主页 > 比特币 >

CMU清华MIT引爆全球首个Agent无限流,机器人「007」加班自学停不下来!具身智能被革命

2023.11.04

文章来源:新智元

编辑:Aeneas 好困

CMU清华MIT引爆全球首个Agent无限流,机器人「007」加班自学停不下来!具身智能被革命
最近,由CMU/MIT/清华/Umass提出的全球首个生成式机器人智能体RoboGen,可以无限生成数据,让机器人7*24小时永不停歇地训练。AIGC for Robotics,果然是未来的方向。

全球首个生成式机器人Agent发布了!

长久以来,相比于语言或者视觉模型可以在大规模的互联网数据上训练,训练机器人的策略模型需要带有动态物理交互信息的数据,而这些数据的匮乏一直是具身智能发展的最大瓶颈。

最近,来自CMU、清华、MIT,UMass等机构的研究人员提出了一种全新的RoboGen智能体。

利用涵盖在大语言模型和生成式模型中蕴含的大规模知识,配以逼真模拟世界提供的物理信息,可以「无限」生成各种任务、场景以及教学数据,实现机器人7x24小时全自动训练。

CMU清华MIT引爆全球首个Agent无限流,机器人「007」加班自学停不下来!具身智能被革命

现在,我们正在迅速耗尽来自网络的高质量的真实token。全球训练AI的数据,都快不够用了。

深度学习之父Hinton表示,「科技公司们正在未来18个月内,要使用比现在GPT-4多100倍的算力训练新模型」。模型参数更大,算力需求巨大,然而数据在哪里?

面对饥渴的模型,AI合成就是答案。

CMU清华MIT引爆全球首个Agent无限流,机器人「007」加班自学停不下来!具身智能被革命

论文地址:https://arxiv.org/abs/2311.01455

项目主页:https://robogen-ai.github.io/

开源地址:https://github.com/Genesis-Embodied-AI

具体来说,由MIT-IBM首席科学家淦创带领的研究团队,在生成式AI和和可微分物理模拟的加持下,提出了一种「提出-生成-学习」循环,让Agent能够自己出题自己训练机器人。

首先,Agent提出,我们要开发这个技能。

然后,它会生成相应的环境、配置和技能学习指导,来创建模拟环境。

最后,Agent会将提出的上层任务分解为子任务,选择最佳学习方法,然后学习策略、掌握所提技能。

值得注意的是,整个过程几乎都不需要人类的监督,而且任务的数量,竟然是——无限个!

对于这则重磅的研究,英伟达高级科学家Jim Fan也进行了转发。

CMU清华MIT引爆全球首个Agent无限流,机器人「007」加班自学停不下来!具身智能被革命

现在,机器人已经学会一系列炸裂操作——

把物品放到储物柜中:

CMU清华MIT引爆全球首个Agent无限流,机器人「007」加班自学停不下来!具身智能被革命

用微波炉加热一碗汤:

CMU清华MIT引爆全球首个Agent无限流,机器人「007」加班自学停不下来!具身智能被革命

拉动杠杆冲泡咖啡:

CMU清华MIT引爆全球首个Agent无限流,机器人「007」加班自学停不下来!具身智能被革命

以及后空翻等等:

CMU清华MIT引爆全球首个Agent无限流,机器人「007」加班自学停不下来!具身智能被革命


模拟环境,多样化技能学习的关键


机器人研究中,长期存在这样一个难题:怎样赋予机器人多种技能,让它们在非工厂环境中操作,为人类执行广泛的任务?

近年来,我们教会了机器人各种复杂的技能,比如流体操纵、投掷物体、踢足球、跑酷等等,然而这些技能却各自为政,视野较短,需要人工设计的任务描述和训练监督。

因为现实世界数据收集成本高昂且费力,这些技能都是在适当领域随机化的模拟中训练,然后部署到现实世界中的。

与现实世界中的探索和数据收集相比,模拟环境具有许多优点,比如提供了低级状态的特权访问和无限的探索机会;支持大规模并行计算,数据收集速度显著加快;允许机器人开发闭环策略和错误恢复能力。

然而,构建模拟环境需要一系列繁琐的任务(设计任务、选择相关且语义上有意义的资产、生成合理的场景布局和配置、制定奖励或损失函数等训练监督)。即使在模拟世界中,也极大限制了机器人技能学习的可扩展性。

CMU清华MIT引爆全球首个Agent无限流,机器人「007」加班自学停不下来!具身智能被革命

因此,研究者提出一种「生成模拟」范式,将模拟机器人技能学习的进步与基础和生成模型的最新进展结合起来。

利用最先进的基础模型的生成能力,生成模拟可以为模拟中各种机器人技能学习所需的所有阶段生成信息。

得益于最新基础模型中全面的编码知识,以这种方式生成的场景和任务数据,可能与现实世界场景的分布非常相似。

此外,这些模型可以进一步提供分解的低级子任务,这些子任务可以通过特定领域的策略学习方法无缝处理,从而产生各种技能和场景的闭环演示。

CMU清华MIT引爆全球首个Agent无限流,机器人「007」加班自学停不下来!具身智能被革命


RoboGen流程


RoboGen是一种全自动流程,可以7x24h地让机器人学习各种技能,其中包括4个阶段:

1. 任务建议;

2. 场景生成;

3. 训练监督生成;

4. 利用生成的信息进行技能学习。

CMU清华MIT引爆全球首个Agent无限流,机器人「007」加班自学停不下来!具身智能被革命

利用最新基础模型的嵌入式常识和生成功能,RoboGen可以自动生成任务、场景和训练监督,从而让机器人的多种技能学习实现规模化。

任务建议

在这一阶段,RoboGen能够提出上层任务,生成相应的环境,将上层目标分解为底层子任务,然后按顺序学习子技能。

首先,RoboGen会生成有意义的、多样化的、高水平的任务,供机器人学习。

研究者使用特定的机器人类型和从池中随机采样的对象,来初始化系统。然后将提供的机器人和采样对象信息输入LLM。

这种采样过程,就确保了生成任务的多样性。

免责声明:数字资产交易涉及重大风险,本资料不应作为投资决策依据,亦不应被解释为从事投资交易的建议。请确保充分了解所涉及的风险并谨慎投资。OKEx学院仅提供信息参考,不构成任何投资建议,用户一切投资行为与本站无关。

加⼊OKEx全球社群

和全球数字资产投资者交流讨论

扫码加入OKEx社群

相关推荐

industry-frontier