复制成功

分享至

主页 > 数字货币 >

当GPT-4V充当机器人大脑,可能你都没AI会规划

2023.12.12
来自清华大学交叉信息研究院的研究者提出了「ViLa」(全称 Robotic Vision-Language Planning)算法,其能在非常复杂的环境中控制机器人,为机器人提供任务规划。

原文来源:机器之心

当GPT-4V充当机器人大脑,可能你都没AI会规划

图片来源:由无界 AI生成

GPT-4V 已经能帮我们设计网站代码,控制浏览器,这些应用集中在虚拟数字世界中。假如我们把 GPT-4V 带入现实世界,让它作为控制机器人的大脑,会有什么有趣的结果呢?

最近,来自清华大学交叉信息研究院的研究者提出「ViLa」算法,实现了让 GPT-4V 走进物理世界中,为机器人操作日常生活物品提供任务规划。

当GPT-4V充当机器人大脑,可能你都没AI会规划

ViLa 全称是 Robotic Vision-Language Planning,它利用 GPT-4V 在视觉和语言两个模态上做联合推理的能力,把抽象的语言指令分解为一系列可执行的步骤。ViLa 最让人惊喜的是它展现出对物理世界中常识的理解,而这是很多之前基于大语言模型(LLM)的机器人任务规划算法所欠缺的。

比如在下面这个视频中,研究人员让机器人拿出搁板上的漫威模型(钢铁侠)。ViLa 能理解这个场景中物体的复杂空间位置关系,即纸杯和可乐罐挡住了钢铁侠,要拿出钢铁侠,则必须先拿走纸杯和可乐罐。

当GPT-4V充当机器人大脑,可能你都没AI会规划

又比如在下面这个视频中,研究人员让机器人为上美术课的孩子们整理出一个桌面区域。ViLa 能根据这个场景中的剪纸,推断出现在上课所需的工具是剪刀,把其它危险物品,比如螺丝刀和水果刀放入收纳盒中。

当GPT-4V充当机器人大脑,可能你都没AI会规划

可以看出,ViLa 具有像人类一样的常识,能在非常复杂的环境中控制机器人,为机器人提供任务规划。

当GPT-4V充当机器人大脑,可能你都没AI会规划 论文地址:https://arxiv.org/pdf/2311.17842.pdf 论文主页:https://robot-vila.github.io/ 论文视频:https://www.youtube.com/watch?v=t8pPZ46xtuc

接下来,该研究详细介绍了 ViLa 这项研究成果。

方法介绍

ViLa 使用了视觉语言大模型 (VLM) 来做机器人的任务规划。如今的 VLM 在图像和语言两个模态上都展现出前所未有的理解和推理能力。将 VLM 应用到机器人任务中,它能基于当前环境的视觉观测,结合自己丰富的世界知识进行推理。作者团队提出了 ViLa 算法,主张直接使用视觉语言大模型(如 GPT-4V),将高级抽象指令分解为一系列低级可执行技能。

当GPT-4V充当机器人大脑,可能你都没AI会规划 当GPT-4V充当机器人大脑,可能你都没AI会规划

给定一条语言指令和当前的视觉观测图像,ViLa 利用 GPT-4V 通过链式思维推理来理解环境场景,随后生成多步的计划。接着,这个计划的第一步由一个基本策略来执行。最后,已经执行的步骤被添加到已完成的计划中,使得在动态环境中实现闭环规划方法。

GPT-4V 由于经过大规模互联网数据的训练,展现出了卓越的多样性和极强的泛化能力。这些特性使得它特别擅长处理论文中提出的开放世界场景。此外,作者团队发现,即使是在零样本(Zero-Shot)学习模式下运行,由 GPT-4V 驱动的 ViLa 也能够解决多种具有挑战性的规划问题。这显著减少了之前方法中所需的提示工程。

实验

ViLa 在现实世界和模拟环境中都展示了以零样本方式解决各种日常操作任务的能力,有效处理各种开放集指令和物体对象。作者团队通过大量实验证明了 ViLa 的优势:1. ViLa 能深刻理解视觉世界中的常识,2. ViLa 支持灵活的多模态目标指定方法,3. ViLa 自然地支持视觉反馈和闭环控制。

A. ViLa 能深刻理解视觉世界中的常识

语言和图像作为不同的信号类型,各具独特性质:语言由人类生成,富含语义,但在表达全面信息方面有限;相比之下,图像作为自然信号,包含细致的低层次特征,一张图像便能够捕捉场景的全部信息。在难以用语言简单概括的复杂场景下,这种差异尤为突出。通过将视觉图片直接结合到推理过程中,ViLa 可以理解视觉世界的常识知识,擅长处理需要全面了解空间布局或物体属性的复杂任务。

空间布局

免责声明:数字资产交易涉及重大风险,本资料不应作为投资决策依据,亦不应被解释为从事投资交易的建议。请确保充分了解所涉及的风险并谨慎投资。OKEx学院仅提供信息参考,不构成任何投资建议,用户一切投资行为与本站无关。

加⼊OKEx全球社群

和全球数字资产投资者交流讨论

扫码加入OKEx社群

相关推荐

industry-frontier