给AI Agent完整的一生!港大NYU谢赛宁等最新智能体研究:虚拟即现实


声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权站长之家转载发布。

【新智元导读】近日,来自香港大学的Jihan Yang和纽约大学的谢赛宁等人发表了新的成果,将真实世界的地图、街景等各种信息融入Agent所在的虚拟世界,为智能体的未来赋予了无限可能。

怎样能构建更强大的AI Agent?

答案是给他们一个完整而真实的世界。

最近,来自香港大学的Jihan Yang和纽约大学的谢赛宁等人,联合发表了一项新研究:在虚拟环境中模拟现实世界。

图片

论文地址:https://arxiv.org/abs/2402.03310

代码地址:https://github.com/VIRL-Platform/VIRL

项目名称V-IRL,能够弥合数字环境与人类居住的世界之间存在的巨大差距,让Agent在模拟的真实世界环境中执行各种复杂的任务。

V-IRL中的环境数据完全来源于真实世界:地图、地理信息、街景......可以说,V-IRL给了Agent真实而完整的一生。

V-IRL是一个可扩展的平台,利用地图、地理空间和街景图像等API将AI智能体嵌入到地球上的真实城市中。

图片

V-IRL可以作为一个巨大的测试平台,用于衡量开放世界计算机视觉和具身人工智能的进展,具有前所未有的规模和多样性,提供对全球数千亿张图像的结构化访问。

截至2022年5月,仅Google街景就拥有超过2200亿张图像,并且还有许多其他图像和数据来源可以合并以丰富环境。

V-IRL Agent

研究人员使用V-IRL实例化了一系列智能体,他们以其丰富的感知和描述数据为基础,解决了各种实际任务。

图片

比如这个Peng,为了注册为访问学生,需要访问纽约市的几个地方来获得一些文件。

图片

利用地理定位和地图功能,Peng可以沿着最短的路径行走来节约时间:

图片

语言驱动

下面这位Aria,可以搜索附近的餐馆。然后,她综合公众评论,通过GPT-4提出最终建议。

图片

对于上面来自四川的Peng同学,Aria推荐了辛辣的中式联合餐厅Chow House,让他尝到了家的味道。

图片

Vivek是一位房地产经纪人,他使用房地产API在Peng所需的地区和价格范围内寻找潜在的公寓。

图片

图片

Vivek使用GPT-4提供整体评级和伴随推理。他最推荐的是一套性价比高的1居室公寓,每月1986美元,靠近超市、2个公交车站和健身房。

视觉驱动

RX-399,是一个城市辅助机器人。

图片

在下面的演示中,他沿着预定义的城市路线导航,使用开放世界探测器和地理定位模块标记所有垃圾箱。

图片

Imani是一位城市规划师,

图片

她为RX-399设置了穿越中央公园和感兴趣物体的路线,RX-399遍历了这些路线并记录了所有检测到的实例。

在RX-399完成其路线后,Imani会以不同的细节水平分析RX-399收集的数据。

图片

Imani使用RX-399收集的数据对纽约市中央公园的垃圾箱、消防栓、公园长椅进行可视化。上图显示了公园内垃圾箱、消防栓和长凳的一般分布,Imani还可以放大到特定区域。

Hiro是一位经验丰富的旅行者,他使用开放世界检测来寻找餐厅;使用VQA来选择合适的道路;使用地点评论和LLM来决定一个地点是否适合自己。

图片

下面是Hiro在香港的午餐探索:

图片

图片

图片

图片

图片

协作

人类经常通过协作来解决复杂的现实世界任务。将复杂任务拆解为简单