
生成式AI在机器人领域已经展现了巨大的潜力,应用包括自然语言互动、机器人学习、无代码编程甚至设计。谷歌的DeepMind Robotics团队本周展示了另一个潜在的结合点:导航。
在一篇题为《Mobility VLA: Multimodal Instruction Navigation with Long-Context VLMs and Topological Graphs》的论文中,团队展示了如何通过Google Gemini 1.5 Pro教机器人响应命令并在办公室中导航。DeepMind使用了一些自从去年谷歌在大规模裁员中关闭Every Day Robots项目后留下的机器人。
在项目附带的一系列视频中,DeepMind员工以智能助手风格的“OK, Robot”开场,随后要求系统在9,000平方英尺的办公室空间内执行不同的任务。
在一个示例中,一位谷歌员工要求机器人带他去一个可以画画的地方。机器人回答说:“好的,给我一分钟。正在用Gemini思考……”然后机器人带着穿着黄色领结的员工走向一面墙大小的白板。在另一段视频中,另一位员工让机器人按照白板上的指示行事。
一个简单的地图显示了机器人如何到达“蓝色区域”。机器人思考片刻后,带着员工绕了一条长路,最终到达了一个机器人测试区。机器人自信地宣布:“我已成功按照白板上的指示行事。”
在这些视频之前,机器人通过团队称为“Multimodal Instruction Navigation with demonstration Tours (MINT)”的方法熟悉了环境。这个方法实际上是带着机器人在办公室里走动,用语音指出不同的地标。接下来,团队利用层次化的视觉-语言-动作(VLA)方法,结合了环境理解和常识推理能力。一旦这些过程结合,机器人可以响应书面和绘制的命令,以及手势。
谷歌表示,在与员工进行的超过50次互动中,机器人有90%左右的成功率