观看机器人使用Gemini导航Google DeepMind办公室

生成式AI在机器人领域已经展现了巨大的潜力，应用包括自然语言互动、机器人学习、无代码编程甚至设计。谷歌的DeepMind Robotics团队本周展示了另一个潜在的结合点：导航。

在一篇题为《Mobility VLA: Multimodal Instruction Navigation with Long-Context VLMs and Topological Graphs》的论文中，团队展示了如何通过Google Gemini 1.5 Pro教机器人响应命令并在办公室中导航。DeepMind使用了一些自从去年谷歌在大规模裁员中关闭Every Day Robots项目后留下的机器人。

在项目附带的一系列视频中，DeepMind员工以智能助手风格的“OK, Robot”开场，随后要求系统在9,000平方英尺的办公室空间内执行不同的任务。

在一个示例中，一位谷歌员工要求机器人带他去一个可以画画的地方。机器人回答说：“好的，给我一分钟。正在用Gemini思考……”然后机器人带着穿着黄色领结的员工走向一面墙大小的白板。在另一段视频中，另一位员工让机器人按照白板上的指示行事。

一个简单的地图显示了机器人如何到达“蓝色区域”。机器人思考片刻后，带着员工绕了一条长路，最终到达了一个机器人测试区。机器人自信地宣布：“我已成功按照白板上的指示行事。”

在这些视频之前，机器人通过团队称为“Multimodal Instruction Navigation with demonstration Tours (MINT)”的方法熟悉了环境。这个方法实际上是带着机器人在办公室里走动，用语音指出不同的地标。接下来，团队利用层次化的视觉-语言-动作（VLA）方法，结合了环境理解和常识推理能力。一旦这些过程结合，机器人可以响应书面和绘制的命令，以及手势。

谷歌表示，在与员工进行的超过50次互动中，机器人有90%左右的成功率

Subscribe 订阅