谷歌DeepMind近日宣布,其新一代机器人AI系统“Gemini Robotics”已实现可脱离云端运行的本地化模型,标志着机器人控制技术迈出了关键一步。据DeepMind机器人部门负责人Carolina Parada介绍,此次发布的全新视觉-语言-动作(VLA)模型可直接部署在机器人设备上,摆脱了对云计算的依赖,使机器人具备更强的自主性和可靠性,尤其适用于网络连接不稳定或对隐私有高要求的环境。

传统机器人系统通常依赖云端模型来执行复杂任务,例如路径规划或多步骤操作。但在实际应用中,这种延迟会限制机器人的即时响应能力。而新推出的Gemini On-Device模型则大幅提升了机器人在本地环境下的反应速度和适应能力。例如,该系统能够在无需连接互联网的情况下完成诸如“系鞋带”这样复杂但实际的任务,这一能力在过去被认为对机器人而言极具挑战性。
这一版本不仅具备几乎接近云混合模型的准确率,还首次开放了开发者可调试功能。开发者可通过谷歌提供的完整SDK,将机器人适配到新的环境和任务,只需50到100个示范操作即可完成定制。这些“示范”一般指的是通过远程控制方式手动操作机器人完成任务,AI通过观察学习实现自主执行。
尽管如此,Parada指出,对于涉及高复杂性和高度灵巧动作的任务(例如制作三明治等多步骤行为),仅依赖本地模型可能仍不足以胜任,仍需更强大的模型支持。但对于折叠衣物、系鞋带等单一目标任务,新模型已表现出卓越的通用性。
为了确保安全,谷歌在完整的Gemini Robotics系统中采用多层安全机制,包括由Gemini核心模型判断安全性,再通过VLA提出行动方案,最终由低层控制器执行并限制执行的力度与速度。然而,本地模型仅包含VLA部分,因此谷歌建议开发者自行添加低层安全控制模块,并建议通过Gemini Live API对接标准安全层,以保障系统稳定运行。
此外,Parada强调,这一版本基于Gemini 2.0模型,而Gemini团队的发布节奏通常落后于Gemini主线模型一个版本。目前Gemini已发展至2.5版,在对话功能方面表现大幅提升,未来机器人功能或将迎来类似飞跃。
谷歌现已开放信任测试者计划,鼓励有意愿的开发者申请参与测试这一新模型。Parada表示,机器人技术近三年来取得了显著突破,而此次Gemini Robotics On-Device的发布只是起点。随着未来版本的演进,机器人能力有望进一步迈入智能与可靠性兼备的新阶段。