谷歌DeepMind近日宣布，其新一代机器人AI系统“Gemini Robotics”已实现可脱离云端运行的本地化模型

谷歌DeepMind近日宣布，其新一代机器人AI系统“Gemini Robotics”已实现可脱离云端运行的本地化模型，标志着机器人控制技术迈出了关键一步。据DeepMind机器人部门负责人Carolina Parada介绍，此次发布的全新视觉-语言-动作（VLA）模型可直接部署在机器人设备上，摆脱了对云计算的依赖，使机器人具备更强的自主性和可靠性，尤其适用于网络连接不稳定或对隐私有高要求的环境。

传统机器人系统通常依赖云端模型来执行复杂任务，例如路径规划或多步骤操作。但在实际应用中，这种延迟会限制机器人的即时响应能力。而新推出的Gemini On-Device模型则大幅提升了机器人在本地环境下的反应速度和适应能力。例如，该系统能够在无需连接互联网的情况下完成诸如“系鞋带”这样复杂但实际的任务，这一能力在过去被认为对机器人而言极具挑战性。

这一版本不仅具备几乎接近云混合模型的准确率，还首次开放了开发者可调试功能。开发者可通过谷歌提供的完整SDK，将机器人适配到新的环境和任务，只需50到100个示范操作即可完成定制。这些“示范”一般指的是通过远程控制方式手动操作机器人完成任务，AI通过观察学习实现自主执行。

尽管如此，Parada指出，对于涉及高复杂性和高度灵巧动作的任务（例如制作三明治等多步骤行为），仅依赖本地模型可能仍不足以胜任，仍需更强大的模型支持。但对于折叠衣物、系鞋带等单一目标任务，新模型已表现出卓越的通用性。

为了确保安全，谷歌在完整的Gemini Robotics系统中采用多层安全机制，包括由Gemini核心模型判断安全性，再通过VLA提出行动方案，最终由低层控制器执行并限制执行的力度与速度。然而，本地模型仅包含VLA部分，因此谷歌建议开发者自行添加低层安全控制模块，并建议通过Gemini Live API对接标准安全层，以保障系统稳定运行。

此外，Parada强调，这一版本基于Gemini 2.0模型，而Gemini团队的发布节奏通常落后于Gemini主线模型一个版本。目前Gemini已发展至2.5版，在对话功能方面表现大幅提升，未来机器人功能或将迎来类似飞跃。

谷歌现已开放信任测试者计划，鼓励有意愿的开发者申请参与测试这一新模型。Parada表示，机器人技术近三年来取得了显著突破，而此次Gemini Robotics On-Device的发布只是起点。随着未来版本的演进，机器人能力有望进一步迈入智能与可靠性兼备的新阶段。

Subscribe 订阅