今天的类人机器人,为什么无法学会灵巧性?
在本文中,著名机器人专家罗德尼·布鲁克斯(Rodney Brooks)详尽阐述了一个重要观点:尽管风险投资者和大型科技公司投入了数以亿计甚至数十亿美元用于训练,今天的类人机器人仍然无法学会灵巧性。在文章结尾,他还补充了两个相关的简短观点:其一是关于双足类人机器人如何才能在人类附近行走而不构成安全隐患;其二则是展望十五年后的类人机器人将呈现怎样的形态——既不像现在的机器人,也不像真正的人类。
1. 引言:灵巧性挑战的历史回顾
从人工智能诞生之初,研究者们就开始尝试让机器人手臂能够操作物体。早在1956年“达特茅斯夏季人工智能研究项目”的提案中,“人工智能”一词首次出现。到了1961年,海因里希·恩斯特(Heinrich Ernst)在麻省理工学院用TX-0计算机控制机械臂抓取并堆叠积木,完成了博士论文。其导师正是信息论之父克劳德·香农(Claude Shannon),论文中亦感谢了马文·明斯基(Marvin Minsky),两人均为AI奠基者。
从那时起,工业机器人逐步发展为在全球工厂广泛部署的计算机控制机械臂。近年来,一波新兴公司掀起了类人机器人潮流,并伴随着大量媒体和投资热潮。根据Gartner的技术成熟曲线,类人机器人仍处于早期阶段,远未达到炒作顶峰。
类人机器人的构想是,共享与人类相同的身体结构,从而在为人类设计的环境中完成人类的任务。Figure公司的CEO曾表示,人类可以开发数百万种专用机器人,也可以造出一种类人机器人来胜任数百万个任务。其“宏伟计划”第一阶段包括:
- 构建功能完整的电动机电类人机器人
- 实现类似人类的操作
- 将类人机器人纳入劳动力体系
特斯拉CEO也曾表示,旗下类人机器人“Optimus”可能带来30万亿美元的营收,将成为“全球最大产品”。
投资者和工程师普遍相信,类人机器人将“即插即用”,无需改变工作方式即可直接替代人类执行所有任务。这一愿景的核心前提是:类人机器人必须拥有与人类相当的灵巧性(dexterity)。
2. 类人机器人发展简史与操作挑战
早在1970年代,日本早稻田大学的WABOT-1就已问世,其后WABOT-2、ASIMO(本田)、QRIO(索尼)、NAO(Aldebaran)等陆续登场。MIT的Cog、Rethink Robotics的Baxter与Sawyer、波士顿动力的Atlas,都是这一发展脉络中的代表。
然而几十年来的研究均未解决一个核心难题:如何让机器人拥有“人类级”的手部操作能力。
2.1 并联夹爪的主导地位
早期开发的“并联夹爪”(parallel jaw grippers)至今仍是主流。德国Schunk公司销售超过1000种此类夹具,另外还有电动或气动的吸盘工具。然而,无论是电动手指还是三指手套,始终无法在工业环境中实现可靠、耐用、高力输出的“拟人手”。
虽然曾有多种仿生手(如John Hollerbach、Ken Salisbury、Yoky Matsuoka等人的设计)尝试复现人类灵巧性,但并无一款通用机器人手在真实环境中被大规模采用。多数灵巧性的研究仍停留在数学或几何层面,未能解决实际操作问题。
2.2 展示视频的误导性
一些看似炫目的机器人演示视频展示了单个精心策划的操作动作。但这些成果极难泛化到其他任务。Benjie Holson 提出了“类人机器人奥运会”的构想,其中包含15项挑战任务(如清理手上花生酱、挂起一只袖子反过来的衬衫),所有人类八岁儿童都能完成,但类人机器人却毫无胜算。
3. 为什么端到端学习不适合类人灵巧操作?
从语音识别、图像识别到大型语言模型(LLM),端到端学习取得了巨大成功。但作者指出,这些成功依赖于人类工程师设计出的“前端处理架构”。灵巧性学习若无等效的“输入端结构”支持,就不可能取得类似成果。
3.1 语音识别的前处理架构
语音识别依赖于几十年前为电话语音压缩而发明的特征提取机制,如梅尔频率倒谱系数(MFCC)、傅里叶变换、对数滤波等。这些方法不是自然的端到端学习,而是模拟人类听觉系统的工程设计。
3.2 图像识别的生理仿生结构
卷积神经网络(CNN)借鉴了Hubel与Wiesel关于猫脑皮层结构的研究——包括简单细胞、复杂细胞、超复杂细胞的响应机制。图像识别的“卷积池化结构”正是对视觉皮层的模拟,建立在人类生理机制基础上。
3.3 大语言模型中的工程介入
语言模型如ChatGPT在“学习之前”必须完成:
- 分词(tokenization)
- 嵌入(embedding)
这些预处理过程引入了大量“人类知识”,如语言学结构、语素分析等,并非完全端到端。且Transformer结构本身就是高度人工设计的模型架构。
4. 为什么机器人学不会人类的灵巧性?
人类的灵巧操作严重依赖触觉系统(touch),而目前的学习框架普遍忽视这一点。相比之下,现有技术并未发展出有效的“触觉采集、传输、存储、重放”的等效系统。
4.1 触觉的重要性实验:点燃火柴
瑞典Umeå大学Roland Johansson的研究展示了触觉对操作任务的巨大影响。视频中,一位实验对象在手指失去触觉后点燃火柴的时间比正常状态延长了四倍,且动作充满失误。
人类手部拥有约17,000个低阈值机械感受器,单个指尖约1,000个。这些感受器不仅感知压力,还有滑动、纹理、震动等复杂信息。
此外,Roland Johansson与David Ginty等人的研究显示:
- 手部拥有多种类型触觉神经元,至少15类;
- 人体骨骼肌具备感知张力与长度变化的机制(肌梭、腱器官);
- 人类执行操作任务时会根据物体材质、形状、重力感知主动调整动作策略。
4.2 MIT研究进展:人类手部触觉映射
MIT的Pulkit Agrawal实验室开发了一套新型数据收集系统:通过佩戴特殊手套控制机器人手,并将触觉反馈传递给操作者。虽然仍难以完整复现人类操作系统,但比单纯靠视觉更进一步。
5. 除了灵巧性,类人机器人的“步态问题”也未解决
即便忽略灵巧性问题,双足行走的安全性问题也阻碍了类人机器人大规模部署。人类步态依赖于肌腱能量回收机制,而当前机器人普遍依赖高能电机和ZMP(零力矩点)控制算法。
当机器人失稳时,这类系统通过加速腿部动作快速泵入能量恢复平衡。但一旦摔倒,带着动能的大腿往往会击中周围物体甚至人类,风险极高。
更严重的是,体型扩大带来能量和质量的立方增长。一个等比例放大的机器人,其质量为原来的 s3s^3s3,所需能量亦随之增长。例如从0.5倍尺寸增长到1倍,意味着质量增加8倍,对人体造成伤害的风险也成倍提高。
目前市面上看似“安全”的小型机器人,无法简单地通过“放大”来实现真正的实用化部署。
6. 类人机器人未来会是什么样?
与自动驾驶汽车和飞行汽车概念的演变类似,“类人机器人”的定义也将改变。未来十五年内,这些机器人将逐渐:
- 使用轮子代替双腿;
- 仅保留1–3只“手臂”,其中许多将使用并联夹爪或吸盘而非人手;
- 装备非可见光感知、手眼协调系统,甚至将视觉系统部署在腰部以下;
- 更多专用机器具备“人类任务”能力,但外形和结构完全非人类化;
- 仍将被市场、媒体和公司冠以“类人机器人”之名。
而现今被热捧的类人机器人模型,多数将在十五年内被淘汰,甚至被遗忘。
总结
今天的类人机器人无法实现人类级别的灵巧性,核心原因在于:学习机制未能对齐人类操作所依赖的真实输入结构(特别是触觉系统)与计划机制。端到端学习虽然在语言、图像、语音领域取得了惊人成果,但这些成功背后都依赖于数十年积累的前端工程设计与数据采集系统。而这类系统,在“触觉”领域尚不存在。
因此,不理解触觉、不收集正确数据、不训练正确目标,只依赖视觉训练与端到端模仿,是对人类灵巧操作能力的误解。这不仅是浪费金钱,更是一个代价高昂的工程错误判断。
未来十五年,类人机器人不会如同今天的模型那样存在,而是真正被“重新定义”。