还记得波士顿动力(Boston Dynamics)的那只四足机器人Spot吗?它最近在机器人界又火了一把!一年多前,该公司发布了一个研究版的Spot,开放了底层API,让开发者可以直接控制Spot的关节。而最近,机器人与人工智能研究所(RAI Institute)利用强化学习(Reinforcement Learning,RL)技术,让Spot的奔跑速度提升了三倍之多!如果去年在ICRA@40会议上听过Marc Raibert的演讲,那就知道这绝不是传言,而是现实。

Spot狂奔,每秒5.2米!
在一段新发布的视频中,Spot以每秒5.2米(约时速11.6英里)的速度狂奔。而它的出厂最高速度只有1.6米每秒!看到这个小黄狗跑得这么快,确实有点奇怪,毕竟它的奔跑方式和真正的狗完全不同。RAI研究员Farbod Farshidian表示:“Spot的步态并不符合生物学规律,但它本来也不是生物。”由于机器人的驱动系统与肌肉不同,其运动方式自然也不一样。
经过强化学习训练,Spot采用了一种类似小跑的步态,并增加了“腾空阶段”(四脚同时悬空),让它真正进入了“奔跑”模式。这个腾空动作其实是强化学习“发现”的,并不是工程师们直接编程给它的,而是AI在试图寻找最快移动方式时,自然演化出来的。
强化学习PK传统模型预测控制
那么,为什么波士顿动力的官方控制器做不到这一点呢?原来,官方控制器使用的是“模型预测控制”(MPC),即基于对机器人物理特性的数学建模,实时优化执行任务。虽然这种方式稳定可靠,但由于模型总会有一定误差,因此机器人无法真正突破性能极限。
强化学习的不同之处在于,它不依赖实时计算,而是在模拟环境中进行大量训练,找到最优策略后,再应用到真实机器人上。例如,在训练Spot的高速奔跑时,研究人员可以在模拟环境里同时训练几十甚至上百只Spot,让它们尝试各种可能的奔跑方式,并最终找到最佳策略。
限制Spot速度的不是马达,而是电池!
令人意想不到的是,Spot的速度瓶颈并不在于马达性能,而是电池供电能力!研究人员原本以为Spot会受到驱动系统的扭矩和速度限制,但实验结果显示,真正的障碍竟然是电池无法提供足够的能量。
Farbodian解释说:“如果我们换上更强的电池,Spot还能跑得更快!”而他们目前唯一的限制是无法直接获取Spot电池的电压数据,否则还可以在仿真训练中进一步优化能耗管理。
但强化学习的意义远不止于提升速度,它还可以优化Spot的能耗,延长电池寿命,甚至让它在办公室或家居环境中更安静地移动。
跳跃自行车:RL新神器登场!
除了Spot,RAI研究所还开发了一款全新的机器人平台——超机动载具(Ultra Mobility Vehicle,UMV),这是一辆会跳跃的自行车!
这辆“智能单车”没有陀螺仪等稳定装置,仅靠轮胎的前后移动和方向调整来保持平衡。它的“秘密武器”是顶部的配重块,通过高速上下移动来调整重心。通过强化学习,UMV不仅能在复杂地形上保持稳定,还能完成“飞跃”障碍物的炫酷操作,比如跳上比自己还高的桌子。
UMV的另一大亮点是,它竟然能倒着骑!这在传统控制方法下几乎是不可能实现的,尤其是在崎岖不平的地形上。RAI研究所的Marco Hutter表示:“强化学习的真正魅力在于,它能发现传统控制方法难以实现的全新运动方式。”
目前,RAI团队正在努力让UMV在真实户外环境中实现更高级的“自行车跑酷”操作,预计很快就能发布更多演示视频。
强化学习,让机器人能力无限突破!
RAI研究所最近还宣布与波士顿动力合作,共同推动人形机器人的强化学习研究。相比四足机器人,人形机器人有更多自由度和更复杂的运动模式,因此传统的MPC控制器已经很难驾驭。而强化学习的泛化能力,使其成为未来人形机器人控制的关键技术。
RAI的研究目标不仅仅是让某种特定机器人变强,而是建立一整套适用于所有机器人平台的通用强化学习工具。从四足机器人到两轮自行车,再到未来的无人驾驶汽车和人形机器人,强化学习正逐步解锁机器人硬件的潜在能力,让它们真正突破极限。
未来,或许不仅是Spot会跑得更快,跳跃自行车能玩花式跑酷,人形机器人也能像科幻电影里的角色那样灵活自如——而这一切,都离不开强化学习的加持!