麻省理工学院的研究人员最近开发了一种新的机器人训练方法,既能节省时间和成本,又能提升机器人适应新任务和环境的能力。论文下载:https://arxiv.org/pdf/2409.20537
这种方法被称为异构预训练变换器(HPT),它将来自多个来源的大量多样化数据整合成一个统一的系统,相当于为生成式AI模型创建了一种共享语言。这种方法与传统的机器人训练大相径庭,后者通常需要工程师为每个机器人和任务在受控环境下收集特定数据。
MIT电气工程与计算机科学的研究生王力瑞(Lirui Wang)领导了这项研究。他指出,尽管很多人认为机器人训练数据不足是一个主要挑战,但更大的问题在于各种不同领域、模态和机器人硬件的多样性。团队的研究展示了如何有效地结合和利用这些多样化的元素。
研究团队开发了一种能够统一处理各种数据类型的架构,包括摄像头图像、语言指令和深度图。HPT采用了类似于高级语言模型的变换器模型来处理视觉和本体感受输入。
在实际测试中,该系统表现非凡——在模拟和现实场景中,其表现比传统训练方法提高了20%以上。即使在机器人面临与训练数据大相径庭的任务时,这种提升依然显著。
研究团队为预训练准备了一个令人印象深刻的数据集,包含了52个数据集,超过20万个机器人轨迹,涵盖了四个类别。这种方法让机器人能够从丰富的经验中学习,包括人类演示和模拟。
系统的一大创新在于对本体感受(机器人对自身位置和运动的感知)的处理。团队设计的架构将本体感受与视觉信息同等重要,从而实现了更复杂的灵活动作。
展望未来,团队计划提升HPT处理未标注数据的能力,类似于先进的语言模型。他们的终极愿景是创建一个可以下载并适用于任何机器人的通用机器人“大脑”,无需额外训练。
尽管目前还处于早期阶段,团队对于规模化的前景充满信心,认为这可能会引领机器人策略领域的突破,类似于大型语言模型所带来的进展。