NVIDIA研究所开发的新型AI代理可以教机器人复杂技能,它已经训练了一个机械手进行快速的笔旋转技巧 – 这是机器人首次能像人类一样表现。
上面视频中展示的惊人的手法变换只是机器人已经学会熟练完成的近30项任务之一,这多亏了Eureka,它能自主编写奖励算法来训练机器人。
Eureka还教会了机器人打开抽屉和橱柜、投掷和接球以及操纵剪刀等其他任务。
今天发布的Eureka研究包括一篇论文和项目的AI算法,开发人员可以使用NVIDIA Isaac Gym(一种用于强化学习研究的物理模拟参考应用程序)来进行实验。Isaac Gym建立在NVIDIA Omniverse之上,这是一个基于OpenUSD框架构建3D工具和应用程序的开发平台。Eureka本身由GPT-4大型语言模型提供支持。
NVIDIA的AI研究高级主管兼Eureka论文的作者Anima Anandkumar表示:“强化学习在过去十年中取得了令人印象深刻的胜利,但仍然存在许多挑战,例如奖励设计,这仍然是一个反复试验的过程。” “Eureka是朝着开发新算法的第一步,这些算法集成了生成性和强化学习方法来解决困难的任务。”
AI训练机器人 根据该论文,Eureka生成的奖励程序(使机器人能够进行试错学习)在80%以上的任务中胜过专家人类编写的程序。这为机器人带来了平均超过50%的性能提升。
由Eureka教授的机器人手臂打开抽屉。
AI代理利用GPT-4 LLM和生成性AI编写奖励机器人进行强化学习的软件代码。它不需要针对特定任务的提示或预定义的奖励模板-并且可以轻松地纳入人类反馈,以更准确地修改其奖励,以获得更符合开发者愿景的结果。
使用Isaac Gym中的GPU加速模拟,Eureka可以快速评估大批量奖励候选人的质量,从而进行更有效的培训。
然后,Eureka构建了一个从培训结果中提取关键统计数据的摘要,并指导LLM改进其奖励功能的生成。通过这种方式,AI在自我改进。它教会了各种机器人-四足动物、双足动物、四旋翼飞行器、灵巧的手、合作机器人手臂等等-完成各种任务。
研究论文提供了20项Eureka训练任务的深入评估,基于开源的灵巧性基准,要求机器人手展示广泛的复杂操纵技能。
在使用NVIDIA Omniverse生成的可视化中展示了九个Isaac Gym环境的结果。
人形机器人通过Eureka学习奔跑姿势。
NVIDIA的高级研究科学家之一,该项目的贡献者Linxi“Jim”Fan表示:“Eureka是大型语言模型和NVIDIA GPU加速模拟技术的独特组合。” “我们相信Eureka将能够实现灵巧的机器人控制,并为艺术家提供一种新的方法来制作物理上逼真的动画。”
这是一项突破性的工作,一定会让开发者的思维旋转起来,思考可能性,增加了最近NVIDIA研究的进展,如Voyager,这是一个用GPT-4构建的AI代理,可以自主玩Minecraft。
NVIDIA研究包括全球数百名科学家和工程师,团队专注于包括AI、计算机图形、计算机视觉、自动驾驶汽车和机器人技术在内的主题。