在过去的一两年中,人工智能领域取得了飞速发展,尤其是在被称为“生成性人工智能”的领域。能像真人一样写作的聊天机器人、图像生成算法以及逼真的语音生成器的演示都已变得司空见惯,并且普通人也能轻易接触到。 这种扩张部分是由大型基础模型(Foundation Models,简称FM)的崛起所推动的——这些庞大的人工智能系统通过从公共互联网上抓取原始数据来接受训练。这些模型通常拥有数百万或数十亿的参数,并且往往具备所谓的“突现行为”(Emergent Behavior)——即执行直接培训之外的任务的能力。因此,它们可以被用于多种应用,作为其他算法的基础。 像许多科技行业内外的人一样,我们对这种快速进展感到印象深刻和兴奋。我们想探索这些模型是如何工作的,以及它们可能如何影响机器人技术的发展。今年夏天,我们的团队开始利用FM为机器人应用制作一些概念验证演示,并在一次内部黑客马拉松中对它们进行扩展。 特别是,我们对使用基础模型作为自主工具的Spot演示感兴趣——也就是说,基于FM的输出实时做出决策。像ChatGPT这样的大型语言模型(LLMs)基本上是非常大而且能力非常强大的自动完成算法;它们接收一系列文本并预测下一部分文本。我们被LLMs表现出的角色扮演、复制文化和细微差别、形成计划以及保持一致性的能力所启发,同时也受到最近发布的可以为图像加标题并回答关于它们的简单问题的视觉问答(VQA)模型的启发。 Figure : the hardware setup for the tour guide: 1 – Spot EAP 2; 2 – Respeaker V2; 3 – Bluetooth Speaker; 4 – Spot Arm and gripper camera 通过这个项目,我们找到了一种方法,可以将几个通用人工智能系统的结果结合起来,并利用Spot的SDK在真实的机器人上产生令人兴奋的成果。许多其他的学术界或工业界的机器人小组也在探索类似的概念(更多示例请参见我们的阅读列表)。 我们很高兴能继续探索人工智能和机器人技术的交叉点。这两种技术是完美的搭档。机器人为大型基础模型提供了一个绝佳的方式,使其能在真实世界中得到“落地”。同样,这些模型可以提供文化背景、一般常识知识和灵活性,这对许多机器人任务都可能是有用的——例如,仅通过与机器人对话就能指派任务给它,这将有助于降低使用这些系统的学习曲线。 一个机器人能够通常理解你说的话,并将其转化为有用行动的世界,可能并不遥远。这种技能将使机器人在与人类一起工作时表现得更好——无论是作为工具、向导、伙伴还是表演者。
Author: aitrendtrackers@rengongzhineng.io
艺术家可以通过从内部破坏艺术生成器来抵制AI的威胁
艺术家们如何反击那些想要利用他们的作品来训练AI的科技公司的随意行为?一个研究小组有了一个新颖的想法:将一种微妙的“毒药”植入艺术品本身,从内部消灭AI艺术生成器。 芝加哥大学的计算机科学教授,同时也是AI数据挖掘行为的直言不讳的批评家Ben Zhao向《麻省理工科技评论》透露,他和他的团队开发的新工具,“夜shade”,正如其名—任何使用图像训练AI的模型都会被“毒害”。到目前为止,艺术家对抗AI公司的唯一选择是起诉他们,或者希望开发者遵守艺术家自己的退出请求。 这种工具可以在像素级别操纵图像,以一种肉眼无法检测的方式破坏它。一旦有足够多的这些扭曲图像被用来训练AI,例如Stability AI的Stable Diffusion XL,整个模型就开始崩溃。在团队将数据样本引入SDXL的一个版本后,模型开始将“汽车”的提示解释为“牛”。狗被解释为猫,而帽子则变成了蛋糕。同样,不同的风格出现了所有奇特的东西。对“卡通”的提示提供了让人联想到19世纪印象派的艺术。 它还起到了保护个别艺术家的作用。如果你要求SDXL以著名的科幻和奇幻艺术家迈克尔·惠兰的风格创作一幅画,被毒害的模型创造的东西与他们的作品相去甚远。 根据AI模型的大小,你需要数百或更可能是数千张被毒害的图像来创建这些奇怪的幻觉。不过,这可能会迫使所有开发新的AI艺术生成器的人在使用从互联网上刮来的训练数据之前三思而后行。 Stability AI的一位发言人告诉Gizmodo,“Stability AI致力于公平代表和减少偏见”,并补充说:“当我们开始训练SDXL 1.0时,我们努力给模型提供一个更加多样化和广泛的数据集。这包括使用复杂的筛选器,创造一个更具全球代表性的常见项目结果。我们总是在努力学习和改进,并希望后续模型将更有效地避免偏见。” 艺术家们有什么工具来对抗AI训练? 赵教授也是帮助制作Glaze的团队的负责人,Glaze是一种可以创建一种“风格斗篷”的工具,用来掩盖艺术家的图像。它以类似的方式扰乱图像上的像素,从而误导尝试模仿艺术家及其作品的AI艺术生成器。赵教授告诉《麻省理工科技评论》,Nightshade将作为Glaze的另一种工具集成,但也将在开源市场上发布,以供其他开发者创建类似的工具。 还有其他研究人员发现了一些方法可以使图像免疫AI的直接操纵,但这些技术并没有阻止最初用于训练艺术生成器的数据抓取技术。Nightshade是迄今为止为艺术家提供保护作品机会的少数,也可能是最具战斗性的尝试之一。 也有一种新兴的努力试图区分真实图像和AI创造的图像。谷歌旗下的DeepMind声称,它已经开发出一种水印ID,可以识别一幅图像是否由AI创建,无论它可能如何被操纵。这些水印实际上在做与Nightshade相同的事情,以一种肉眼无法察觉的方式操纵像素。一些最大的AI公司已承诺在未来给生成的内容加上水印,但像Adobe的元数据AI标签这样的当前努力实际上并没有提供任何真正的透明度。 Nightshade对于那些积极使用艺术家作品来训练他们的AI的公司可能是毁灭性的,比如DeviantArt。DeviantArt社区已经对站点内置的AI艺术生成器有了非常负面的反应,如果足够多的用户毒害他们的图像,它可能会迫使开发者手动找到每一个被毒害图像的实例,否则就会重置整个模型的训练。 不过,该程序将无法更改任何现有模型,如SDXL或最近发布的DALL-3。这些模型都已经接受了艺术家过去作品的训练。像Stability AI、Midjourney和DeviantArt这样的公司已经因使用他们的版权作品来训练AI而被艺术家起诉。还有许多其他诉讼攻击像谷歌、Meta和OpenAI这样的AI开发者,因为他们未经许可使用版权作品。公司和AI支持者辩称,由于生成性AI根据那些训练数据创造新内容,所有那些书籍、论文、图片和艺术品在训练数据中都属于合理使用。 OpenAI的开发者在他们的研究论文中指出,他们最新的艺术生成器可以创造更真实的图像,因为它是根据该公司自己的定制工具生成的详细字幕进行训练的。该公司没有透露有多少数据实际上进入了其新的AI模型的训练(大多数AI公司都不愿意透露任何关于他们的AI训练数据的信息),但随着时间的推移,抵制AI的努力可能会升级。随着这些AI工具变得更加先进,它们需要更多的数据来支持它们,艺术家们可能愿意采取更大的措施来对抗它们。
马克·扎克伯格要对冲山姆·奥特曼和OpenAI了
在AI领域的激烈竞争中,一个不容忽视的战场正在迅速展开。自从山姆·奥特曼(Sam Altman)与顶尖企业高管在白宫的一次重要会议上齐聚一堂后,马克·扎克伯格(Mark Zuckerberg)的缺席引发了行业的广泛关注。然而,这只是表象。实际上,Meta(前Facebook)正在积极布局,力图通过推出与OpenAI直接竞争的产品,重新夺回行业的领导权。 近期,Meta推出了一系列与OpenAI的产品直接竞争的创新,标志着双方之间竞争的加剧。尤其是Meta推出的Llama 2,这一开源大型语言模型,不仅挑战了OpenAI的GPT-4,而且在自定义功能方面更具优势。不止于此,Meta还在其即时通讯应用中集成了多达二十多个功能各异的聊天机器人,与ChatGPT形成对峙。同时,扎克伯格还强调了一个更为宽松的AI研究环境的重要性,这与OpenAI近期对AI管控的呼吁形成鲜明对比。 扎克伯格的这一系列动作似乎超出了商业竞争的常规范畴。事实上,OpenAI在消费者市场的强势表现,以及在AI研究领域的影响力,都对Meta构成了直接威胁。在此背景下,Meta选择了其最擅长的策略:全面进攻。 值得注意的是,当OpenAI发布了ChatGPT时,这一事件无疑触动了Meta的神经。毕竟,即时通讯一直是Meta的核心业务板块,拥有WhatsApp、Messenger和Instagram等亿万用户的平台。公司对聊天机器人领域的早期尝试虽然未能成功,但这一愿景从未改变。 ChatGPT的成功不仅实现了扎克伯格一直以来的商业梦想,而且在短时间内成为了增长最快的消费产品。这一变化让Meta感到了前所未有的压力。因为,如果用户转而大量使用ChatGPT,他们可能就会减少在Meta旗下应用上的时间。此外,OpenAI似乎正在构建一个全新的、以聊天为中心的计算平台,这将深刻改变用户的互联网使用习惯。对Meta来说,这不仅是一个挑战,也是一个机会。 面对这一局面,Meta并没有简单地复制对手的策略。相反,它推出了多个专门的聊天机器人,涵盖了从法律咨询到娱乐内容的各个方面。这一战略的核心在于,未来的技术将更加聚焦于特定的应用场景。而在这一点上,Meta已经取得了初步的成功。 同时,Meta并没有停止对OpenAI核心技术的挑战。通过推出Llama2,Meta不仅在开源AI领域取得了领先,而且正在加速AI技术的普及和应用。通过这一策略,Meta不仅巩固了自身的市场地位,还对整个行业产生了深远的影响。在不断变化的技术格局中,这场看似背后进行的较量实际上正在塑造着AI行业的未来。
来看看这些新宠儿:‘视频转文字’和‘Pegasus-1(80B)’!
产品:Twelve Labs正式发布他们最新的视频语言基础模型Pegasus-1,并推出一系列全新的视频转文字API(Gist API, Summary API, Generate API)。 产品和研究理念:与许多将视频理解重构为图像或语音理解问题的公司不同,Twelve Labs采取了“视频优先”策略,有四个核心原则:高效的长篇视频处理、多模式理解、视频本地嵌入、视频和语言嵌入之间的深度对齐。 新模型:Pegasus-1大约有800亿个参数,包含三个共同训练的模型组件:视频编码器、视频语言对齐模型、语言解码器。 数据集:Twelve Labs收集了超过3亿个多样化、精心策划的视频文本对,是进行视频语言基础模型训练的最大视频文本语料库之一。这份技术报告基于对包含3500万视频文本对和超过10亿图像文本对的10%子集进行的初步训练运行。 与SOTA视频语言模型的性能比较:与之前的最先进(SOTA)视频语言模型相比,Pegasus-1在MSR-VTT数据集(Xu等人,2016)上显示出61%的相对改进,在视频描述数据集(Maaz等人,2023)上提高了47%,通过QEFVC质量得分(Maaz等人,2023)进行测量。 在我们提出的评估指标VidFactScore上,它在MSR-VTT数据集上显示出20%的绝对F1得分增长,在视频描述数据集上提高了14%。 与ASR+LLM模型的性能比较:ASR+LLM是解决视频到文本任务的广泛采用方法。与Whisper-ChatGPT(OpenAI)和领先的商业ASR+LLM产品相比,Pegasus-1在MSR-VTT上的表现提高了79%,在视频描述数据集上提高了188%。在VidFactScore-F1上,它在MSR-VTT数据集上显示25%的绝对收益,在视频描述数据集上增加了33%。 访问Pegasus-1的API:这是等待名单上的Pegasus驱动的视频到文本API的链接。 更多请访问 https://app.twelvelabs.io/blog/introducing-pegasus-1
谷歌宣布新工具,助用户核实图片真伪!
社交媒体上对图片和视频的背景使用已经导致了危险的误信息传播。谷歌现宣布将提供更多关于图片的背景信息,以防止错误信息的传播。 新的一套工具包括查看图片的历史、元数据以及用户在不同网站上使用它的上下文。谷歌今年早些时候宣布了这些“关于本图像”的功能,现在它已经向全球所有使用英语的用户开放。 用户可以了解谷歌搜索首次“见到”图片的时间,以理解上下文的新近性。该工具还让用户了解其他人在其他网站上是如何描述该图片的,以帮助揭穿任何虚假声明。 谷歌表示,如果有的话,用户还可以看到元数据,包括指示它是否为AI生成图像的字段。该公司说,它标记了所有由谷歌AI创建的图像。十月,Adobe和Microsoft、Nikon、Leica等公司一起,发布了一个符号,明确标记AI生成的图像。 通过点击谷歌图片结果上的三点菜单,可以使用新的图片工具。您也可以通过点击三点菜单中的“关于此结果”工具上的“了解更多关于此页面”的选项来访问它。谷歌指出,它正在探索更多的访问方式。 此外,谷歌今天还宣布,批准的记者和事实核查员将能够上传或复制图片的URL,以在他们自己的工具中了解更多关于它们的信息,这要借助FaceCheck Claim Search API。今年六月,该公司开始测试Fact Check Explorer工具的功能。这为事实核查员提供了探索与特定图片相关的事实检查、参考和其他细节的能力。 更重要的是,该公司正在试验生成性AI来帮助描述诸如不熟悉的卖家页面或未知博客等来源。谷歌说,选择使用搜索生成体验(SGE)的用户将显示AI生成的关于网站的信息,在“更多关于此页面部分”。它补充说,生成的信息将包括页面或网站在其他“高质量”网站上的引用。通常,当没有维基百科或谷歌知识图谱的详细信息或概述时,谷歌的AI会填充信息。 鉴于技术的崛起已经使用户更容易使用生成性AI创建不同的图片,各个公司正在研发技术以提供更多关于图片的信息。六月,Adobe发布了一个开源工具包,帮助应用程序和网站验证图片凭据。此外,X推出了其众包事实检查程序的Community Notes,用于图片和视频。
Nvidia 发力,推出基于 Arm 架构的 PC 芯片,直接向英特尔发起全新挑战
Nvidia 在AI芯片界称王称霸,现在它的新目标是英特尔长期霸占的个人电脑市场! 有料的小道消息来了!据内部人士爆料,Nvidia 正在悄悄儿地设计中央处理器,不仅能跑微软的Windows系统,而且还采用了 Arm Holdings 的黑科技哦。这一大动作是微软一个宏伟计划的一部分,目的是挑战苹果在Mac电脑市场的快速增长。根据市场调查数据,自从苹果发布自家的Arm芯片以来,它的市场份额几乎翻了个倍! 而且,风传Advanced Micro Devices 也不甘示弱,计划加入战局,使用Arm技术为PC制造芯片。如果一切按计划进行,我们可能在2025年就能见到由Nvidia和AMD制造的PC芯片了。他们将和高通站在一起,高通从2016年开始就为笔记本电脑制造基于Arm的芯片。而且,高通还有一款由前苹果工程师设计的顶级芯片,详情将在下周二的活动上揭晓,到时微软的大佬们也会到场。 Nvidia和Intel的股价纷纷起舞,市场反应强烈。不过,当事公司的发言人都守口如瓶,拒绝评论。这一举措可能会对英特尔长期主导的PC行业造成冲击,特别是苹果的自制芯片以惊人的电池寿命和高速性能吸引了大批粉丝。微软的头头们也看在眼里,想要效仿苹果的成功。 回顾历史,微软曾在2016年与高通合作,将Windows系统带到Arm的处理器架构上。并且,他们还给了高通一个独家合作机会,一直到2024年。但显然,微软不想把鸡蛋都放在一个篮子里,合同结束后,市场将向其他公司开放。“微软不想再像90年代那样依赖英特尔,他们需要更多的选项。”金融和战略咨询公司D2D Advisory的CEO说。微软还在推动各大芯片制造商加强人工智能功能,为未来的软件,比如它们的Copilot,铺平道路。 但这条路并不平坦。长久以来,软件开发商们已经投入了大量资源,专为英特尔和AMD的x86架构编写代码。而这些代码并不能在基于Arm的芯片上自动运行,这对整个行业来说是个大挑战。与此同时,英特尔并未坐以待毙,也在自家的芯片中整合了AI功能,甚至展示了能够运行类似ChatGPT功能的笔记本电脑。 现在,一切还处于风声鹤唳的阶段,英特尔和AMD怎么应对,我们拭目以待!而关于AMD加入基于Arm的PC市场的更多细节,也是从芯片界的小道消息中得知的。
Google悄悄筹备:一款秘密AI工具即将震惊业界?
猜猜看,Google可不只是在搞Gemini!最新爆料来了,他们似乎还在酝酿一个叫Stubbs的超酷工具,属于Google Makersuite的一部分。要是真的如泄露的那样,那可太棒了,大家可以不写代码就能视觉化地构建自己的AI原型应用,想想就有点小激动呢! 这中间的玄机是什么? Stubbs的出现,简直就是开启创意之门!只要几下点击,AI应用的雏形就能出现在你面前。不仅如此,还听说能发布、分享,甚至还能改动别人的作品呢!而Gemini,这个大家翘首以盼的多模式AI,可能就是Makersuite和Google Vertex AI的幕后英雄。还有更疯狂的是,它居然能回答带图片的问题!别忘了Jetway,它或许就是Gemini的一部分,能产生HTML内容哦。 为啥这事儿值得一提? 告诉你,问那些用大型语言模型(LLMs)做开发的人,他们绝对更爱OpenAI的API,因为用起来简单得很!现在,Stubbs的画面流出来了,看起来创建GenAI应用就像是玩儿游戏一样直观有趣!如果这一切属实,Google的AI模型可就要火了!当然,现在这些都只是小道消息,咱们还是耐心等待官方发话吧!
随着AI在更多行业的普及,哪些商业模式可能会变得过时
随着某些容易被AI游戏化或限制的商业模式的日益普及,我们正从一个数据分析需要长周期(分析师需要大量时间来运行查询、分析然后以人们能理解的方式呈现发现)的世界转向一个实时优化和洞察的新世界(AI将挖掘数据以发现洞察并做出实时的优化决策)。但是,当企业开始自我优化时,各种疯狂的事情可能会开始发生(或至少AI会建议这样做)。我们能想到哪些疯狂的例子?对于约会应用,两个人的完美匹配增加了流失率,Tinder或Bumble会限制AI的效率,以免产品变得“不可持续地有效”吗?或者在音乐流媒体世界:由于Spotify按歌曲支付给艺术家,它会自动优化其算法以偏爱更长的歌曲,同时考虑每个客户每天收听的分钟数吗?随着AI在优化方面变得非常出色,一些行业和商业模式将需要改变。 基于时间的商业模式可能会因为基于价值的补偿改革而受到破坏。今天,大多数设计师、律师以及许多其他行业继续按小时收费,但由AI驱动的工作流程中的阶梯式改进可能会打乱现状。让我们首先考虑交付给客户的差异化价值的最终来源:它较少是“时间”,更多是“经验”。当然,像院子工作或割草一样的一些例外情况,行业经验可能在交付的价值中不那么能够区分,但我们这里讨论的重点是输出范围长而多样的行业。在这些领域,真正重要的差异因素是一个人的多年经验、通过正规教育和实践磨练的技能、一个人的品味和直觉、一个人的创造力、一个人的人际关系网络,甚至是一个人通过大量过往经验磨练的专有数据和算法。在这样的世界里,基于时间的计费简直不再可行,除非这些服务所衍生的价值也被压缩了好几倍(这不太可能)。律师、设计师、顾问、自由职业者等的经典基于时间的计费模式现已正式过时。那么,在一个我们不再按小时计费的未来,价值可能会以什么方式被捕获呢?也许有一个新的“价值”真相来源,通过第三方计费服务来确定各专业行业任务的价格。就像医疗程序的计费代码和市场定价一样,这些价格可以与行业进行协商,并可能根据一个人的工作经验年限而有所不同。或者,也许我们将进入一个更加客观和可衡量的基于结果的补偿时代?在某些行业里,我们开始为某些事物支付较少的费用,也许我们会以数量来弥补它?这里只是分享一些早期和未成形的想法,但突出的含义是,在AI时代,时间神奇地压缩了,新的定价模式迫切需要取代基于时间的和凭空想象的定价。 AI将威胁购买决策中的主观性,以及品牌和营销的影响力。随着我们对代理辅助体验的指导信任的增加,品牌、推荐和购买决策中的关系的影响力是否会减弱?无论我们是购买电池、运动鞋、薯片还是厨房用具,我们常常受到的影响超过我们愿意承认的品牌感知,而不是基于事实的比较。然而,随着你的“AI代理”越来越了解你——通过每一个个人偏好和先前的购买以及每一个在线评论和消费者报告的判定——你可能会开始更多地信任你的代理的指导,而不是任何其他信号。也许在企业中,后果更加明显,那里的采购流程常常受到人类情感、懒惰和先前关系的影响,这是任何首席财务官的持久恐惧。有多少购买决策是出于错误的原因——比如通过与销售人员一起观看足球比赛和享用牛排晚餐而加强的关系,而不是解决方案的价值和质量?像Globality这样的公司(在我的投资组合中,正在处理企业采购)和许多其他公司都在利用AI彻底改变公司的每一个职能。如果你总体上看这波公司,他们正在处理决策制定中主观性的巨大成本,并且旨在产生更好、更具成本效益的解决方案。最终,提升产品精英制解决了消费者和企业购买世界中的问题。AI威胁到由人为错误和偏见污染的主观决策制定,并将迎来一个最好的产品以最好的价值实际上可能赢得胜利的时代。这对买家来说是一个胜利,但对于那些未能创新并不断优化的卖家来说,可能会非常具有破坏性。 传统娱乐创作的商业将会发展,但不是我们预期的那样。最近,特别是来自代表演员和编剧的工会,人们非常关注AI的后果和潜在的工作流失。然而,我开始将娱乐的未来视为更多的是一个“核心和外围”模式,其中核心(好莱乐 – 以及所有与原创故事创作相关的参与者)只会变得更加强大和高效,而外围(用户生成的内容、未经授权的续集和长尾衍生产品)将增长100倍。随着每个品牌都用AI生成的内容充斥我们的意识,我们将比以往任何时候都更渴望故事、意义和原创性。AI的效率降低了内容创作的成本,所以我们可以承担更多的创意风险。而不是批准五个想法,也许我们可以批准十五个?也许好莱乐会花更少的时间重播安全的剧本(续集和熟悉的故事情节),而是花更多的时间发展新的特许经营权和富有想象力的故事情节?通过AI,核心可以变得好10倍,外围将增长100倍。这里的商业模式破坏是传统工作室中资金的花费。为什么不将衍生内容(续集、动画短片分支等)外包给一群选择的长尾创作者和利用AI的粉丝,然后将节省的资金重新分配给核心?我对AI在各行各业的影响的一般论点是:我们需要重视人类的独创性,并为创造性的头脑释放更高层次任务的能力。 帮助将最佳人才与正确机会相匹配的机制将推动更多的创造性精英制 – 并挑战“老男孩”网络。我一直对创造力感到非常沮丧的一大原因就是“运气”在多大程度上决定了伟大的想法是否能够问世。在好莱乐,你需要得到一个命中注定的经纪人介绍。在许多其他领域,你需要认识正确的猎头或与正确的机构建立联系,这往往更多地取决于你认识谁,而不是你的才华和想法的优点。那么,想象一下一个世界,在这个世界里,知识产权变得更加“开放”,以便更长的人才可以发挥作用,但是有保护措施(这与我们上面讨论的外围类型的内容有关)?也许像Marvel这样的品牌可以邀请100位热情的创作者超越工作室的墙壁,使用AI模型与他们的角色互动,探索新的情节想法?也许AI将帮助用户生成的内容不仅在质量上得到改善,而且还能从更高信号的网络策展人那里获得曝光?到目前为止,社交平台已经根据“关键群体”认为什么(点赞的数量)而不是“可信群体”认为什么(实际上喜欢内容的人是谁,他们作为品味制定者有多可靠)来展现内容。
NVIDIA 研究所的重大突破给机器人学习带来全新转机!
NVIDIA研究所开发的新型AI代理可以教机器人复杂技能,它已经训练了一个机械手进行快速的笔旋转技巧 – 这是机器人首次能像人类一样表现。 上面视频中展示的惊人的手法变换只是机器人已经学会熟练完成的近30项任务之一,这多亏了Eureka,它能自主编写奖励算法来训练机器人。 Eureka还教会了机器人打开抽屉和橱柜、投掷和接球以及操纵剪刀等其他任务。 今天发布的Eureka研究包括一篇论文和项目的AI算法,开发人员可以使用NVIDIA Isaac Gym(一种用于强化学习研究的物理模拟参考应用程序)来进行实验。Isaac Gym建立在NVIDIA Omniverse之上,这是一个基于OpenUSD框架构建3D工具和应用程序的开发平台。Eureka本身由GPT-4大型语言模型提供支持。 NVIDIA的AI研究高级主管兼Eureka论文的作者Anima Anandkumar表示:“强化学习在过去十年中取得了令人印象深刻的胜利,但仍然存在许多挑战,例如奖励设计,这仍然是一个反复试验的过程。” “Eureka是朝着开发新算法的第一步,这些算法集成了生成性和强化学习方法来解决困难的任务。” AI训练机器人 根据该论文,Eureka生成的奖励程序(使机器人能够进行试错学习)在80%以上的任务中胜过专家人类编写的程序。这为机器人带来了平均超过50%的性能提升。 由Eureka教授的机器人手臂打开抽屉。 AI代理利用GPT-4 LLM和生成性AI编写奖励机器人进行强化学习的软件代码。它不需要针对特定任务的提示或预定义的奖励模板-并且可以轻松地纳入人类反馈,以更准确地修改其奖励,以获得更符合开发者愿景的结果。 使用Isaac Gym中的GPU加速模拟,Eureka可以快速评估大批量奖励候选人的质量,从而进行更有效的培训。 然后,Eureka构建了一个从培训结果中提取关键统计数据的摘要,并指导LLM改进其奖励功能的生成。通过这种方式,AI在自我改进。它教会了各种机器人-四足动物、双足动物、四旋翼飞行器、灵巧的手、合作机器人手臂等等-完成各种任务。 研究论文提供了20项Eureka训练任务的深入评估,基于开源的灵巧性基准,要求机器人手展示广泛的复杂操纵技能。 在使用NVIDIA Omniverse生成的可视化中展示了九个Isaac Gym环境的结果。 人形机器人通过Eureka学习奔跑姿势。 NVIDIA的高级研究科学家之一,该项目的贡献者Linxi“Jim”Fan表示:“Eureka是大型语言模型和NVIDIA GPU加速模拟技术的独特组合。” “我们相信Eureka将能够实现灵巧的机器人控制,并为艺术家提供一种新的方法来制作物理上逼真的动画。” 这是一项突破性的工作,一定会让开发者的思维旋转起来,思考可能性,增加了最近NVIDIA研究的进展,如Voyager,这是一个用GPT-4构建的AI代理,可以自主玩Minecraft。 NVIDIA研究包括全球数百名科学家和工程师,团队专注于包括AI、计算机图形、计算机视觉、自动驾驶汽车和机器人技术在内的主题。
MemGPT
在MemGPT中,固定上下文的LLM(大型语言模型)处理器通过分层的内存系统和一套功能得到增强,使其能够管理自己的内存。主上下文是LLM的固定长度输入。在每个处理周期,MemGPT解析LLM的文本输出,并且可以选择放弃控制或执行函数调用,用于在主上下文和外部上下文之间移动数据。当LLM生成函数调用时,它可以要求立即返回执行,以将函数链接在一起。在产生“让步”情况时,除非遇到下一个外部事件触发器(例如用户消息或预定的中断),否则LLM不会再次运行 大型语言模型(LLM)在人工智能领域掀起了一场革命,但其受限的上下文窗口在一些任务,如延长对话和文档分析中,限制了其效用。为了克服这一局限,研究人员提出了一种名为“虚拟上下文管理”的技术,其灵感来源于操作系统中的分层内存系统,通过在高速和低速内存之间移动数据,营造出大量内存资源的假象。 基于此技术,研究团队开发了MemGPT(Memory-GPT),这是一种智能管理不同内存层级的系统,旨在在LLM有限的上下文窗口内有效提供扩展的上下文,并利用中断来管理系统与用户之间的控制流。该系统的设计灵感来自操作系统,已在两个领域进行了评估:文档分析和多次会话聊天。在文档分析任务中,MemGPT能够分析大幅超出LLM上下文窗口的大型文档;在多次会话聊天任务中,MemGPT可创建可以记忆、反思,并通过与用户长期互动而持续进化的对话代理。 研究团队在 https://memgpt.ai 网站上分享了MemGPT的代码和实验数据,以便其他研究者和从业者参考和使用。