微软聘请了谷歌DeepMind的联合创始人、人工智能初创企业Inflection的首席执行官穆斯塔法·苏莱曼(Mustafa Suleyman),来领导一个新的面向消费者的AI部门。 苏莱曼,这位2010年在伦敦共同创立DeepMind的英国企业家,将向微软首席执行官萨提亚·纳德拉(Satya Nadella)汇报。微软在周二宣布,他将启动一个名为Microsoft AI的部门,该部门将包括面向消费者的产品,如微软的Copilot、Bing、Edge和GenAI。 这是微软利用生成式AI热潮的最新举措。它在OpenAI(ChatGPT的开发者)上投资了130亿美元,并迅速将其技术集成到微软产品中。 微软对OpenAI的投资使其在硅谷部署AI的竞赛中取得了早期领先,使其最大的竞争对手谷歌难以追赶。微软还投资了包括法国开发商Mistral在内的其他AI初创公司。 它一直在其产品中推出AI助手,如Windows、Office软件和网络安全工具。苏莱曼的部门将致力于包括将AI版本的Copilot集成到其Windows操作系统中,以及增强其Bing搜索引擎中生成式AI的使用的项目。 纳德拉在周二的一份声明中说:“我已经认识穆斯塔法好几年了,一直非常钦佩他作为DeepMind和Inflection的创始人,以及作为一个有远见、制造产品的人和建立追求大胆任务的先锋团队的人。” DeepMind于2014年被谷歌以5亿美元收购,这是大型科技公司对一个初创AI实验室的首批大笔投注之一。几年后,该公司因其在英国医疗部门的一些项目引起争议,包括一项被政府监管机构发现获得了不适当访问患者记录的工作。 苏莱曼作为公司的主要公共面孔,于2019年被暂停职务。DeepMind员工抱怨他的管理风格过于激进。苏莱曼当时回应员工的抱怨时说:“我真的搞砸了。我非常苛求并且相当无情。” 他几个月后转到谷歌,负责AI产品管理。2022年,他加入硅谷风险投资公司Greylock,并在当年晚些时候启动了Inflection。 微软还将聘请Inflection的大部分员工,包括Inflection的联合创始人兼首席科学家Karén Simonyan,他将成为AI团队的首席科学家。微软没有明确表示将接收多少员工,但表示其中包括AI工程师、研究员和大型语言模型构建者,他们在过去五年中设计和共同撰写了“许多在推进AI方面最重要的贡献”。 作为OpenAI的竞争对手,Inflection将把其焦点从消费者聊天机器人Pi转向,改为向企业销售企业AI软件,根据其网站上的一份声明。Sean White,曾担任过各种技术角色,加入成为其新的首席执行官。 Inflection的第三位联合创始人,LinkedIn的创始人和执行董事长Reid Hoffman将继续留在Inflection的董事会上。Inflection在6月份筹集了13亿美元,将该集团的估值定在约40亿美元,这是AI初创企业在该领域兴趣爆炸式增长中的最大一笔融资之一。 这个新单位标志着微软的一个重大组织变革。其网络服务总裁Mikhail Parakhin及其整个团队将转移,向苏莱曼汇报。 纳德拉说:“我们有一个真正的机会建立曾经被认为不可能的技术,并确保AI的好处能够安全、负责任地惠及地球上的每个人和每个组织。” 美国和欧洲的竞争监管机构一直在审查微软和OpenAI之间的关系,这是对AI投资的更广泛调查的一部分。
NVIDIA 推出地球-2云平台,使用AI超级计算机的模拟技术,预测整个地球的气候变化
为了应对气候变化引起的极端天气模式所导致的经济损失日益增加,NVIDIA推出了地球-2,这是一款革命性的气候数字孪生云平台。在GTC大会上公开的地球-2,提供了前所未有的API,设计用于模拟和可视化天气和气候,为更准确的预测和及时的警报铺平了道路。 公司在加利福尼亚州圣何塞举行的NVIDIA GTC 2024活动上,由NVIDIA首席执行官Jensen Huang在主题演讲中宣布了地球-2。地球-2最初于2021年宣布,现在已经准备就绪。 “气候灾难现在已成为新常态——历史性干旱、灾难性飓风和世代洪水在新闻中频频出现,”黄说。“地球-2云API力求帮助我们更好地准备应对——并激发我们采取行动缓解——极端天气。”地球-2本身是可以在各种超级计算机上运行的软件,其详细预测依赖于各合作伙伴投入的计算能力。长远目标是预测未来几十年的气候变化。 地球-2平台,作为NVIDIA CUDA-X微服务软件的一部分,利用先进AI模型和CorrDiff生成式AI模型,产生的高分辨率模拟比当前数值模型快1000倍且更节能3000倍。NVIDIA使用Omniverse帮助设计数据中心的数字孪生。黄在舞台上表示,灾害造成的大部分损害集中在世界的某些部分。 “在科学计算中,气候研究仍然是一项巨大的挑战,”NVIDIA模拟副总裁Rev Lebaredian在新闻发布会上表示。“我们宣布了我们的地球2平台,用于交互式的高分辨率气候和天气预测。极端天气事件每年造成1400亿美元的经济损失。负担得起的气候模拟太过宏观。” 他补充说:“我们需要千米级别的模拟来真正产生影响。更长尺度的模拟成本高昂,需要百万倍的计算量。[这是]一个云平台,供政府机构、天气预报员和预测机构加速天气预测的部署。” 为了详细说明地球2,NVIDIA正在开发可以在不同超级计算机上运行的软件,世界各地的客户或政府机构将决定将使用哪种超级计算机。NVIDIA正在展示新的服务,能够计算地球气候的详细模型,比今天的数值天气预测过程快1000倍,更节能2000倍,Lebaredian说。 NVIDIA提供加速模拟作为一项服务,具有更好的性能、能源效率、更低的成本和由Omniverse Cloud API提供支持的更好的可视化。地球-2 API让用户能够创建从全球大气条件到局部天气现象,如台风和湍流的交互式模拟,使他们能够在几秒钟内提供实时预报和警告。 台湾中央气象局是最早采用地球-2的扩散模型来增强台风预测的机构之一,旨在通过早期疏散最小化伤亡。通过利用NVIDIA的先进生成式AI技术,地球-2承诺将革新灾害准备和应对策略,有潜力在易受极端天气事件影响的地区挽救生命。 此外,地球-2与NVIDIA Omniverse集成,使像The Weather Company这样的组织能够开发包含真实天气数据的3D工作流程,增强其数字孪生环境,以更好地分析和模拟天气影响。The Weather Company计划利用地球-2 API创建更高分辨率的模拟,并开发新的天气建模产品,最终改善企业客户的天气情报服务。 抱歉,让我来补全一下。 地球-2 API的早期采用者包括像Spire和Meteomatics这样的天气分析平台,以及探索气候技术解决方案的初创公司。借助NVIDIA DGX Cloud的强大支持,地球-2为气候和天气解决方案提供了全栈加速服务,包括最佳AI流水线和GPU加速的数值天气预测模型。 通过地球-2,NVIDIA旨在赋能全球组织更深入地理解、分析和缓解天气和气候变化的影响,这标志着在对抗环境挑战的斗争中迈出了重要的一步。它以两公里的尺度可视化和模拟天气。 当与气候技术行业(价值200亿美元)的公司拥有的专有数据结合使用时,地球-2的应用程序编程接口(API)能够在几秒钟内提供警报和更新的预测,与传统的CPU驱动建模相比,这大大缩短了时间,从几分钟或几小时缩短到几秒钟。 “台湾是全球供应链的关键组成部分,洪水风险分析和疏散准备是我们的核心任务,”中央气象局局长Chia-Ping Cheng在一份声明中说。 自2000年以来,台湾遭受了超过136次台风袭击,利用地球-2缓解这些影响对于提高灾害信息学的质量和分辨率至关重要,国家灾害减少中心(NCDR)表示。 全球领先的天气数据预测和洞察公司——The Weather Company计划将其气象数据和Weatherverse工具与Omniverse集成,首次使构建数字孪生的客户能够更好地理解和可视化实际天气条件的影响。 The Weather Company还计划探索使用NVIDIA基于分数的生成AI为其Weatherverse服务、Weather Engine企业级天气智能解决方案和新的高分辨率天气建模产品。 “为了有效应对当前和未来的天气和气候相关挑战,现在比以往任何时候都更加关键的是,将可靠的、全球规模的真实天气数据和洞察力纳入数字孪生环境中,以更好地分析、计划和模拟天气的影响,”The Weather Company的CEO Sheri Bachstein在一份声明中说。“我们多年来一直与Nvidia合作,加速我们的专有天气建模系统GRAF的GPU加速,我们计划采用地球-2 API创建更高分辨率、更节能、成本更低的模拟。” 地球-2 API利用DGX Cloud提供气候和天气解决方案的全栈加速。这包括模型如FourCastNet、GraphCast和深度学习天气预测的最佳AI流水线。它还包括如Icon这样的数值天气预测模型在最新的Grace Hopper系统上的GPU加速。 运行在Nvidia DGX GH200、HGX H100和OVX超级计算机上的地球-2可能为模拟和可视化全球气候模拟提供了前所未有的速度和规模的路径。
NVIDIA 2024年GTC大会精彩亮点
NVIDIA携手苹果Vision Pro推出共享VR技术:NVIDIA为苹果Vision Pro带来了共享VR技术,使企业开发者能够流式传输高保真3D数字孪生。依托Omniverse Cloud API和NVIDIA Graphics Delivery Network,无需在M2处理器上本地渲染,实现混合渲染和沉浸式空间计算体验。想了解更多吗,继续读下去。Apple Vision Pro gains new enterprise 3D rendering capabilities NVIDIA推出地球-2气候预测平台:NVIDIA推出了基于云的地球-2数字孪生气候模型平台。通过AI超级计算机驱动,地球-2利用生成式AI和CUDA-X微服务提供高分辨率模拟,助力全球理解和减缓气候变化影响。台湾中央气象局等机构已经开始使用这些API,以提高灾难预备能力。Nvidia announces Earth-2 digital twin to forecast planet’s climate change | VentureBeat 新一代AI芯片——NVIDIA的Blackwell GPU:NVIDIA推出下一代Blackwell GPU,大幅提升AI性能。GB200芯片拥有20 petaflops性能,而Grace Blackwell Superchip则承诺提供比LLM推理快30倍的性能。黄仁勋将此称为一场革命,凭借CUDA-X驱动的Blackwell的六项新技术,将影响从数据处理到工程等多个领域。Nvidia announces GB200 Blackwell AI chip, launching later this year Project GR00T人形机器人项目:NVIDIA宣布了Project GR00T,这是一个为人形机器人设计的基础模型,搭配Jetson Thor计算机和对Isaac机器人平台的增强,推动具有自然语言理解、类人动作和自主性的AI驱动机器人发展。NVIDIA Announces Project GR00T Foundation Model for Humanoid…
Stability AI 3D:开创3D视觉技术新篇章,提升多视角连贯性与生成质量
今天,他们在3D技术界掀起了一场风暴,发布了稳定视频3D(简称SV3D https://huggingface.co/stabilityai/sv3d)——一个基于稳定视频扩散技术的创新模型,大大提升了3D视觉质量和视角的连贯性。 这次发布的SV3D分为两个版本:SV3D_u和SV3D_p。SV3D_u能够从单一图片输入出发,无需任何摄像机调整,就能生成环绕视频。而SV3D_p则在此基础上进一步发展,不仅支持单张图片和环绕视图作为输入,还能创建沿特定摄像机路径的3D视频。 无论是商业使用还是个人学习探索,SV3D都已准备就绪,商业用途需要Stability AI的会员资格,而个人学习者可以在Hugging Face下载模型权重,并参阅他们的研究论文。 他们的SV3D模型接受单一物体图片作为输入,创造出该物体的全新多视角视图。利用这些新视角,SV3D能够生成3D网格。 当他们之前发布稳定视频扩散模型时,就已经强调了该视频模型在多个应用领域的灵活性。现在,基于这个坚实的基础,他们激动地推出了稳定视频3D,这个新模型在3D技术领域取得了巨大的进步。相比之前发布的Stable Zero123以及其他开源选择,如Zero123-XL,稳定视频3D提供了更加出色的质量和多视角一致性。 此次发布的两个版本分别是: – SV3D_u:这个版本能够基于单张图片输入生成环绕视频,无需摄像机设置。– SV3D_p:这个版本在SV3D_u的基础上扩展了功能,支持单张图片和环绕视图作为输入,允许沿特定摄像机路径创建3D视频。 视频扩散的优势在于,通过将稳定视频扩散模型与摄像机路径条件化相结合,他们的稳定视频3D能够生成物体的多视角视频。与在Stable Zero123中使用的图像扩散模型相比,视频扩散模型在一般化和生成输出的视角连贯性方面提供了显著优势。此外,他们提出了改进的3D优化方法,利用稳定视频3D的能力生成任意绕物体的轨道。通过实现这些技术,并结合解耦的照明优化以及新的掩码得分蒸馏采样损失函数,稳定视频3D能够可靠地从单张图片输入中生成高质量的3D网格。 稳定视频3D在3D生成方面带来了重大进步,尤其是在新视角合成(NVS)方面。与先前的方法相比,他们的模型能够从任何给定角度提供连贯的视图,并具有出色的一般化能力。这不仅增强了姿态控制能力,还确保了跨多个视图的对象外观一致性,进一步提升了3D生成的真实感和精确度。 通过多视角一致性的优化,他们的稳定视频3D提高了3D神经辐射场(NeRF)和网格表示的质量,从而改善了直接从新视角生成的3D网格的质量。他们设计了一个掩码得分蒸馏采样损失,以进一步提高在预测视角中不可见区域的3D质量。此外,为了解决烘焙入照明的问题,稳定视频3D采用了解耦的照明模型,与3D形状和纹理共同优化。
Nvidia的GTC大会真是一场硬件和软件公告的重拳出击啊
嘿,小伙伴们,你们听说了吗?NVIDIA在它们的开发者大会GTC上放了个大招,CEO Jensen Huang在主题演讲中抛出了一系列炸弹。让我们来一探究竟,这其中都有些什么新奇的东西吧! 首先登场的是一颗新的芯片——Blackwell。这可不是普通的新成员,Blackwell在训练性能上比NVIDIA之前的芯片Hopper强了2.5倍,使用FP8精度时如此,而在推理速度上,使用FP4精度则快了5倍。它将以GB200的形式出产,也就是Grace Blackwell 200,这玩意儿是两颗Blackwell GPU、一颗Grace CPU加上一堆其他配件的大杂烩。但真正牛逼的地方在于NVIDIA的DGX SuperPOD,这可是一个拥有11.5 exaflops AI超级计算能力的怪兽,用成千上万的NVIDIA的GB20搭建而成。 接下来是NIMs——Nvidia推出的Inference Microservices,换句话说,开发者不必从头开始造轮子,可以直接使用Nvidia提供的预构建AI微服务(NIMs)。你可以把它们想象成特定任务的即插即用AI工具。NVIDIA还允许企业在NIMs之上,使用自己的专有数据构建定制的AI“副驾驶”。NIMs的设计旨在使它们易于跨不同软件平台使用,甚至兼容旧版GPU模型。 最后是GR00T——通用机器人模型项目,专为仿人机器人设计的AI基础模型,着重于让机器人拥有更好的运动、感知和适应能力。 GR00T将运行在升级版的Jetson Thor计算机上,这意味着更小但更强大的机器人板载计算机。想象一下,那些仿真度超高的人形机器人将因此而更加逼真。 总之,NVIDIA这次真是下了一番大手笔,让我们拭目以待,看看这些新技术将如何改变我们的世界吧!
马斯克的xAI公司推出开源AI聊天机器人Grok-1,助力技术创新与合作
埃隆·马斯克的xAI公司开发的AI聊天机器人Grok-1现已开源。Grok-1的开放发布版本现已在Github上提供,供用户访问和构建。这一消息发布于马斯克在X(前身为Twitter)上宣布公司将很快向开发者提供聊天机器人访问权限几天后。xAI提到,他们将Grok-1这个大型语言模型的基础模型权重和网络架构作为开源AI平台提供。 对于那些不知道的人来说,开源意味着软件、其源代码和项目对所有人都是可访问的,无需任何许可费。这种模型的优势在于为公司和开发者提供灵活性,以提出新的解决方案,找到修复方法,甚至为不同的需求和用途重新目的化它。 根据博客文章,Grok-1是Grok-1预训练阶段的原始基础模型检查点,该阶段于2023年10月进行。它是一个由xAI使用自定义训练堆栈在JAX和Rust之上从头训练的314亿参数混合专家模型”。xAI进一步明确表示,他们正在“根据Apache 2.0许可证发布权重和架构”,该许可证允许商业使用,但不包括用于训练AI大型语言模型的数据或访问实时数据的权限。文章还指出,Grok-1模型没有针对任何特定应用程序或对话进行训练。 埃隆·马斯克一直在批评像OpenAI这样的公司没有将他们的AI语言模型作为开源提供。去年11月在一个播客中,马斯克提出了将AI语言模型作为开源平台提供的想法。他在播客中提到,“我通常倾向于开源,比如有偏向于开源的倾向。”他的评论是在xAI的Grok发布后不久发表的,Grok的训练花费了四个月的时间。也就是说,一开始,Grok与OpenAI的ChatGPT、微软的Copilot甚至谷歌的双子星相比,被认为是一个更加更新的AI聊天机器人。 同样,不是没有公司将AI模型作为开源提供。Mistral和Falcon是已经可用的开源AI平台。然而,从更广泛的角度来看,大多数AI平台都是封闭源代码的。公司只是将其作为开源或有限开源模型提供,以接收来自其他研究人员的反馈并对其进行改进。 下载:https://github.com/xai-org/grok-1
Apple加速AI大跃进:最新发布的MM1 模型论文
苹果似乎在大型语言模型(LLM)的领域里来得有点晚,跟谷歌、微软和Meta在打造强大的AI工具方面有些距离,但看起来它正在迅速追赶。 今年早些时候,CEO蒂姆·库克告诉投资者,将会有关于AI的重大宣布,这将是一个“重大突破”。许多人猜测这将是一个新版的Siri,由与谷歌的助手更换为双子星类似的LLM驱动。 苹果的研究人员刚刚揭示了这个下一代Siri的可能基础的细节,如果传言属实,它可以在iPhone上与双子星并行工作,提供选择。 作为一篇预印研究论文发布的MM1,本质上提供了一种使用AI生成的数据和标签来加速新模型训练的新方法——包括可能的Siri 2.0。 MM1的核心是一种使用合成数据(包括图像和文本)训练多模态模型的新方法。MM1的研究者声称,他们的新方法加快了性能,并减少了获得所需结果所需的后续提示次数。能够改善提示理解,并尽可能少地与AI互动就得到所需输出,对于消费技术来说是完美的,特别是在将由各种技术能力的人群使用的Siri中。 这些模型在预训练指标上达到了最先进的水平,并在微调后在多模态基准测试上表现出竞争力。MM1似乎是一个AI模型家族,最大的模型大约有300亿个参数。这比GPT-4和Claude 3 Opus中的万亿以上参数要小得多,但研究者仍然声称由于效率提高而达到关键基准。这一突破性成就特别体现在视觉方面,尤其是对图像和其他视觉内容的分析能力以及理解输出的能力。我最近测试了ChatGPT、Claude和双子星在这项任务上的表现如何。 MM1使用不同于其他模型的架构,包括更高分辨率的图像编码器,采用了不同的预训练和标注方法,并专注于使用数据混合来提高单一提示的总体性能。 它还使用了一种混合专家(MoE)模型来在保持处理要求低的同时扩大规模,这进一步暗示了它在iPhone或笔记本电脑等设备上的潜在用途,而不是在云中运行。 苹果是否会用MM1驱动Siri 2.0?尽管这篇论文没有提到Siri或任何潜在产品,但对性能和效率的关注、实现最少提示下的稳定结果以及对广泛多模态能力的需求确实暗示了苹果未来可能会如何发展Siri。由于苹果长期以来的隐私立场,许多LLM驱动的Siri的功能可能必须“在设备上”运行,特别是处理个人信息方面。能够开发一个非常强大的模型,能够从与用户的互动中学习,并且足够小到可以在iPhone上运行,这是一个重大进步。 随着最近的消息称苹果可能会将双子星带到iPhone上,以及之前的传言称公司也在与ChatGPT制造商OpenAI进行谈判,看起来苹果正在采取多方面的方法来实现库克向投资者承诺的AI“大爆炸”。
苹果计划与谷歌合作使用Gemini AI技术,提升iPhone功能,同时探索与OpenAI合作可能性
苹果和谷歌打算携手达成一项重磅交易,旨在将双子星AI模型的强大功能融入iPhone上,据彭博社报道。这将使谷歌的地位更加牢不可破,因为该公司已经是iPhone上Safari浏览器的首选搜索引擎提供商。 报道援引了熟悉此事的人士的话称,苹果计划许可谷歌的AI技术,以便在今年晚些时候通过iOS更新引入AI驱动的特性。此外,该公司还与OpenAI进行了讨论,可能会使用GPT模型,彭博社表示。 苹果面临着巨大的压力,需要赶上如OpenAI、微软、Anthropic乃至谷歌等在AI领域的竞争对手。苹果首席执行官蒂姆·库克在2月份表示,公司将在“今年晚些时候”推出基于生成式AI的特性。 公司去年的招聘广告暗示苹果正在研发多种内部和外部工具,这些工具由生成式AI驱动。然而,讨论利用第三方AI技术的消息意味着苹果在自己的AI努力方面进展不如预期。 苹果自己的模型可能会为即将发布的iOS 18软件更新提供一些设备上的功能 — 预计将在每年六月举行的全球开发者大会(WWDC)上宣布。但是,该公司正在探索与外部提供商合作,以应用于诸如图像创建和帮助用户写作等生成式AI用例。 谷歌自己在双子星上也遇到了问题。上个月,该公司不得不暂停其图像生成功能,因为该模型产生了带有历史错误的图像。后来,谷歌首席执行官桑达尔·皮查伊表示,双子星的回应是“完全不可接受的”。上周,谷歌表示,它正在全球范围内阻止有关选举的查询在双子星上进行。但TechCrunch发现,用户可以通过对一些查询引入错别字来绕过这些限制。 尽管遇到这些挫折,谷歌在推出与智能手机相关功能方面仍具有优势。今年早些时候,该公司与三星合作,在Galaxy S24系列设备上引入了双子星驱动的AI功能。这家搜索巨头还在自己的Pixel系列手机上推出了这些功能。
斯坦福大学推出pyvene:开创性的AI模型干预Python库
在AI领域不断演化的今天,理解和操作神经模型变得至关重要。这一需求源自多种应用,从改进模型以增强其鲁棒性,到揭示它们的决策过程以提高可解释性。在这一背景下,斯坦福大学的研究团队推出了“pyvene”,这是一个开创性的开源Python库,专为对PyTorch模型进行复杂干预而设计。pyvene巧妙地克服了现有工具的局限性,这些工具往往缺乏灵活性、可扩展性和用户友好性。 pyvene的创新之处在于其基于配置的干预方法。这种方法不同于传统的、基于代码执行的干预,提供了一种更直观、更可适应的操作模型状态的方式。该库处理多种类型的干预,包括静态和可训练参数,满足多种研究需求。该库的一个突出特点是其对复杂干预方案的支持,如顺序和并行干预,以及它在模型解码过程的不同阶段应用干预的能力。这种多功能性使pyvene成为生成模型研究中不可或缺的资产,尤其是在模型输出生成动态特别有趣的情况下。 深入探究pyvene的能力,研究通过着眼于模型可解释性的引人注目的案例研究,证明了该库的有效性。团队利用因果抽象和知识定位技术,展示了pyvene揭示模型预测背后机制的潜力。这一努力展示了该库在实际研究场景中的实用性,并突出了其在使AI模型更加透明和可理解方面的贡献。 斯坦福团队对pyvene进行了严格测试,跨越了各种神经架构,展示了其广泛的适用性。例如,该库成功地对从简单前馈网络到复杂的多模态架构等范围内的模型进行了干预。这种适应性进一步体现在库对涉及在多个模型前向传递中改变激活的干预的支持上,这对许多现有工具来说是一项挑战。 使用pyvene所得到的性能和结果特别令人印象深刻。该库在识别和操作神经模型的特定组件方面发挥了重要作用,从而使我们能够更细致地理解模型行为。在一个案例研究中,pyvene被用来在神经模型表示中定位性别,在性别代词预测任务中实现了100%的准确率。这一高水平的精确性突显了该库在促进目标干预和从复杂模型中提取有意义见解方面的有效性。 随着斯坦福大学研究团队继续完善和扩展pyvene的功能,他们强调了该库在推动AI研究创新方面的潜力。pyvene的推出在理解和改进神经模型方面标志着一个重要的进步。通过提供一个多功能、用户友好的工具进行干预,团队解决了现有资源的局限性,并在人工智能的探索和发现中开辟了新的路径。随着pyvene在研究社区中获得关注,它有望进一步推动发展,为开发更加鲁棒、可解释和有效的AI系统做出贡献。
探索可扩展指令式多世界代理(SIMA):谷歌DeepMind在通用游戏AI领域的新里程碑
在最新的科技研究领域,谷歌DeepMind团队推出了一项名为“可扩展指令式多世界代理”(Scalable Instructable Multiworld Agent,以下简称SIMA)的研究,这是一种能够根据自然语言指令在多种视频游戏设置中执行任务的代理。 视频游戏被视为人工智能(AI)系统的重要试验场。与现实世界类似,游戏提供了丰富的学习环境,其中包含了响应式的实时场景和不断变化的目标。 从谷歌DeepMind早期在雅达利游戏上的工作,到其AlphaStar系统在星际争霸II游戏中达到人类大师级水平,该团队在AI与游戏领域拥有长期的研究历史。 如今,谷歌DeepMind宣布了一个新的里程碑——其研究重点从针对单一游戏的研究转变为开发一个能够理解和执行多种游戏指令的通用AI代理。 在一份新的技术报告中,谷歌DeepMind团队介绍了“可扩展指令式多世界代理”,这是一种针对3D虚拟环境设计的通用AI代理。谷歌DeepMind与游戏开发商合作,训练SIMA在多种视频游戏中学习。这项研究首次证明了一种代理能够理解广泛的游戏世界,并能够根据自然语言指令在这些游戏世界中执行任务,如同人类可能做的那样。 该项工作的重点并不是在游戏中获得高分。对于AI系统而言,学会玩一个视频游戏本身就是一个技术挑战,但学会在多种游戏环境中根据指令执行任务可能会开启更多有用的AI代理,用于各种环境。该团队的研究展示了如何将先进AI模型的能力通过语言界面转化为实用的、现实世界中的行动。谷歌DeepMind希望,通过SIMA及其他代理的研究,可以利用视频游戏作为沙盒,更好地理解AI系统如何变得更加有益。 为了使SIMA接触到多样的环境,谷歌DeepMind与游戏开发商建立了合作伙伴关系。团队与八家游戏工作室合作,训练和测试SIMA在九种不同的视频游戏上,例如Hello Games的《无人深空》和Tuxedo Labs的《Teardown》。SIMA的投资组合中的每款游戏都开启了一个新的互动世界,其中包括从简单的导航和菜单使用到采矿资源、驾驶太空船或制作头盔等多种技能学习。 谷歌DeepMind还使用了四个研究环境,包括与Unity合作建立的一个名为建筑实验室的新环境,代理需要在此环境中从建筑块中构建雕塑,测试其物体操作和对物理世界的直观理解能力。 通过学习不同的游戏世界,SIMA能够理解语言与游戏行为之间的联系。谷歌DeepMind的首次尝试是记录其投资组合中游戏的人类玩家配对,其中一位玩家观察并指导另一位玩家。玩家还可以自由玩游戏,然后回顾他们的游戏行为,并记录下能够导致这些游戏行为的指令。 SIMA包括预训练的视觉模型和一个主模型,后者包含内存并输出键盘和鼠标动作。 作为一个多才多艺的AI代理,SIMA能够感知和理解多种环境,然后采取行动以实现指定的目标。它包括一个设计用于精确图像-语言映射的模型和一个视频模型,后者预测屏幕上接下来会发生什么。这些模型在特定于SIMA投资组合中的3D设置的训练数据上进行了微调。 谷歌DeepMind的AI代理不需要访问游戏的源代码或特定的API。它只需要两种输入:屏幕上的图像和用户提供的简单自然语言指令。SIMA使用键盘和鼠标输出来控制游戏的中心角色执行这些指令。这种简单的界面与人类使用的界面相同,意味着SIMA可以潜在地与任何虚拟环境进行交互。 SIMA当前版本在600个基本技能上进行了评估,包括导航(例如“向左转”)、物体交互(例如“爬梯子”)和菜单使用(例如“打开地图”)。谷歌DeepMind训练了SIMA执行可以在大约10秒内完成的简单任务。 谷歌DeepMind希望其未来的代理能够处理需要高级战略规划和完成多个子任务的任务,例如“找到资源并建立一个 营地”。这对于AI总体来说是一个重要的目标,因为尽管大型语言模型催生了强大的系统,这些系统可以捕获关于世界的知识并生成计划,但它们目前缺乏代表我们采取行动的能力。 在游戏和更多方面的泛化是谷歌DeepMind研究的重要部分。该团队展示了在多种游戏上训练的代理比只学会玩一个游戏的代理表现更好。在评估中,接受其投资组合中九款3D游戏训练的SIMA代理显著优于仅在每个单一游戏上训练的所有专业代理。更重要的是,除了一个游戏之外在所有游戏上训练的代理在那个未见过的游戏上的表现几乎与专门在其上训练的代理一样好,平均而言。这种在全新环境中正常工作的能力突出了SIMA的泛化能力。这是一个有希望的初步结果,然而,需要更多研究才能使SIMA在已知和未知的游戏中都能达到人类水平的表现。 谷歌DeepMind的结果还显示,SIMA的表现依赖于语言。在一个未给代理提供任何语言训练或指令的控制测试中,它以适当但无目的的方式行动。例如,一个代理可能会收集资源,这是一种频繁的行为,而不是按照指令行动。 谷歌DeepMind评估了SIMA遵循指令完成近1500个独特的游戏内任务的能力,部分使用人类评审。作为基线比较,该团队使用了环境专业的SIMA代理的表现(训练和评估以遵循单一环境内的指令)。这种表现与三种类型的通用SIMA代理进行了比较,每种都在多个环境中接受了训练。 推进AI代理研究是谷歌DeepMind的目标之一。SIMA的结果显示了开发一系列通用的、由语言驱动的AI代理的潜力。这是早期研究,该团队期待在更多训练环境中进一步构建SIMA,并整合更有能力的模型。 随着SIMA接触到更多训练世界,谷歌DeepMind预期它会变得更具泛化性和多才多艺。随着模型的进步,该团队希望提高SIMA对更高级语言指令的理解和行动能力,以实现更复杂的目标。 最终,谷歌DeepMind的研究旨在构建更通用的AI系统和代理,这些系统和代理可以理解并安全地执行广泛的任务,以一种对人类在线和现实世界有帮助的方式。