EMO的超酷炫框架出现了,它能根据一张参考照片和声音输入,比如说话或唱歌,生成带有丰富表情和各种头部姿势的人物视频。而且还有个牛逼闪闪的点,那就是无论你给它的音频有多长,它都能根据音频的长度生成对应时长的视频。这意味着啥?意味着你现在可以创造一个动起来、会说会笑的数字化的自己或者是你喜欢的人物,而且可以让它持续唠叨或者唱歌,直到你说停。这技术简直不要太酷,让人想到了未来可能人人都有自己的虚拟代言人,搞个个人音乐会啥的,都不是问题了!
StarCoder2模型,释放你的大模型编码潜能
在数字时代,编程已成为一项必不可少的技能,但有时候编程也会显得枯燥乏味且耗时。因此,很多开发者开始寻找方法,借助大型语言模型(LLMs)来自动化和简化他们的编码任务。这些模型通过训练大量来自GitHub的开源代码库,能够在几乎不需要人类干预的情况下生成、分析和记录代码。 本文将探索使用StarCoder2,一种全新的社区模型,对代码LLMs的最新进展。StarCoder2支持数百种编程语言,并提供业界领先的准确性。接下来,我们将利用NVIDIA AI基础模型和终端尝试该模型,通过逐步指导进行定制,并将其部署到生产中。 StarCoder2是BigCode与NVIDIA合作构建的最先进的代码LLM。你可以利用该模型的能力,包括代码补全、自动填充、高级代码总结和使用自然语言检索相关代码片段,快速构建应用程序。 StarCoder2系列包括3B、7B和15B参数模型,为你提供选择适合自己使用场景并满足计算资源需求的灵活性。本文将重点介绍15B模型。 15B模型在流行的编程基准测试中超越了领先的开放代码LLMs,提供了同类产品中最优秀的性能。例如,Starcoder2 15B模型在HumanEval基准测试中显示,无论是Pass@1还是Pass@10,模型都展现出46%和65%的高性能。 模型训练得体,对所有人开放,使用了来自GitHub的超过1万亿令牌的、经过负责任筛选的数据。这包括600多种编程语言、Git提交、GitHub问题和Jupyter笔记本。模型在整个过程中完全透明,包括数据来源、处理和翻译。此外,个人可以选择不让自己的代码被模型使用。 StarCoder2模型根据BigCode开放RAIL-M许可证公开可用,确保免版税分发并简化了公司将模型集成到他们的用例和产品中的过程。 StarCoder2作为NVIDIA AI基础模型和终端的一部分提供,提供了一套经过策划的社区和NVIDIA构建的生成性AI模型,供你体验、定制和部署在企业应用中。 NVIDIA已经使用TensorRT-LLM优化了模型,这是一个用于定义、优化和执行大型语言模型推理的开源库。这使你在推理过程中能够实现更高的吞吐量和更低的延迟,同时在生产中降低计算成本。 现在,你可以直接通过浏览器使用简单的游乐场用户界面体验StarCoder2,查看运行在完全加速堆栈上的模型生成的结果。 如果你更喜欢使用API测试模型,我们也为你提供了便利。注册NGC目录后,你将获得NVIDIA云积分。这些积分让你能够将应用程序连接到API端点,并在大规模上体验模型。 # Will be used to issue requests to the endpoint API_KEY = “nvapi-xxxx“ 大多数企业不会直接使用模型。你需要使用你的领域和公司特定的专业语言训练它们,以便模型能提供高精度的结果。NVIDIA使得通过NeMo定制它们变得简单。 NVIDIA Triton推理服务器是一个开源的AI模型服务平台,它简化并加速了AI推理工作负载在生产中的部署。它帮助企业减少模型服务基础设施的复杂性,缩短新AI模型在生产中部署所需的时间,并增加AI推理和预测能力。 现在就试试StarCoder2模型吧,通过用户界面或API体验它,如果这是适合你的应用程序的,那么就使用TensorRT-LLM进行优化,并使用NVIDIA NeMo进行定制吧。
微软为金融界带来革命性突破——推出Microsoft 365中的下一代AI助手:Microsoft Copilot for Finance
金融部门,这个组织的心脏,每天都在应对一系列既关键又复杂的任务——从报价到收款的全过程,如信贷和收款,到风险管理和合规性检查。财务团队不仅要负责这些必要的、劳动密集型的操作,而且还要实时洞察业务表现,并为未来的增长计划提供建议。事实上,有80%的财务领导和团队面临挑战,需要承担超出日常操作范畴的更多战略性工作。一方面,团队准备好在推动业务增长策略中发挥更大的作用,另一方面,他们也不能放弃维护一系列关键且必须的责任。 微软推出的解决方案旨在帮助财务团队重获时间,保持对可能影响业务绩效的关键决策的掌控。Microsoft Copilot for Finance是Microsoft 365中的新Copilot体验,为财务专业人士解锁了AI辅助能力,直接在他们每天使用的生产力应用程序中。现在已经公开预览,Copilot for Finance能够连接到组织的财务系统,包括Dynamics 365和SAP,提供针对特定角色的工作流自动化、引导式操作和建议,在Microsoft Outlook、Excel、Microsoft Teams和其他Microsoft 365应用程序中——帮助节省时间,专注于真正重要的事情:引导公司走向成功。 Copilot for Finance利用AI自动执行耗时任务,让你可以专注于真正重要的事情。立即报名体验,利用创新加速财务管理。财务团队在改进组织效率方面发挥着关键作用。随着团队寻求发展并改善如何花费时间支持更多战略性工作,显然有一些操作任务更加平凡、重复且手工密集。而62%的财务专业人士仍然陷在数据录入和审核循环的苦差事中。尽管一些任务是关键的,不能自动化——如合规性和税务报告——我们也从大多数财务领导那里听说,他们缺乏自动化工具和技术来转变这些过程并释放时间。 随着业务的加速发展,成为颠覆者需要投资于将推动创新并支持底线的技术。在接下来的三到五年中,68%的CFO预计通过生成式AI(GenAI)实现收入增长。通过实施下一代AI来提供洞察力和自动化成本高昂且耗时的操作任务,团队可以重新投入这些时间,加速其作为财务监管者和战略家的影响力。 Microsoft Copilot for Finance:用更少的努力完成更多的工作 Copilot for Finance在Microsoft 365应用程序中提供AI驱动的协助,使财务流程更加流畅和自动化。Copilot for Finance可以通过简单的提示来简化审计,通过自动化沟通和付款计划来简化收款,通过轻松检测差异来加速财务报告。潜在的时间和成本节省是巨大的,不仅转变了财务专业人员的工作方式,而且还改变了他们在组织内驱动影响的方式。 用户可以通过多种方式与Copilot for Finance互动。它既在工作流中建议操作,也允许用户通过输入自然语言提示来提问。例如,用户可以提示Copilot“帮助我理解预测与实际差异数据”。瞬间,Copilot for Finance将生成洞察力并直接从ERP和财务系统中拉取数据,建议采取的行动,并通过生成上下文化的文本和附加相关文件来提供一个开端。像其他copilot体验一样,用户可以轻松检查源数据,以确保在使用Copilot采取任何行动之前的透明度。 Copilot for Finance连接到现有的财务系统,包括Dynamics 365和SAP,以及通过Microsoft Copilot Studio连接到数千个更多系统。通过能够从现有来源中提取洞察力并更新回这些来源的操作,Copilot for Finance使用户能够保持在工作流中,并更高效地完成任务。 准备好迈出下一步了吗?Microsoft Copilot for Finance今天就为公开预览提供 https://aka.ms/CopilotforFinancePreview 。探索公开预览演示 https://aka.ms/CopilotforFinanceDemo,并通过社交媒体关注我们以获取更多公告。
马斯克怒告OpenAI与山姆·奥特曼,控诉他们背叛了非营利人工智能的宗旨哦
当年,火星探险队队长马斯克和他的梦想小伙伴们,山姆·奥特曼、格雷格·布罗克曼一起创立了OpenAI,誓要开发出能造福人类的AI技术,抵抗来自谷歌的竞争威胁。他们承诺,这将是一个专注于人类福祉的非营利组织,开发出来的技术将免费供大家使用。 然而,风云突变,OpenAI似乎忘记了当初的誓言,变成了一个追求利润的公司,和微软携手走上了商业化之路。这下可好,火星队长一怒之下,决定将OpenAI、奥特曼、布罗克曼还有一众相关实体告上法庭,控诉他们背叛了最初的协议,摇身一变成了微软的“密友”,忙着为微软赚钱去了。 看着OpenAI从一个梦想满满的非营利组织,变成了一个价值连城、密切与微软合作的商业巨头,马斯克心里那叫一个不是滋味。他指出,OpenAI现在不仅仅是开发,更是在精炼AI技术,目的是为了最大化微软的利润,这简直是对最初创立协议的公然背叛。 马斯克在2018年离开了OpenAI的董事会,虽然后来被提供了参与盈利部门的机会,但他因为原则问题拒绝了。去年,马斯克旗下的社交网络X推出了Grok,成为ChatGPT的竞争对手。 奥特曼对马斯克的这些担忧做出了回应,包括与微软的紧密联系。他在去年的一个会议上说:“我喜欢这个家伙。我认为他在这些事情上完全错了。他可以随便说什么,但我为我们正在做的事情感到自豪,我认为我们将对世界作出积极的贡献,我试图保持冷静。” 然而,马斯克并不买账,他提起的这场诉讼,不仅仅是为了钱,更是为了一个原则——AI技术的发展,应该是为了人类的利益,而不是少数公司的私利。在这场技术与原则的较量中,马斯克究竟能否让OpenAI回归初心,还是个未知数。但有一点可以肯定,这场官司的结果,无疑将对整个AI行业产生深远的影响。
Adobe 最近搞大动作,推出了一个新玩意——一个用于音乐创作的人工智能工具
今天在布鲁克林的热门播客峰会上,Adobe大展拳脚,推出了他们的新宠——Project Music GenAI Control。这不是你平常见的那种音乐编辑工具,它能根据你给的文字描述(比如“快乐的舞曲”、“忧伤的爵士”)或者一段旋律参考,生成音频。更酷的是,用户还能在同一个工作流程里调整节奏、强度、重复模式和结构,甚至能把一段曲子延长到任意长度,重新混音或创造一个无尽循环。 这个项目是Adobe联手加州大学和卡内基梅隆大学的研究人员开发的,虽然目前还处于研究阶段,甚至连用户界面(UI)都没弄好,但Adobe的音频和视频AI研究负责人Gautham Mysore在一次小组讨论中透露,这个平台将来可能会对公众开放。Gautham Mysore说:“这真的让人感觉到,AI在音乐创作中的角色就像你是导演,而且你可以做很多事情。”他强调,这个工具不仅仅是生成音乐,还提供了各种控制形式,让人们可以尝试不同的创意,即使你不是作曲家,也能把你的音乐想法变成现实。 随着AI创造的音乐、艺术作品和文本的激增,基于GenAI的音乐工具以及广泛的GenAI工具正在引发伦理和法律上的担忧。 利用GenAI制作的家庭音轨,能够复现熟悉的声音、歌词和人声,足以让人认为是正版,或至少接近正版,已经在网络上疯传。音乐厂牌迅速采取措施要求删除这些内容,引用版权法。但关于“深度伪造”音乐是否侵犯了艺术家、厂牌和其他权利持有者的知识产权,目前还缺乏明确的界定——尤其是在那些受版权保护内容训练的GenAI音乐工具的情况下。 尽管一位联邦法官在八月裁定AI生成的艺术作品不能获得版权,美国版权局对此还没有采取非常坚定的立场,只是最近开始寻求公众对于AI相关版权问题的意见。目前还不清楚,如果用户试图商业化以另一位艺术家风格生成的音乐,是否会因违反版权法而被追究责任。 Mysore表示,Adobe通常开发GenAI工具时会使用已授权或公共领域的数据,以避免潜在的知识产权问题。(至于Project Music GenAI Control是否也会这样做还是个未知数。)他还提到,Adobe正在开发水印技术,以帮助识别由Project Music GenAI Control产生的音频,但承认这还在进行中。 “Adobe对这些事情采取了特别负责任的态度,”Mysore补充说。“有很多优秀的音乐家创作了这些内容……我认为[他们和像Project Music GenAI Control这样的工具]将会共存。将会有新的音乐创意诞生。”
美国证监会正式调查OpenAI的Sam Altman
美国证券交易委员会正在调查OpenAI的投资者是否在该公司去年一场关于领导层的激烈争论中被误导,据《华尔街日报》报道,引述知情人士的话说。 看来,这个调查的火花是从OpenAI的CEO山姆·奥特曼在去年11月被撤职开始的。证监会在12月向公司发出了传票,并要求OpenAI的高级官员保留内部文件。 为了重回CEO的位置,奥特曼同意了进行内部调查等条件。他的突然被解职,加上董事会的一份声明说奥特曼在沟通上“并不总是坦率”,这让外界期待会有什么大瓜爆出。虽然没有出现任何重大的证据,但确实有关于他为一个外部芯片项目筹资的紧张关系被揭露,包括在中东寻求资金,以及与前董事会成员海伦·托纳因为一篇批评公司的研究论文而产生的争执。 根据一位直接了解董事会想法的人士(要求匿名讨论私人业务事项)的说法,是奥特曼的行为模式,而不是某个单一的严重行为,导致董事会对他失去了信任。 OpenAI的ChatGPT引发了目前跨越各种行业和服务采用人工智能的热潮,微软公司投资了超过100亿美元,与这家密切持有的初创公司合作。 证监会的调查可能不会导致对涉事方的任何不当行为的发现。OpenAI选定了来自WilmerHale律师事务所的两名律师来进行对事件的调查。 “在审查进行中,董事会将继续采取措施加强OpenAI的公司治理,建立一个由卓越个体组成的合格和多元化的董事会,并监督OpenAI的重要使命,确保人工智能的普遍利益。”OpenAI董事会主席布雷特·泰勒在12月份说。
纽约时报和OpenAI之间的故事最近上了热搜,无间道
最近,OpenAI向一位联邦法官提出请求,希望驳回纽约时报(NYT.N)针对其版权诉讼的部分指控。OpenAI的理由相当戏剧化——他们称纽约时报通过”黑客”手段操纵了其聊天机器人ChatGPT及其他人工智能系统,以制造误导性证据。在曼哈顿联邦法院的一份文件中,OpenAI声称纽约时报通过”欺骗性提示”违反了OpenAI的使用条款,导致技术重现了其材料。 OpenAI在文件中直言不讳地指出,纽约时报的投诉没有达到其一贯严格的新闻标准。OpenAI透露,真相将在案件审理过程中揭露,即纽约时报支付了某人来”黑”OpenAI的产品。值得注意的是,OpenAI没有具体指出这位所谓的”雇佣枪手”是谁,也没有指控纽约时报违反任何反黑客法律。 纽约时报的律师Ian Crosby回应称,OpenAI所谓的”黑客”行为不过是使用OpenAI产品寻找证据,证明他们盗用并复制了纽约时报的版权作品。去年12月,纽约时报起诉了OpenAI及其最大的金融支持者微软(MSFT.O),指控他们未经许可使用了数百万篇文章来训练聊天机器人,以向用户提供信息。 纽约时报是众多起诉科技公司因AI训练中涉嫌滥用其作品的版权所有者之一,包括作者、视觉艺术家和音乐出版商等群体。科技公司则辩称,他们的AI系统对版权材料的使用是公平使用,且这些诉讼威胁到了潜在价值数万亿美元的行业的成长。 目前,法院尚未就AI训练是否属于版权法下的公平使用问题作出裁决。迄今为止,基于AI创造的内容与版权作品相似性缺乏证据,法官已驳回了一些侵权索赔。 纽约时报的投诉中引用了几个例子,这些例子中OpenAI和微软的聊天机器人在被提示时提供了与其文章几乎逐字逐句相同的摘录。纽约时报指责OpenAI和微软试图”免费搭便车,利用纽约时报在新闻业中的巨大投资”,并创建一个替代纽约时报的产品。 OpenAI在其文件中称,纽约时报需要数万次尝试才能生成这些高度异常的结果。在正常情况下,人们不能随意使用ChatGPT来获取纽约时报的文章。OpenAI还表示,基于公平使用的问题,它和其他AI公司最终将赢得这些案件。他们认为,纽约时报无法阻止AI模型获取关于事实的知识,就像其他新闻组织无法阻止纽约时报重新报道它们没有参与调查的故事一样。
实测Gemini Pro在编程测验上栽了大跟头,反观ChatGPT却轻松过关
在莎士比亚的双关语爱好者沉浸在悲伤之中时,谷歌将Bard更名为Gemini。谷歌还推出了更高级、更强大、更昂贵的Gemini版本,称为Gemini Advanced。Gemini和Gemini Advanced大致相当于ChatGPT的基础模型和额外收费的ChatGPT Plus服务。 此外,我请求ChatGPT编写了我需要的WordPress插件。它在不到5分钟内就完成了。事实上,谷歌和OpenAI都收取20美元/月的费用,以提供访问他们更智能、更强大的服务。 在过去的一年中,作为我的测试过程的一部分,我让生成式AI接受了各种编程挑战。ChatGPT屡屡表现出色,而谷歌的Bard在两次测试中都失败了。我还对Meta的Code Llama AI进行了相同的一组测试,Meta声称它在编程方面非常棒(然而并非如此)。需要明确的是,这些测试并不特别困难。一项是编写一个简单的WordPress插件的请求。另一项是重写一个字符串函数。还有一项是帮助找到我最初难以发现的错误。 上周,使用这些相同的测试对Code Llama进行测试后,一位读者联系我,询问我为什么一直使用相同的测试。他认为,如果给AI提供不同的挑战,它们可能会成功。这是一个公平的问题,但我的回答也是公平的。这些是超级简单的测试。我使用的是PHP,这并不是一个特别有挑战性的语言。我通过AI运行了一些脚本查询。通过使用完全相同的测试,我们能够直接比较性能。但这也像教某人开车。如果他们连从车道出来都做不到,你不会让他们在拥挤的高速公路上开快车。 ChatGPT在我向它抛出的几乎所有东西上都表现得相当好,所以我对它提出了更多要求。我最终用ChatGPT进行了22种不同编程语言的测试,包括12种现代语言和10种晦涩语言。除了截图界面中一些混淆的标题外,ChatGPT通过了所有测试。但由于Bard至少在五月份还不能安全地驶出车道,我不打算在它能够处理基础知识之前对其进行更多测试。 但现在我们又回来了。Bard变成了Gemini,我有了Gemini Advanced。让我们看看所有那些谷歌的计算能力能为几个简单的测试做些什么。 测试1:编写一个简单的WordPress插件这是我与ChatGPT进行的第一次测试,Bard两次都失败了。挑战是编写一个提供简单用户界面的简单WordPress插件。它应该对提交的一系列行进行排序和去重。 这是提示: 编写一个与PHP 8兼容的WordPress插件,提供一个文本输入字段,可以在其中粘贴行列表,以及一个按钮,按下时,随机化列表中的行并在第二个文本输入字段中显示结果,没有空白行,并确保没有两个相同的条目相邻(除非别无选择)……提交的行数和结果中的行数彼此相同。在第一个字段下面,显示文本“要随机化的行:”和源字段中的非空行数。在第二个字段下面,显示文本“已随机化的行:”和目的字段中的非空行数。 需要记住的一点是,我故意没有指定这个工具是在前端(对网站访问者)还是在后端(对网站管理员)可用。ChatGPT将其编写为后端功能,但Gemini Advanced将其编写为前端功能。此外,Gemini Advanced还选择编写PHP代码和JavaScript。要初始化插件,需要在样本页面的正文中放置一个短代码,如下所示: 一旦我保存了页面,我就像网站访问者一样查看了它。这是Gemini Advanced展示的内容。 它与ChatGPT展示的同一功能相去甚远,但ChatGPT为后端编写了它。 另一点注意:一旦我粘贴了名称并点击使用Gemini生成的前端版本代码的随机化按钮,什么也没发生。 我决定给Gemini Advanced第二次机会。我将第一行更改为: 编写一个与PHP 8兼容的WordPress插件,为仪表盘界面提供以下功能 这是一个失败,因为Gemini Advanced再次坚持给我一个短代码。它甚至建议我将短代码粘贴在“一个合适的仪表盘区域”。这不是WordPress仪表盘的工作方式。 公平地说,AI可能如何解释我的指示还有一点回旋余地。所以我再次澄清,将提示的开头改为: 编写一个与PHP 8兼容的WordPress插件,提供一个新的管理菜单和一个具有以下功能的管理界面: 这一次,Gemini Advanced创建了一个可行的界面。不幸的是,它仍然不起作用。当将一组名称粘贴到顶部字段并点击随机化按钮时,什么也没发生。 与ChatGPT的第一次尝试相比,这仍然是一个失败。 它实际上比我原来的Bard测试结果还要糟糕,但并不像我的第二次Bard测试那么糟糕。 测试2:重写一个字符串函数在以下代码中,我请求ChatGPT重写一些处理美元和分的字符串处理代码。我的初始测试代码只允许整数(因此,只有美元),但目标是允许美元和分。这是ChatGPT正确完成的测试。Bard最初失败了,但最终成功了。 这是提示: 并且这是生成的代码: 这也是一个失败,但它既微妙又危险。生成的Gemini Advanced代码不允许非小数输入。换句话说,允许1.00,但不允许1。20也不行。更糟糕的是,它决定将数字限制在小数点前的两位数字,而不是小数点后,显示它不理解美元和分的概念。如果你输入100.50,它会失败,但允许99.50。 结论:哎呀。这是一个非常简单的问题,是你给一年级编程学生的那种问题。而且它失败了。更糟糕的是,这种失败可能不容易被人类程序员发现,所以如果你信任Gemini Advanced给你这段代码并假设它有效,你可能会稍后收到一大堆错误报告。 测试3:找到一个错误去年晚些时候,我在处理一个错误时遇到了困难。我的代码本应该工作的,但它没有。问题远非一目了然,但当我询问ChatGPT时,它指出我在错误的地方寻找。 我当时正在查看传递的参数数量,这似乎是我得到的错误的正确答案。但我实际上需要改变的是称为钩子的东西中的代码。 两个Bard和Meta都沿着我当时那样错误且徒劳的路径走下去,错过了系统真正工作方式的细节。正如我所说,ChatGPT做到了。所以,现在是时候看看——当提供完全相同的信息时——Gemini Advanced是否能够救赎自己。 Gemini Advanced确实查看了代码。它确实确定存在一个参数问题。但它的建议是查看“插件中或WordPress中的其他地方”以找到错误。 相比之下,这是ChatGPT的回答。 查看第二段提供的细节。ChatGPT正确地确定了错误发生的确切位置以及如何纠正它。这比推荐我查看插件中的其他地方要有用得多。 结论:Gemini Advanced并没有那么有帮助。它告诉我的没有我不知道的。它告诉我的没有帮助解决问题。 这真是令人沮丧….
在经历了十年的反复无常,苹果公司终于宣布终结其电动车项目
经过十年的发展,方向和领导层多次变动,以及大量泄露,据报道,苹果已经终止了其电动汽车项目的工作。根据彭博社的一份报告,该公司正将一些员工转移到公司内部的生成式人工智能项目上,并计划对其他一些员工进行裁员。 这个长期开发中的项目内部被称为“泰坦计划”,理想情况下,它将拥有豪华的、类似豪华轿车的内饰,强大的自动驾驶能力,以及至少10万美元的价格标签。然而,随着时间的推移,项目的雄心被削弱。例如,它曾计划拥有4级自动驾驶能力,但这一目标被缩减到了2+级。 由于延期,这款汽车(最初在2014年开始研发)的目标发布日期被推迟到了2028年。现在,它根本不会发布。 这一决定是“在最近几周由苹果的高级管理层最终确定的”,根据彭博社的消息来源。苹果的领导层担心,这款汽车可能永远不会实现他们之前希望的利润率。对于紧密跟踪该项目的人来说,这一发展并不令人惊讶。这个项目已经被知道存在问题一段时间了,即使苹果能够凑齐一款产品,它也将不得不面对高昂的初始成本和困难的监管环境。 这一转变的重点是由苹果的高管Jeff Williams和Kevin Lynch向员工宣布的。许多从事汽车自动驾驶功能工作的员工将被转移到人工智能主管John Giannandrea的领导下,参与包括生成式人工智能在内的各种项目。然而,那些从事汽车工程和设计等其他方面工作的员工的命运则不那么确定。报告称,裁员是可能的,但没有具体说明裁员的数量或时间表。 长期以来,众所周知,苹果正在投资于两个主要扩展领域:一个是汽车领域,另一个是增强现实。后者的第一步在几周前以Vision Pro头显的形式推出。随着汽车项目的取消,苹果已知的未来扩展领域包括混合现实、可穿戴设备和生成式人工智能。
Google Genie:创意互动环境
介绍Genie,一款基于互联网视频训练的基础世界模型,能够从合成图像、照片乃至草图中生成各式各样的可玩(可控制动作的)世界。 【时尚重磅来袭】Genie:玩转虚拟世界的创新大师近年来,创意AI技术如雨后春笋般涌现,能够通过语言、图像甚至视频生成新奇有趣的内容。如今,我们带来了一种全新的创意AI范式——Genie。这不仅仅是个AI模型,它是一位虚拟世界的魔法师,可以根据一张图片创造出互动性十足、玩家可控制的环境。不管是现实世界的照片,还是你随手画的草图,Genie都能让你的想象瞬间变为虚拟现实。 【天马行空的创意实验室】Genie的独到之处在于,它完全通过观看互联网视频来学习精细的控制技巧。你可能会问,互联网视频有那么多,它是怎么学的呢?神奇的是,Genie不需要任何动作标签,它能够识别哪些部分是可以控制的,甚至还能推断出各种环境中一致的潜在动作。这就意味着,无论是哪种风格的图片,Genie都能让它们动起来。 【创造者的新天地】想象一下,只需一张图片,你就能创造出一个全新的互动环境。这为创造和体验虚拟世界开辟了全新的途径。无论是使用最先进的文本到图像生成模型创造出的画面,还是你自己设计的草图,甚至是真实世界的照片,Genie都能为它们注入生命。 【AI通用代理的跳板】Genie不仅仅是关于创造虚拟世界的工具,它对培养通用AI代理也有重要意义。以往,游戏环境被视为开发AI代理的有效试验场,但我们总受限于可用游戏的数量。有了Genie,我们的未来AI代理可以在无尽的新生成世界中接受训练。我们的论文中展示了一个概念验证,即Genie学习到的潜在动作能够转移到真实的人类设计环境中,这只是揭示未来可能性的冰山一角。 【生成虚拟世界的未来】虽然我们的展示集中在平台游戏上,但Genie是一种通用方法,可以应用于多种领域,而且无需任何额外的领域知识。我们还训练了一个小型的2.5B模型,在没有动作的视频上进行学习,显示出Genie能够学习到一致的动作空间,这可能有助于训练体现式的通用代理。 Genie开启了从图像或文本生成整个互动世界的新时代,我们相信它也将成为培养未来通用AI代理的催化剂。 论文: https://arxiv.org/abs/2402.15391