OpenAI正在积极与好莱坞的影视制作公司和高管们接洽,探索其新一代AI视频生成工具Sora的潜在应用场景。 Sora虽然尚未公开发布,但已因其能够根据文本描述创造出长达一分钟的逼真视频片段而受到关注,生成这样的视频可能需要一个小时的时间。OpenAI最近在好莱坞举行了介绍会,向行业领袖展示了Sora的能力。 随着媒体公司开始认真考虑AI训练对版权材料的影响,OpenAI的这一举动也引发了人们的关注。据报道,OpenAI与CNN、福克斯公司等媒体机构就许可协议进行了讨论。 在文本到视频AI领域,该公司面临着竞争。谷歌和Meta等公司已经展示了类似的研究项目。此外,像Runway AI这样的初创公司的文本到视频工具已在前期制作流程中获得了专业采用。OpenAI的首席技术官表示,Sora距离公开发布“可能还有几个月的时间”。 此前,微软宣布Sora将被整合到Copilot中。这一消息是在一位用户在推特上询问Sora是否会加入到Copilot后,由Parakhin回应的,“最终会的,但这需要时间。” 尽管Sora仍在开发中,且定价细节尚未公布,但其对好莱坞的全面影响仍有待观察。然而,AI驱动的短视频逼真生成技术,对电影制作行业来说无疑是一个重大的发展。
AI界风云变幻:Stability AI创始人Emad Mostaque突然辞职,引发行业内深思
上周,AI界的热门公司之一Stability AI发布声明,创始人兼首席执行官Emad Mostaque宣布从公司高层职位和董事会辞职,这使得该公司成为本周第二个经历重大变动的热门AI初创公司。 Stability AI曾获得Lightspeed Venture Partners和Coatue Management等投资者的支持,目前还未找到Mostaque的永久性替代者。不过,公司已经任命首席运营官Shan Shan Wong和首席技术官Christian Laforte作为临时联合CEO。 在最近几个季度,Stability AI失去了超过半打的关键人才。Mostaque表示,他辞职是为了追求去中心化的AI。在X平台上的一系列帖子中,他提出,要打败“中心化AI”,不能再用更多的“中心化AI”。他指的是像OpenAI和Anthropic这样的顶尖AI初创公司的所有权结构。 Mostaque还强调,他决定辞职是出于个人决定,因为他持有最多的控股份额。他补充说:“随着AI变得越来越重要,我们应该拥有更加透明和分散的治理。这是一个棘手的问题,但我认为我们可以解决…AI权力的集中对我们所有人都不好。我决定辞职,以在Stability及其他地方解决这个问题。” Mostaque的离开发生在Stability AI正处于挣扎之中,据彭博社报道,截至2023年10月,该初创公司的月支出估计为800万美元,且未能成功以40亿美元的估值筹集新资金。 大约一年前,Mostaque似乎并未将收入增长作为优先事项。去年在X平台上的一个帖子中,他对生成式AI公司“奇怪的收入焦点”表示好笑,尽管“这项技术有用,但距离成熟还远,因为几乎每天都有新的突破”。他举了MagicLeap等例子,这些公司在产生收入前已经花费了数十亿美元。 他还说:“在适当的生成式AI研发上的回报比我们所见过的几乎任何东西都更加明确和快速。比如,它将创造比自动驾驶汽车更多的经济价值,后者的总投资已达1000亿美元,但尚未见到收益。” 他上个月在Reddit上的评论提供了一个焦点转移的视角。“我们今年的表现很好,已经超出了预测。我们的目标是今年实现现金流正向,我认为我们可能会更早达到。”他写道。 “市场巨大,边缘和所有受监管行业都将需要开放模型。这就是为什么我们是少数公开数据、代码、训练运行细节等的公司之一。定制模型、咨询等都是巨大的市场,随着我们在未来一年或左右时间内进入企业采用阶段,这些都是非常合理的商业模型,去年只是在测试。” 对于AI行业来说,Stability AI的公告标志着一个非凡的一周。在周一,Inflection AI宣布,该公司的两位联合创始人以及几名其他员工已加入Microsoft,后者领导了该初创公司最近一轮的融资。
Google ScreenAI代表了一款先进的视觉语言模型,专为用户界面(UI)和视觉情境下的语言理解而设计
屏幕用户界面(UI)和信息图表,例如图表、图解和表格,在人类沟通和人机交互中发挥着重要作用,因为它们促进了丰富和互动的用户体验。用户界面和信息图表共享类似的设计原则和视觉语言(例如,图标和布局),这提供了建立单一模型的机会,该模型能够理解、推理并与这些界面交互。然而,由于它们的复杂性和多样的呈现格式,信息图表和用户界面呈现了一个独特的建模挑战。 为了应对这一挑战,研究者们介绍了“ScreenAI:一个用于用户界面和信息图表理解的视觉-语言模型”。ScreenAI在PaLI架构的基础上进行了改进,采用了pix2struct中引入的灵活打补丁策略。研究者们在包括一项新颖的屏幕注释任务在内的独特数据集和任务组合上训练了ScreenAI,该任务要求模型识别屏幕上的用户界面元素信息(即,类型、位置和描述)。这些文本注释为大型语言模型(LLMs)提供了屏幕描述,使它们能够自动生成问答(QA)、用户界面导航和摘要训练数据集。仅在5亿参数的情况下,ScreenAI就在基于用户界面和信息图表的任务(WebSRC和MoTIF)上达到了最先进的结果,并且在与相似大小的模型相比,在Chart QA、DocVQA和InfographicVQA上表现最佳。研究者们还发布了三个新的数据集:Screen Annotation,用于评估模型的布局理解能力,以及ScreenQA Short和Complex ScreenQA,用于更全面地评估其问答能力。 ScreenAI的架构基于PaLI,包含一个多模态编码器块和一个自回归解码器。PaLI编码器使用视觉变换器(ViT)创建图像嵌入,并且多模态编码器将图像和文本嵌入的连接作为输入。这种灵活的架构使ScreenAI能够解决可以重新构想为文本加图像到文本问题的视觉任务。 在PaLI架构之上,研究者们采用了pix2struct中引入的灵活打补丁策略。不使用固定的网格模式,而是选择网格尺寸以保留输入图像的原生宽高比。这使ScreenAI能够很好地适应各种宽高比的图像。 ScreenAI模型在两个阶段进行训练:预训练阶段和微调阶段。首先,自监督学习被应用于自动生成数据标签,然后使用这些标签来训练视觉变换器和语言模型。在微调阶段,视觉变换器被冻结,大多数使用的数据是由人类评估员手动标记的。 为了为ScreenAI创建一个预训练数据集,研究者们首先编译了来自各种设备(包括桌面、移动和平板电脑)的大量屏幕截图。这是通过使用公开可访问的网页和遵循用于移动应用的RICO数据集的程序化探索方法来实现的。然后他们应用一个基于DETR模型的布局注释器,它能识别和标记广泛的用户界面元素(例如图像、图示、按钮、文本)及其空间关系。图示进一步使用一个能够区分77种不同图标类型的图标分类器进行分析。这种详细的分类对于解释通过图标传达的细微信息至关重要。对于未被分类器覆盖的图标,以及信息图表和图像,研究者们使用PaLI图像标题生成模型来生成描述性标题,提供上下文信息。他们还应用光学字符识别(OCR)引擎来提取和注释屏幕上的文本内容。研究者们将OCR文本与前述注释结合起来,创建了每个屏幕的详细描述。 通过使用PaLM 2增强预训练数据的多样性,研究者们在两步过程中生成输入-输出对。首先,使用上述技术生成屏幕注释,然后他们围绕这个架构为大型语言模型创建一个提示,以生成合成数据。这个过程需要提示工程和迭代细化来找到有效的提示。研究者们通过人类验证对生成数据的质量进行评估,以达到一个质量阈值。 ScreenAI在两个阶段进行训练:预训练和微调。预训练数据标签是通过自监督学习获得的,而微调数据标签来自人类评估员。 研究者们使用公开的问答、摘要和导航数据集对ScreenAI进行微调,并使用与用户界面相关的多种任务。对于问答,他们使用多模态和文档理解领域中建立良好的基准,如ChartQA、DocVQA、多页DocVQA、InfographicVQA、OCR VQA、Web SRC和ScreenQA。对于导航,使用的数据集包括Referring Expressions、MoTIF、Mug和Android in the Wild。最后,他们使用Screen2Words进行屏幕摘要,使用Widget Captioning描述特定用户界面元素。除了微调数据集,研究者们还使用三个新的基准测试来评估微调后的ScreenAI模型: – Screen Annotation:用于评估模型的布局注释和空间理解能力。– ScreenQA Short:ScreenQA的一个变体,其真实答案已缩短,仅包含与其他问答任务更一致的相关信息。– Complex ScreenQA:与ScreenQA Short相辅相成,包含更难的问题(计数、算术、比较和无法回答的问题),并包含具有各种宽高比的屏幕。 微调后的ScreenAI模型在各种基于用户界面和信息图表的任务(WebSRC和MoTIF)上达到了最先进的结果,并且与相似大小的模型相比,在Chart QA、DocVQA和InfographicVQA上表现最佳。ScreenAI在Screen2Words和OCR-VQA上也表现出竞争力。此外,研究者们还报告了在新引入的基准数据集上的结果,作为进一步研究的基线。 研究者们介绍了ScreenAI模型以及一个统一的表示,使他们能够开发利用所有这些领域数据的自监督学习任务。他们还展示了使用大型语言模型进行数据生成的影响,并探讨了通过修改训练混合来提高模型在特定方面的表现。他们将所有这些技术应用于构建多任务训练模型,与公开基准上的最先进方法相比,这些模型表现出竞争力。然而,研究者们也 注意到,尽管他们的方法与公开基准上的最先进方法相比显示出竞争力,但与大型模型相比仍有差距。他们强调,需要进一步的研究来弥合这一差距,并探索新的策略和技术以提升模型性能。 研究者们的工作不仅展示了ScreenAI模型在用户界面和信息图表理解方面的潜力,而且还为未来的研究提供了一个坚实的基础。通过发布新的数据集和展示通过大型语言模型生成数据的能力,他们为解决复杂的人机交互问题开辟了新途径。 此外,ScreenAI模型的开发揭示了跨领域融合的重要性,即将计算机视觉、自然语言处理和人机交互的最新进展结合起来,以解决长期存在的挑战。这种跨学科的方法不仅促进了技术进步,也为研究社区提供了丰富的资源,包括数据集、模型架构和训练策略,这些都是推动未来创新的关键因素。 总之,ScreenAI项目标志着在理解和互动与日益复杂的数字界面方面的重要一步。随着技术的不断进步,期待未来的研究能够继续探索这一领域的潜力,解锁更多的应用场景,从而更好地服务于人类与机器的交互。
谷歌DeepMind的新AI小助手,正在帮助顶尖足球教练变得更加出色哦!
足球队总是在寻找超越对手的方法。无论是研究球员受伤的可能性,还是对手的战术——顶级俱乐部都会翻阅成堆的数据,以确保自己赢得胜利的最佳机会。他们可能会想要将谷歌DeepMind开发的一款新AI助手纳入他们的武器库。这款名为TacticAI的系统,能够提出比职业俱乐部教练创建的战术更加出色的足球定位球战术建议。这个系统通过分析由世界上最大的足球俱乐部之一,利物浦FC的球员执行的7176次角球来工作。 角球是在球经过守方球员后越过球门线时,授予进攻方的。在足球这种流畅且不可预测的运动中,角球——就像任意球和点球一样——是比赛中球队可以尝试预先计划好的戏码的罕见时刻.TacticAI使用预测和生成型AI模型,将每个角球场景——比如接球者成功进球,或是对方防守者截球并将球返回给自己队伍——转化为图表,将每个球员的数据转化为图表上的一个节点,然后模拟每个节点之间的互动。该项工作今天在《自然通讯》上发表。使用这些数据,该模型提供关于在角球期间如何定位球员的建议,例如,给他们最佳射门机会,或者上场的最佳球员组合。它还可以尝试预测角球的结果,包括是否会射门,或哪位球员最有可能首先触球。 AI助手的主要好处是减少了教练的工作量,Ematiq体育数据公司的分析师Ondřej Hubáček说,他专门从事预测模型,并没有参与该项目。“一个AI系统可以快速地通过数据并指出一个团队正在犯的错误——我认为这是你可以从AI助手中获得的附加值,”他说。 为了评估TacticAI的建议,谷歌DeepMind将它们呈现给五位足球专家:三名数据科学家,一名视频分析师,和一名教练助理,他们都在利物浦FC工作。这些专家不仅很难区分TacticAI的建议和真实比赛场景,而且他们90%的时间都更喜欢系统的战略而不是现有的战术。 这些发现表明,TacticAI的战略对于现实比赛中的人类教练来说可能是有用的,谷歌DeepMind的首席研究科学家Petar Veličković说,他参与了该项目。“顶级俱乐部总是在寻找优势,我认为我们的结果表明,这样的技术很可能会成为现代足球的一部分,”他说。TacticAI的预测能力不仅限于角球——同样的方法也可以轻松应用于其他定位球,比赛中的一般播放,甚至是其他运动,比如美式足球、曲棍球或篮球,Veličković说。“只要有一项团队运动,你认为在其中模拟球员之间的关系将是有用的,而且你有数据来源,它就适用,”他说。
神奇科技突破:瘫痪男子通过Neuralink脑植入物重新掌控数字世界!
Neuralink刚刚向世界展示了首位接受该公司大脑植入物的人类受试者,他是一位29岁的男子,因为一次潜水事故,从肩部以下瘫痪已经八年了。 在社交媒体平台X上的一次简短直播中,这位男子自我介绍为诺兰·阿尔堡,他说通过Neuralink设备,他能够在线下棋和玩《文明》系列游戏。“如果你们能看到屏幕上的光标在移动,那全是我的功劳,”他在直播中移动一个数字棋子时说。“挺酷的,对吧?” Neuralink,这个2016年由亿万富翁埃隆·马斯克共同创立的公司,正在开发一种被称为大脑-计算机接口的系统,该系统能从大脑信号中解码出移动的意图。公司最初的目标是让瘫痪的人仅凭借思考就能控制光标或键盘。 在直播中,阿尔堡描述了他如何学会使用大脑-计算机接口。“我会尝试移动,比如,我的右手,左右,前后,然后我觉得让光标移动就变得直观了,”他说。虽然直播中的细节相对较少,但一个Neuralink工程师在视频中说,更多信息将在未来几天内发布。 阿尔堡还说,他觉得能成为Neuralink研究的一部分很幸运:“我甚至无法描述能做到这一点有多酷。” 该公司去年获得了美国食品和药物管理局的批准,可以开始初步的人体试验,并在秋季开始招募瘫痪的参与者来测试这个设备。 到目前为止,Neuralink关于该研究进展的细节透露不多。马斯克在1月份的一篇X帖子中宣布,第一位人类受试者已经接受了Neuralink的植入,并且“恢复得很好”。2月份他说,该受试者已经恢复,并且能够仅凭思考控制电脑鼠标。 马斯克在2月19日关于受试者状况的X上的Spaces音频对话中说:“进展是好的,患者似乎已经完全恢复,我们没有意识到任何不良效应。”他还补充说,“患者能够仅凭思考就在屏幕上移动鼠标。” Neuralink的设备是使用该公司开发的手术机器人植入大脑的,在放置后从外观上是不可见的。该公司设计了软件,分析大脑信号并将其转换为输出命令,以控制外部设备。 一些神经科学家和伦理学家批评Neuralink之前对试验的不透明。公众对Neuralink的研究所知甚少,来源于社交媒体帖子和公司去年发布的一份简短手册。 Neuralink没有透露将在研究中招募多少受试者,试验地点,或将评估哪些结果。公司也没有在ClinicalTrials.gov上注册,这是一个包含人类受试者医学研究信息的政府仓库。该公司还因为研究中所用动物的涉嫌处理方式而面临争议。WIRED去年的一项调查详细描述了一些猴子因为公司的大脑植入测试而死亡。 阿尔堡似乎解决了围绕设备的安全担忧。“我觉得,像,没什么好怕的,”他说。“手术超级简单。我字面上是在出院后一天就被释放了。”他说手术后他没有认知障碍。 几家其他公司也在争相将大脑-计算机接口商业化。一个竞争对手,Synchron,正在开发一种类似支架的设备,它被插入颈静脉并推上去,以便它靠在大脑上。这家位于纽约的公司在2019年植入了其第一位受试者,并且自那以后已经表明该设备是安全的,并且已经使瘫痪的人能够浏览网页并进行在线购物和银行业务。FDA还没有批准任何BCI;它们都还是实验性的。 阿尔堡承认他在使用该设备时遇到了一些问题。“我不希望人们认为这是旅程的终点。还有很多工作要做,”他说。“但它已经改变了我的生活。”
劲爆Twitter 帖子:微软CEO放炮了:“就算OpenAI明天消失了,我们也有备无患。”
马斯克在X上对帖子进行了回应,帖子中提到了微软CEO萨蒂亚·纳德拉在11月份短暂撤换萨姆·奥特曼期间,对董事会成员所做的一番霸气声明。 这句引人注目的话,摘自马斯克与奥特曼关于这家AI公司盈利性质的诉讼案的第9页。马斯克在2015年帮助创建了这家公司。
Meta 推出SceneScript,一种全新的3D场景重建方式
在今天的科技领域,元实验室研究团队宣布了一个名为“场景脚本”的创新方法,旨在重塑环境布局和表示物理空间的布局。这种方法通过模拟训练,利用了仅供学术使用的Aria Synthetic Environments数据集。想象一下,如果有一副既时尚又轻便的眼镜,能够结合上下文化的人工智能和显示屏,为你实时提供信息并在你日常生活中主动提供帮助,那将会是怎样的体验?为了实现这样一副增强现实(AR)眼镜,系统必须能够理解你的物理环境布局和世界的3D形状。这种理解能让AR眼镜根据你的个人情境定制内容,如将数字叠加物无缝融合进你的物理空间,或者在你探索陌生地点时提供逐步导航帮助。 然而,构建这些3D场景表示是一项复杂的任务。现有的混合现实头盔,如Meta Quest 3,是基于来自摄像头或3D传感器的原始视觉数据来创建物理空间的虚拟表示。这些原始数据被转换成描述环境独特特征的一系列形状,如墙壁、天花板和门。通常,这些系统依靠预定义的规则将原始数据转换成形状。然而,这种启发式方法经常会导致错误,特别是在具有独特或不规则几何形状的空间中。 元实验室研究团队今天介绍的场景脚本,采用了一种全新的生成场景布局和表示场景的方法。与其使用硬编码规则将原始视觉数据近似转换成房间的建筑元素,场景脚本则是训练直接推断出房间的几何形状。这导致了一种紧凑的物理场景表示形式,不仅减少了内存需求,还能产生类似于可伸缩矢量图形的清晰几何形状,并且重要的是,这种表示形式易于理解和编辑。 场景脚本是如何训练的?大型语言模型(LLMs),如Llama,使用一种称为下一令牌预测的技术,模型根据之前的单词预测句子中的下一个单词。例如,如果你输入“这只猫坐在……”模型可能会预测下一个单词是“垫子”或“地板”。场景脚本利用了LLMs所使用的同一概念。然而,它不是预测一般的语言令牌,而是预测下一个建筑令牌,如“墙”或“门”。 通过提供大量的训练数据,场景脚本模型学习如何将视觉数据编码成场景的基本表示,然后解码成描述房间布局的语言。这使得场景脚本能够从视觉数据中解读和重构复杂环境,并创建有效描述其分析场景结构的文本描述。 培训场景脚本所面临的独特挑战在于,尽管LLMs依赖于从网络上公开可用的文本来源获取的大量训练数据,但对于训练端到端模型所需的物理空间的规模,尚不存在此类信息库。因此,元实验室研究团队不得不寻找另一种解决方案。他们创建了一个名为Aria Synthetic Environments的室内环境合成数据集,该数据集包含100,000个完全独特的室内环境,每个环境都使用场景脚本语言描述,并配有模拟的场景漫游视频。 这种方法使得场景脚本模型可以完全在模拟条件下,保护隐私的情况下进行训练。然后,可以使用来自项目Aria眼镜的实际世界视频来验证模型的泛化能力。 去年,他们将Aria Synthetic Environments数据集提供给学术研究人员,希望这将有助于加速这一令人兴奋的研究领域内的公共研究。
GPT-5可能会在今年夏天作为对ChatGPT的“实质性改进”而到来
自从OpenAI一年前推出其GPT-4人工智能模型以来,该模型模仿人类沟通和作文的能力引发了巨大的热潮和存在性恐慌。从那时起,人工智能领域最大的问题仍然是:GPT-5何时发布?在全球的采访和媒体露面中,OpenAI的首席执行官Sam Altman经常被问到这个问题,他通常给出一个含糊或回避的答案,有时还伴随着对令人惊奇的未来的承诺。 根据Business Insider的一份新报告,预计OpenAI将在2024年中期某个时候发布GPT-5,这是一个改进版的人工智能语言模型,该模型驱动了ChatGPT,很可能在夏天。两个熟悉公司情况的匿名消息来源透露,一些企业客户最近收到了GPT-5及其对ChatGPT的相关增强功能的演示。 一位最近看过GPT-5版本的首席执行官形容它为“真的很好”和“质的飞跃”,OpenAI使用针对其公司独特的用例和数据演示了新模型。这位首席执行官还暗示了该模型的其他未发布功能,例如能够启动OpenAI正在开发的执行自动任务的AI代理。 当被问及GPT-5的发布日期和Business Insider的报告时,OpenAI的代表回应说他们没有具体评论,但他们引用了Altman最近在Lex Fridman播客上的一段出场记录。 Lex Fridman(01:06:13)那么GPT-5何时再次发布?Sam Altman(01:06:15)我不知道。这是真诚的回答。Lex Fridman(01:06:18)哦,这是真诚的回答。如果是今年请眨两次眼睛。Sam Altman(01:06:30)我们将在今年发布一个惊人的新模型。我不知道我们会叫它什么。Lex Fridman(01:06:36)那就是关于我们如何发布这个东西的问题吗?Sam Altman(01:06:41)我们将在接下来的几个月发布许多不同的东西。我认为那会非常酷。我认为在我们讨论一个类似GPT-5的模型之前,不管它是否被这样称呼,或者比你对GPT-5的期待略好或略差,我认为我们首先有很多其他重要的东西要发布。 在这次对话中,Altman似乎暗示公司准备在今年推出一个重大的AI模型,但是否将其称为“GPT-5”或视为GPT-4 Turbo的重大升级(或许是像GPT-4.5这样的渐进式更新)还未定。 与其前身一样,GPT-5(或无论它将被称为什么)预计将是一个多模态大型语言模型(LLM),可以接受文本或编码的视觉输入(称为“提示”)。就像GPT-4一样,GPT-5将是一个下一个令牌预测模型,这意味着它将输出在序列中最有可能的下一个令牌(一个词的片段)的最佳估计,这允许执行任务,例如完成一个句子或编写代码。当以特定方式配置时,GPT模型可以为像ChatGPT这样的会话聊天机器人应用提供动力。 OpenAI在2023年3月发布了GPT-4,作为其最主要的前身GPT-3的升级,GPT-3在2020年出现(GPT-3.5在2022年底到来)。去年11月,OpenAI发布了GPT-4 Turbo,大幅降低了OpenAI最佳AI模型的推理(运行)成本,但一直饱受“懒惰”指控,模型有时拒绝回答提示或完成编码项目。OpenAI已经多次尝试解决懒惰问题。 像OpenAI开发的这样的LLM是在从互联网上抓取的大型数据集和从媒体公司获得的许可数据上训练的,使它们能够以类似人类的方式响应用户提示。然而,模型提供的信息质量可能根据使用的训练数据而变化,也基于模型编造信息的倾向。如果GPT-5能够改善泛化能力(执行新任务的能力)的同时减少业界通常称为“幻觉”的现象,它很可能代表该公司的一个显著进步。 据报道,OpenAI仍在训练GPT-5,在完成后,该模型将进行内部安全测试和进一步的“红队”测试,以识别并解决任何问题,然后才公开发布。根据安全测试过程持续的时间,发布日期可能会延迟。 当然,报告中的消息来源可能会出错,GPT-5可能会因测试之外的原因而推迟发布。因此,请将此视为一个强烈的传言,但这是我们首次从一个可信赖的来源看到关于GPT-5可能发布日期的信息。此外,现在我们知道据报道GPT-5已经完成到足够进行测试的阶段,这意味着其主要训练运行很可能已经完成。后续可能还会有更多的改进。
Google研究者们提出了VLOGGER模型
Google研究者们提出了VLOGGER (https://enriccorona.github.io/vlogger/),这是一种基于单张人物图像进行文本和音频驱动的人物视频生成方法,该方法基于最近生成式扩散模型的成功。该方法包含两部分:1)一个随机人体到3D运动的扩散模型,以及2)一种新颖的基于扩散的架构,该架构通过时间和空间控制增强了文本到图像模型。这种方法能够生成高质量、可变长度的视频,并且可以通过人脸和身体的高级表示轻松控制。与以往的工作不同,该方法不需要针对每个人进行训练,不依赖于人脸检测和裁剪,能够生成完整图像(而不仅仅是脸部或嘴唇),并考虑了广泛的场景(例如,可见的躯干或多样的主体身份),这对于正确合成交流的人类至关重要。 研究者们在三个不同的基准测试上评估了VLOGGER,并展示了所提出的模型在图像质量、身份保持和时间一致性方面超越了其他最先进的方法。他们收集了一个新的、多样化的数据集MENTOR,其规模比之前的数据集大一个数量级(2200小时、800000个身份,以及一个测试集120小时、4000个身份),在此数据集上训练和消融了主要技术贡献。研究者们报告了VLOGGER在多个多样性指标上的性能,显示出他们的架构选择有利于大规模训练一个公平和无偏见的模型。 VLOGGER如何工作? 研究者们的目标是生成一个变长的真实感视频,描绘目标人物的说话场景,包括头部和手势。他们称之为VLOGGER的框架是一个基于随机扩散模型的两阶段管道,用以模拟从语音到视频的一对多映射。第一个网络以音频波形为输入,生成中间的身体动作控制信号,这些控制信号负责目标视频长度内的注视、面部表情和姿势。 第二个网络是一个时间图像到图像转换模型,扩展了大型图像扩散模型,利用预测的身体控制信号生成相应的帧。为了将过程条件化到特定身份,网络还需要一张人物的参考图像。
Google的MELON: 通过未定位图像重建精确3D模型的突破性算法
Google 最近开发的一种名为MELON的新算法,代表了计算机视觉领域的一项重大进展,使得在只有少量图像的情况下重建物体的3D形状成为可能。这一基础的计算机视觉任务在从电子商务3D模型的创建到自动驾驶汽车导航等多个领域都有广泛应用。 关键的问题之一是如何确定拍摄图像的确切位置,这一过程称为姿态推断。如果相机姿态已知,一系列成功的技术——如神经辐射场(NeRF)或3D高斯投影——可以重建3D物体。但如果这些姿态不可用,就会遇到困难的“先有鸡还是先有蛋”的问题,即如果我们知道3D物体,我们可以确定姿态,但在知道相机姿态之前我们无法重建3D物体。伪对称性——即许多物体从不同角度观看时看起来相似——使这个问题更加复杂。例如,正方形物体如椅子每旋转90°看起来都很相似。通过在转盘上从各种角度渲染物体并绘制其光度自相似性图,可以揭示物体的伪对称性。 在介绍了一种名为“MELON: 在SO(3)中未定位图像的NeRF”(MELON: Modulo Equivalent Latent Optimization of NeRF)的技术后,该技术在3DV 2024大会上受到关注,它可以完全从头开始确定以物体为中心的相机姿态,同时重建物体的3D形状。MELON是首批能够在没有初始相机姿态估计、复杂训练方案或有标签数据的预训练的情况下实现这一目标的技术之一。MELON是一种相对简单的技术,可以轻松地整合到现有的NeRF方法中。研究团队演示了MELON如何从未定位图像中重建NeRF,并在只需要4-6张物体图像的情况下实现了最先进的精度。 为了帮助解决这个难题,研究团队利用了两项关键技术来促进收敛。第一项是一个非常轻量级、动态训练的卷积神经网络(CNN)编码器,该编码器可以从训练图像中回归相机姿态。通过将缩小的训练图像传递给一个四层CNN来推断相机姿态。这个CNN从噪声中初始化,不需要预训练。其容量如此之小,以至于它迫使看起来相似的图像具有相似的姿态,从而为收敛提供了一个隐式的正则化。 第二项技术是模除损失(modulo loss),它同时考虑了物体的伪对称性。对于每个训练图像,研究团队从一组固定的视点渲染物体,只通过与训练图像最匹配的视图进行损失的反向传播。这有效地考虑了每张图像的多个视图的可能性。实际上,研究团队发现,在大多数情况下,N=2视图(从物体的另一侧观察)就足够了,但有时对于方形物体使用N=4可以获得更好的结果。 这两种技术被整合到标准的NeRF训练中,除了相机姿态不是固定的,而是由CNN推断并通过模除损失复制。光度梯度通过最佳匹配的相机反向传播到CNN中。研究团队观察到,相机通常会迅速收敛到全局最优姿态。在神经场训练完成后,MELON可以使用标准的NeRF渲染方法合成新的视图。 研究团队简化了问题,使用了NeRF合成数据集,这是NeRF研究的一个流行基准,并且在姿势推断文献中很常见。这个合成数据集的相机位于精确固定的距离,并且具有一致的“向上”方向,研究团队需要推断的只是相机的极坐标。这就像一个物体位于球体中心,相机始终指向它,在表面上移动一样。然后研究团队只需要纬度和经度(2个自由度)来指定相机姿势。 MELON使用了一个动态训练的轻量级CNN编码器,该编码器可以为每张图像预测一个姿态。通过模除损失复制预测的姿态,该损失只惩罚与地面真实颜色的最小L2距离。在评估时,神经场可以用于生成新的视图。 为了评估MELON在NeRF合成数据集上的性能,研究团队计算了两个关键指标。地面真实姿势与推断姿势之间的方向误差可以量化为单一的角度误差,该误差在所有训练图像中平均计算,得到姿势误差。接着,研究团队通过测量从新视角渲染的MELON物体与保留测试视图的峰值信号噪声比(PSNR)来测试MELON渲染物体的准确性。结果显示,MELON在训练的前1000步内快速收敛到大多数相机的大致姿势,并在50k步后达到了27.5 dB的竞争性PSNR。 MELON在优化过程中对玩具卡车模型的收敛表现。左侧:NeRF的渲染图。右侧:极坐标图显示预测的(蓝色X标记)与地面真实(红点)相机的位置。MELON对NeRF合成数据集中的其他场景也取得了类似的结果。 此外,MELON还在从极度嘈杂的未定位图像进行新视角合成时表现良好。研究团队向训练图像中添加了不同量的白高斯噪声。例如,尽管在σ=1.0的情况下物体几乎无法辨认,但MELON仍能确定姿势并生成物体的新视图。 MELON从极嘈杂的未定位128×128图像中合成新视图的能力。顶部:训练视图中存在的噪声水平示例。底部:从嘈杂训练视图重建的模型及其平均角度姿势误差。考虑到如RawNeRF这样的技术已展示了NeRF在已知相机姿势下的出色去噪能力,MELON在未知相机姿势的嘈杂图像上如此稳健地工作的事实是意料之外的。 总结,MELON是一种无需近似姿势初始化、复杂的GAN训练计划或预训练有标签数据即可确定以物体为中心的相机姿势并重建3D物体的技术。MELON是一种相对简单的技术,可以轻松地集成到现有的NeRF方法中。尽管研究团队只在合成图像上演示了MELON的应用,但他们正在调整其技术以适应现实世界的条件。了解更多信息,请参阅相关论文和MELON网站。https://melon-nerf.github.io/