在全球各地的组织中,2023年的AI热潮正迅速演变成更有趣、更实用的东西:真正重要的AI驱动商业成果。原因在于AI能力在整个计算堆栈中的最新进展,使得任何行业、地理位置或成长阶段的组织都能接触到通常只有少数人能享受的潜力。随着越来越多的人使用这些新能力,可以期待创新和成果的激增。 谷歌的Gemini等模型系列是生成AI最初突破的最强表达,使人们和设备能够用自然人类语言进行交互。在人类提示的指导下,计算机合成难以想象的大量数据,以消化信息、做出预测、协助任务或创建新颖内容,从文本到图像再到新的计算机代码。Gemini比以往任何时候都走得更远,作为世界上第一个原生多模态模型。 以前,你需要不同的模型来理解文本、音频、代码、图像、数学或视频。Gemini可以同时处理所有这些,就像人类在合作时同时阅读、说话和观察周围世界一样。 杜埃特人工智能摘要 随着生成AI在2024年的更广泛采用,领导者应该考虑三个重要支柱:经济和能源;普及和获取;信任和安全。 在蓬勃发展的AI竞赛中,平衡相互竞争的需求并采取适度的风险将是走在前列的关键。 “我们相信,AI不会结束工作,而是会对人类的创造力、合作和发明提出新的要求,与当今世界面临的挑战相称。” 这个摘要是使用Google Workspace的Duet AI创建的。 在2023年的“哇”时刻之后,许多企业面临着这样的问题:“这对我们的业务意味着什么,成本是多少?”作为谷歌云的首席技术官,我的工作使我有幸了解技术的发展方向(人工智能助手、平台和基础设施的融合),以及一些世界顶尖组织如何已经利用它。总的来说,我看到了三个关键支柱,这将影响公司如何理解、部署和使用2024年的生成AI。 经济和能源 在企业中使用生成AI的可行性通常集中在关键成本上,既包括财务方面,也越来越多地包括环境方面。严格的执行满足了业务的财务生命和遵守法规及企业公民身份的日益重要性。 生成AI使用巨大的计算能力,带来能源使用的成本和社会挑战。客户将需要了解数据中心的能源管理方式,并具有优化生产以使用尽可能清洁的地区和区域的灵活性。这可能会影响编写软件的做法,并可能作为开发者实践的一部分采用碳预算。我们的客户希望我们继续我们的重大可持续性努力,可持续的生成AI在2024年的需求和重要性很可能会上升。 谷歌在2015年将AI融入搜索。亲身经历这种AI扩展挑战——并知道历史上,软件成本的50%或更多是维护,包括改进——使得效率成为我们的早期优先事项。所以我们开发了Tensor Processing Units (TPUs),这是专门处理AI工作负载的专用芯片,包括生成AI,以大幅降低成本和更好的能源使用。成为稀缺的客户投资美元和有限的全球能源供应的伟大管家是所有现代组织的不容置疑的优先事项。 普及和访问 对许多人来说,首次接触生成AI可能是在产品中,如一个将旧数据库转换为新的、更强大的产品的工具,一个帮助管理工作生活的助手,或一个提供高质量医疗问题答案的机器人。这些都依赖于一种新的计算范式,它使用来自更多来源的更多数据,以更灵活的方式。例如,医院账单中的信息可能会被汇总以发现国家健康趋势,或重新利用以跟踪在不同位置提供服务所需的时间,发现护理短缺。 使用正确的基础模型和工具,即使是在人员和资源有限的组织中,也将可能实现这种事情。随着它变得普遍和无处不在,生成AI不再意味着一个模型,而是意味着一个有帮助的、可能是神奇的体验。 还有一个问题是确保生成AI对市场上的每个人都是可访问和有用的,而不仅仅是几个巨头。工具和平台需要允许任何人高效、负责任地开始使用AI,并且这些应该容易找到和表面化。一些界线将变得模糊,包括更无缝地在基于网络的实验环境和具有强大安全性和保证的健壮、平台支持的环境之间转移。 变成根据每个企业的需求和文化定制的产品,甚至适应个别员工和客户。用企业自有数据来打磨和调整大型语言模型(LLM),使公司内部的背景知识和智慧能够提升模型的性能。引入“参数高效微调”技术将使这种定制对更广泛的组织来说更加现实。 我们将看到在提升模型输出方面的迅速进步,如精馏、集成和联合(所有新兴的方式),以及将开发工作开放给更广泛员工的新创作工具。在高度监管的行业,如金融和医疗保健,组织可能会采取比游戏和媒体等行业更为谨慎的方法。 信任与安全 支撑生成AI颠覆的将是对负责任提供商的基本人类和组织信任需求。上面提到的医疗保健例子是一个激动人心的想法,但它强调了对普遍数据加密和AI增强安全性的需求,以便一次访问多个位置的数据,包括不同的云和本地系统,以及有效的成本监控。 我们最新的基于Gemini的生产力、威胁检测和响应进展使生成AI成为企业安全的前沿。如果说有什么,这强调了威胁不会消失,而且可能会获得自己的AI驱动能力。安全性也需要自己的生成AI工具,能够以全新的方式发现和解释威胁。我们的特定领域语言模型Sec-Palm 2,针对广泛的安全用例进行了培训,能够立即识别潜在的恶意脚本,并向团队报告活跃威胁。 就像个人根据与以前的经验相比较来决定是否信任他们所看到、听到和阅读的内容一样,组织也将开始索引他们所知道的。然后,他们可以使知识和数据在创造体验、效率和差异化方面变得更加容易获得和有用,这些差异化作为他们辛苦赢得的可信度的可靠延伸。 2024年开始 我们现在正处于人机交互的一个非凡新阶段。它变得越来越强大,同时也变得更容易使用,无论是对于个人开发者还是企业。远非结束工作,我们相信它将对人类的创造力、合作和发明提出新的需求,与当今世界面临的挑战相称。 在未来一年及以后,我们将看到生成AI变得更加有用,围绕它是如何工作、成本是多少以及如何最好地部署它们以创造突破性体验的透明度更大。通过这种方式,炒作将让位于真正的价值和愉悦。 许多企业已经开始,其他企业正在寻求与AI接触。学习的方式有很多,从视频概述和行业基础知识到培训教程或课程和认证。参与可以很简单,就像尝试一个即开即用的解决方案来促进合作或改善呼叫中心的性能。一旦您和您的组织看到开始是多么容易,我相信您的创造力将解锁更多用例和体验,推动我们所有人的发展。
Author: aitrendtrackers@rengongzhineng.io
Unified-IO 2: 通过视觉、语言、音频和动作扩展自回归多模态模型。给大家提前预演了GPT5?
首个自回归的多模态模型,能够理解和生成图像、文本、音频和动作。为了统一不同的模态,将输入和输出——图像、文本、音频、动作、方框等,标记化到一个共享的语义空间中,然后使用单一的编码器-解码器变换模型来处理它们。由于训练如此多样化的模态极其困难,提出了各种架构改进以稳定模型。从零开始训练的模型,在一个大型多模态预训练语料库上进行训练,该语料库来源于多种渠道,使用多模态去噪目标混合。为了学习广泛的技能,比如遵循多模态指令,构建并微调了一个由120个现有数据集组成的集合,其中包括提示和增强。通过单一的统一模型,统一输入输出 2 在 GRIT 基准测试中实现了最先进的性能,并在包括图像生成与理解、文本理解、视频和音频理解以及机器人操控等30多个基准测试中取得了强有力的成绩。 它基于区区70亿参数构建,并经过大量多模态数据的精心训练(包括10亿图像-文本配对、1万亿文本标记,以及大量的视频、图像和3D内容)。在超过35个不同的基准测试中表现出色,统一输入输出 2 不仅仅是人工智能领域的一步,而是一大跃进,展示了多模态训练在理解和生成复杂、跨媒介内容方面的巨大潜力。 所有模型发布给研究社区。 详细的区看看: https://unified-io-2.allenai.org/ 和 https://github.com/allenai/unified-io-2
AI技术已经发现了一种新材料,可以在电池制造中减少对锂的需求
通过人工智能(AI)和超级计算的协同作用,科学家们发现了一种新物质,这种物质有望在电池中减少锂的使用。 这项发现由微软和太平洋西北国家实验室(PNNL)共同完成,后者是美国能源部的一部分。科学家表示,这种材料有潜力将锂的使用量减少高达70%。 自从这种新材料被发现以来,它已被用来为一个灯泡供电。 微软的研究人员利用AI和超级计算机,从3200万种潜在的无机材料中筛选出18种有前途的候选物质,这一过程不到一周就完成了 —— 使用传统实验室研究方法可能需要20多年。 从构想到开发出工作原型电池的过程不到九个月。 这两个机构通过使用先进的AI和高性能计算实现了这一目标,后者结合了大量计算机来解决复杂的科学和数学任务。 微软执行副总裁 Jason Zander 告诉BBC,该科技巨头的使命之一是“将接下来的25年压缩成250年的科学发现”。 “我们认为这样的技术将帮助我们实现这一目标。我认为这是未来进行这类科学研究的方式,”他说。 锂的问题 锂常被称为“白金”,因其市场价值和银白色。它是电动汽车(EVs)到智能手机等一切设备中可充电电池(锂离子电池)的关键组成部分。 随着对该金属的需求激增,以及对电动汽车的需求上升,根据国际能源署的说法,世界可能在2025年就面临材料短缺。 美国能源部预计,到2030年,锂离子电池的需求量将增加十倍,因此制造商正在不断建设电池厂以跟上需求。 锂矿开采可能引起争议,因为它可能需要数年时间才能发展,对环境产生重大影响。提取这种金属需要大量的水和能源,这个过程可能在景观中留下巨大的疤痕,并产生有毒废物。 伦敦帝国理工学院化学系的电池研究团队负责人 Nuria Tapia-Ruiz 博士表示,任何含有较少锂并具有良好储能能力的材料都是锂离子电池行业的“圣杯”。 “AI和超级计算将成为电池研究人员在未来几年的关键工具,以帮助预测新的高性能材料,”她说。 但斯特拉斯克莱德大学化学工程学讲师 Edward Brightman 博士表示,这项技术需要“小心对待”。 “它可能会提出似是而非的结果,或者看起来很好的结果,然后被证明要么是已知的材料,要么是无法在实验室合成的材料,”他说。 这种AI衍生的材料,目前仅被称为N2116,是一种固态电解质,科学家已经将其从原材料测试到工作原型。 由于固态电池比传统的液体或凝胶状锂更安全,它有潜力成为一种可持续的能源储存解决方案。 在不久的将来,充电更快的固态锂电池承诺将具有更高的能量密度,并具有数千次的充电周期。 这种AI有何不同? 这项技术的工作方式是使用微软创建的一种新型AI,该AI经过分子数据训练,可以实际上解析化学。 “这种AI都是基于科学材料、数据库和属性,”Zander解释说。 “这些数据非常可靠,可用于科学发现。” 在软件缩减了18个候选者之后,PNNL的电池专家们接着审查了这些候选物质,并挑选了最终在实验室中工作的物质。 PNNL的 Karl Mueller 说,微软的AI洞察指引他们“比正常工作条件下更快地进入潜在的有益领域”。 “修改、测试并调整这种新材料的化学成分,并迅速评估其作为工作电池的技术可行性,展示了先进AI加速创新周期的潜力,”他说。
AI 魔镜,魔镜,告诉我,谁是世界上最美的人?
加拿大公司NuraLogix在2024年CES展会上展示了一款通过面部诊断疾病的新设备 —— “魔镜” Anura MagicMirror。《Rambler》引用CNET的报道这一消息。 这款设备是一面带有21.5英寸屏幕的台式镜子,配备了摄像头和其他传感器。它通过扫描人的面部来分析皮肤下血管中的血液流动。这是通过专利的透皮光学成像技术实现的。 机器学习算法根据获得的数据分析超过100种健康参数。 Anura MagicMirror能够提供关于血压、体质指数、心率变异性、脉搏率、呼吸率和面部皮肤年龄的信息。该设备还能提供糖尿病、心脏病、中风、高血压、脂肪肝等疾病的风险评估。Anura MagicMirror还提供心理健康风险评估,例如检测焦虑和抑郁的迹象。 扫描一张脸只需30秒,用户随后就可以收到潜在病理的信息。 该设备的发布日期和成本尚未公布。Anura MagicMirror很可能会被用于医院候诊室和养老院。
Nvidia 推出了一款新型芯片,专为在家中运行人工智能而设计。看来,Intel 和 AMD 这样的竞争对手也开始紧随其后了
去年 Nvidia 成为人工智能热潮的中心,原因是其昂贵的服务器图形处理器(例如 H100)对于训练和部署像OpenAI的ChatGPT这样的生成型AI至关重要。现在,Nvidia 正在发挥其在消费者GPU领域的优势,推广所谓的“本地”AI,这种AI可以在家庭或办公室的个人电脑或笔记本上运行。 Nvidia 在周一宣布了三款新的显卡 — RTX 4060 Super、RTX 4070 Ti Super 和 RTX 4080 Super,价格在599至999美元之间。这些显卡具有额外的“张量核心”,专为运行生成型AI应用程序设计。Nvidia 还将为Acer、Dell和Lenovo等公司的笔记本电脑提供显卡。 Nvidia 企业级GPU的需求激增,每个价格高达数万美元,通常以八个GPU一起工作的系统形式出现,这导致Nvidia整体销售额激增,市值超过1万亿美元。 对于个人电脑的GPU长期以来一直是Nvidia的主要产品,主要用于运行视频游戏,但公司表示,今年的显卡在运行AI模型时不需要将信息发送回云端,这方面已经有所改进。 公司表示,新的消费级图形芯片主要用于游戏,但仍然可以快速处理AI应用。例如,Nvidia 表示,RTX 4080 Super生成AI视频的速度比上一代型号快150%。公司最近宣布的其他软件改进将使大型语言模型处理的速度提高五倍。 Nvidia 的产品管理高级总监 Justin Walker 在新闻发布会上告诉记者:“随着1亿RTX GPU的出货,它们为强大的PC提供了大量安装基础,用于AI应用。” Nvidia 预计,在未来一年中将出现新的AI应用,以利用增加的计算能力。预计微软将在今年晚些时候发布新版本的Windows操作系统 — Windows 12,该系统将进一步利用AI芯片。 Walker表示,新芯片可用于在Adobe Photoshop的Firefly生成器上生成图像,或在视频通话中去除背景。Nvidia 也在创建工具,允许游戏开发者将生成型AI集成到他们的游戏中,例如,生成非玩家角色的对话。 在Edge与Server方面,Nvidia 本周的芯片公告显示,尽管它一直是与大型服务器GPU最相关的公司,但它也将与Intel、AMD和高通在本地AI领域竞争。这三家公司都已经宣布了将为所谓的“AI PC”提供动力的新芯片,这些芯片专门用于机器学习。 随着科技行业正在探索部署生成型AI的最佳方式,这成为Nvidia的举措的背景,这种AI需要大量的计算能力,并且在云服务上运行成本非常高。 微软和Nvidia的竞争对手正在推广的一种技术解决方案是所谓的“AI PC”或有时称为“边缘计算”。这种方式不是通过互联网使用强大的超级计算机,而是设备内部拥有更强大的AI芯片,它们可以运行所谓的大型语言模型或图像生成器,尽管会有一些权衡和缺陷。 Nvidia 提出的应用程序可以使用云模型来处理复杂问题,同时使用本地 AI模型来执行需要快速完成的任务。 Nvidia 的 Walker 说:“云中的Nvidia GPU可以运行非常大的大型语言模型,并使用所有那些处理能力来支持非常大的AI模型,同时,您PC中的RTX张量核心将运行更具延迟敏感性的AI应用。” 公司表示,新的显卡将符合出口管制规定,可以运送到中国,为无法获得Nvidia最强大的服务器GPU的中国研究人员和公司提供了一种选择。
“Tab” 的新型可穿戴人工智能项链
最新热点来了,快来围观!Avi Schiffmann 推出了一款名为 “Tab” 的新型可穿戴人工智能项链,号称想成为你的私人AI小伙伴。Tab 这个声控项链会倾听你的对话,并对你的生活和人际关系提供洞察。最近,它刚刚募集到190万美元的资金,听起来是不是超酷的样子? 所以这是个什么鬼东西呢? Tab 就像一个永远在线的AI朋友,通过不断的倾听来了解用户的生活,取代了传统的生活指导和心理治疗。 那它到底是怎么工作的呢? Tab 就像一个挂在脖子上的侦探,记录你聊天的声音。它使用像ChatGPT这样的AI技术来记录这些对话,并追踪有关你的细节。Tab的目标是学习你的生活背景,并在你不提出具体问题的情况下,提供个性化的洞察。 与Humane的Ai别针和Rabbit的R1不同,Avi的Tab采取了不同的方式。它并不是与手机竞争,而是让AI变得更贴近你:成为你的伴侣、你的助手和你的向导。 Schiffmann认为,Tab通过始终在那里的方式,可以比常规应用程序建立更深的联系。他设想它会演变成一种虚拟的治疗师、教练或是你信赖的人。为了平衡隐私和收集有用数据,Tab只记录声音,不录像。 如果Tab运作良好,它可能会开启一种新的、环境感知型的辅助AI方式。与其需要向聊天机器人提问,Tab旨在更自然地理解你的生活模式和需求。这不仅引发了有关持续监控的有趣问题,还可能带来自我改善和情感支持等潜在优势。 虽然还很新,但Tab代表了一种将AI视为增强生活的伙伴而非仅仅是工具的愿景。它的影响涵盖了心理健康、生产力和人际关系等多个领域。Tab的推出将是被动、亲密AI在人们日常生活中的一个重要测试案例。
CES 2024:LG专注于新产品的人工智能变革
LG是2024年CES上最早展示其产品的公司之一。从一个范式转变开始,它重申了去年从一家消费电子公司转变为专注于智能生活解决方案的公司这一变化。 不同的AI 展示的第一个细节是LG对我们所处的人工智能历史节点的认识。对于公司而言,他们寻求的是AI能够创造出切实的好处。为此,他们正在重新定义AI为“亲情智能”,并将这一变化应用于改善消费者体验。 全屏 去中心化的智能家居 LG首次应用这一变化的地方之一是在家庭中。该公司通过其LG ThinQ产品线展示了视角的转变,其中AI实现了对最终用户的服务和产品的优化。从购买过程开始,用户通过AI生成购买和使用建议,作为LG ThinQ Up 2.0的一部分。 全屏 LG的变化也在于用户数据的安全性,这就是为什么该公司的智能产品将需要一个新的Smart Home Hub,这是一种带有AI的设备,所有智能设备都连接到这里,它们使用的数据始终保存在家中,防止数据泄露。 智能家居AI代理 LG还展示了一个小型机器人,它将在家中陪伴我们。它能够识别命令并向家中的用户提供信息和提醒。如有必要,它甚至可以发出紧急电话,并能够了解家中的不同情况。 全屏 电视和webOS 在电视方面,LG首先展示了其Alpha 11处理器,其性能是过去的4倍,公司将继续为其设备带来更多功能。同时,该公司庆祝了webOS的十周年,这是其电视的操作系统,通过它,公司设备能够展示网络内容。在此之后,LG承诺从今年开始,所有设备将有5年的webOS更新,以及Chromecast的到来。 然而,真正的惊喜是LG Signature OLED T,这是一款无线4K OLED电视,它力求成为我们家庭空间的设计对象,这归功于其可以变成透明的屏幕。 全屏 软件定义车辆 最后,LG展示了其对汽车行业的愿景,该愿景旨在将驾驶体验转变为带轮子的生活空间。这也基于识别用户的AI,使驾驶体验更加舒适和辅助。从在汽车中使用Netflix和YouTube进行视频流媒体到为孩子们在车后部玩视频游戏等。
AI的Killer App还缺席
想想看,ChatGPT差点没能成为现实,这真是有些奇怪。在2022年11月推出前,OpenAI的联合创始人兼首席科学家伊利亚·苏茨凯弗对其准确性并不感冒。公司内部的其他人担心,这并不算是什么大的进步。从本质上看,ChatGPT更像是一次混搭而非革命。它的驱动核心是GPT-3.5,这是OpenAI几个月前开发的一款大型语言模型。但这个聊天机器人加入了几个吸引人的调整——特别是更加对话化、更加贴切的回应——这一切汇集成了一个容易上手的包装。“它既能干又方便,”苏茨凯弗说,“这是AI进步首次对AI领域之外的人可见。” ChatGPT引发的热潮尚未结束。“AI是唯一的玩家,”苏茨凯弗说,“它是科技界的最大事物,而科技是经济中最大的事物。我认为,AI的潜力还会持续给我们带来惊喜。” 但现在我们已经见识了AI的能力,也许当务之急是弄清楚它到底是用来干什么的。OpenAI在没有明确的使用目的的情况下构建了这项技术。当他们发布ChatGPT时,研究人员似乎在说:这里有一个东西,想怎么用就怎么用。从那以后,大家都在努力弄清楚这意味着什么。 “我发现ChatGPT很有用,”苏茨凯弗说。“我经常用它来做各种随机的事情。”他说他用它来查找某些词汇,或者帮助自己表达得更清楚。有时他用它来查事实(尽管它不总是准确的)。OpenAI的其他人用它来规划假期(“世界上最佳的三个潜水点是哪些?”)或编程提示,或IT支持。 有用,但并非改变游戏规则的。上述大多数例子都可以用现有工具,比如搜索来完成。与此同时,据说谷歌内部的员工对公司自己的聊天机器人Bard(现在由谷歌的GPT-4竞争对手Gemini提供支持,上个月发布)的实用性表示怀疑。“我仍在思考的最大挑战是:LLM(大型语言模型)到底真正有用在哪里,就实用性而言?”谷歌Bard的用户体验主管凯西·珀尔在8月份Discord上写道,据彭博社报道。“比如真正做出改变。待定!” 没有杀手级应用,那种“哇”效应就会逐渐消退。红杉资本的统计数据显示,尽管AI应用如ChatGPT、Character.ai和Lensa(后者让用户创造风格化的(且性别歧视的)自画像)拥有病毒式的推出,但它们流失用户的速度比YouTube、Instagram和TikTok等现有流行服务要快。 “消费科技的规律仍然适用,”贝纳奇说。“会有很多实验,很多东西在几个月的炒作之后就会沉寂。” 当然,互联网的早期也充满了失败的尝试。在它改变世界之前,点 com 泡沫以崩溃告终。总有可能,今天的生成型AI会逐渐消失,被接下来的大事件所取代。 无论发生什么,现在AI已经完全进入主流,小众问题已经成为每个人的问题。正如舍弗所说:“我们将被迫以前所未有的方式解决这些问题。”
微软任命迪·坦普尔顿为OpenAI董事会观察员
微软公司高管迪·坦普尔顿近日加入了OpenAI董事会,成为非投票观察员。据知情人士透露,这是在短暂罢免该初创公司首席执行官后,董事会进行的一系列重大调整的一部分。 根据她的LinkedIn资料,坦普尔顿在微软工作超过25年,目前是公司技术与研究合作及运营的副总裁。据这位不愿透露姓名的知情人士称,她已开始参加董事会会议。OpenAI和微软均拒绝对此置评。就在OpenAI董事会在11月撤换首席执行官萨姆·奥特曼后几天,这家初创公司同意让他重新上任,并更换除一名以外的所有董事,同时给予微软——它的最大投资者——一个非投票观察员席位。OpenAI目前的董事包括Salesforce前联合首席执行官布雷特·泰勒,前美国财政部长拉里·萨默斯,以及上一届董事会成员、问答网站Quora首席执行官亚当·丹吉洛。 奥特曼此前表示,新董事会将“很快”被选出。他未具体说明最终将有多少人加入该团队,但表示人数将“大幅增加”。OpenAI因最初董事会中没有女性成员而受到一些批评。 根据她的LinkedIn资料,坦普尔顿于1998年加入微软,是该公司新西兰办公室的首位女性技术员工。在她目前的职位上,她向微软首席技术官汇报工作,并领导一个团队管理公司的一些技术合作伙伴,包括与OpenAI的合作。 此前有报道称,坦普尔顿是董事会角色的候选人之一。 微软已承诺在OpenAI投资约130亿美元,并将其产品整合到核心业务中,迅速成为大型科技公司中的AI领导者。但微软和其他投资者一样,对OpenAI董事会决定撤换奥特曼感到措手不及。 11月底,奥特曼重返职位后,微软总裁布拉德·史密斯告诉记者,OpenAI公司治理的变化“让我们更有信心”。但微软在董事会上担任观察员角色,也可能增加对其与这家初创公司紧密关系的审查。美国和英国监管机构正在审查微软与OpenAI的合作关系,以及这是否可能违反反垄断法。
Meta的Fairy:快速并行化指令引导的视频到视频合成
Fairy是一种简约而健壮的图像编辑扩散模型的改进版本,专为视频编辑应用进行了增强。我们的方法核心在于锚点式跨帧注意力机制,这是一种隐式地在帧之间传播扩散特征的机制,确保了卓越的时间连贯性和高保真合成。Fairy不仅解决了之前模型的局限性,如内存和处理速度,还通过一种独特的数据增强策略改善了时间一致性。这种策略使模型在源图像和目标图像中都对仿射变换保持等变性。Fairy的效率惊人,能在短短14秒内生成120帧512×384视频(30 FPS下的4秒时长),比之前的作品至少快了44倍。一项涉及1000个生成样本的全面用户研究证实,我们的方法提供了优越的质量,明显胜过现有的方法。 来这里看详细内容 https://fairy-video2video.github.io/