经过十年的发展,方向和领导层多次变动,以及大量泄露,据报道,苹果已经终止了其电动汽车项目的工作。根据彭博社的一份报告,该公司正将一些员工转移到公司内部的生成式人工智能项目上,并计划对其他一些员工进行裁员。 这个长期开发中的项目内部被称为“泰坦计划”,理想情况下,它将拥有豪华的、类似豪华轿车的内饰,强大的自动驾驶能力,以及至少10万美元的价格标签。然而,随着时间的推移,项目的雄心被削弱。例如,它曾计划拥有4级自动驾驶能力,但这一目标被缩减到了2+级。 由于延期,这款汽车(最初在2014年开始研发)的目标发布日期被推迟到了2028年。现在,它根本不会发布。 这一决定是“在最近几周由苹果的高级管理层最终确定的”,根据彭博社的消息来源。苹果的领导层担心,这款汽车可能永远不会实现他们之前希望的利润率。对于紧密跟踪该项目的人来说,这一发展并不令人惊讶。这个项目已经被知道存在问题一段时间了,即使苹果能够凑齐一款产品,它也将不得不面对高昂的初始成本和困难的监管环境。 这一转变的重点是由苹果的高管Jeff Williams和Kevin Lynch向员工宣布的。许多从事汽车自动驾驶功能工作的员工将被转移到人工智能主管John Giannandrea的领导下,参与包括生成式人工智能在内的各种项目。然而,那些从事汽车工程和设计等其他方面工作的员工的命运则不那么确定。报告称,裁员是可能的,但没有具体说明裁员的数量或时间表。 长期以来,众所周知,苹果正在投资于两个主要扩展领域:一个是汽车领域,另一个是增强现实。后者的第一步在几周前以Vision Pro头显的形式推出。随着汽车项目的取消,苹果已知的未来扩展领域包括混合现实、可穿戴设备和生成式人工智能。
Google Genie:创意互动环境
介绍Genie,一款基于互联网视频训练的基础世界模型,能够从合成图像、照片乃至草图中生成各式各样的可玩(可控制动作的)世界。 【时尚重磅来袭】Genie:玩转虚拟世界的创新大师近年来,创意AI技术如雨后春笋般涌现,能够通过语言、图像甚至视频生成新奇有趣的内容。如今,我们带来了一种全新的创意AI范式——Genie。这不仅仅是个AI模型,它是一位虚拟世界的魔法师,可以根据一张图片创造出互动性十足、玩家可控制的环境。不管是现实世界的照片,还是你随手画的草图,Genie都能让你的想象瞬间变为虚拟现实。 【天马行空的创意实验室】Genie的独到之处在于,它完全通过观看互联网视频来学习精细的控制技巧。你可能会问,互联网视频有那么多,它是怎么学的呢?神奇的是,Genie不需要任何动作标签,它能够识别哪些部分是可以控制的,甚至还能推断出各种环境中一致的潜在动作。这就意味着,无论是哪种风格的图片,Genie都能让它们动起来。 【创造者的新天地】想象一下,只需一张图片,你就能创造出一个全新的互动环境。这为创造和体验虚拟世界开辟了全新的途径。无论是使用最先进的文本到图像生成模型创造出的画面,还是你自己设计的草图,甚至是真实世界的照片,Genie都能为它们注入生命。 【AI通用代理的跳板】Genie不仅仅是关于创造虚拟世界的工具,它对培养通用AI代理也有重要意义。以往,游戏环境被视为开发AI代理的有效试验场,但我们总受限于可用游戏的数量。有了Genie,我们的未来AI代理可以在无尽的新生成世界中接受训练。我们的论文中展示了一个概念验证,即Genie学习到的潜在动作能够转移到真实的人类设计环境中,这只是揭示未来可能性的冰山一角。 【生成虚拟世界的未来】虽然我们的展示集中在平台游戏上,但Genie是一种通用方法,可以应用于多种领域,而且无需任何额外的领域知识。我们还训练了一个小型的2.5B模型,在没有动作的视频上进行学习,显示出Genie能够学习到一致的动作空间,这可能有助于训练体现式的通用代理。 Genie开启了从图像或文本生成整个互动世界的新时代,我们相信它也将成为培养未来通用AI代理的催化剂。 论文: https://arxiv.org/abs/2402.15391
Stability AI终于推出Stable Video PK Sora?
在2023年11月,Stability AI首次向世界介绍了名为“Stable Video”的技术,将其模型代码上传至GitHub,同时在HuggingFace上发布了模型权重,以便用户能够下载并在配备相应硬件的本地环境中运行之。 然而,对于那些既没有强大图形处理单元(GPU)也缺乏配置所需环境技能的人群,他们该如何是好?幸运的是,Stability AI最近推出了它们的Stable Video网站,如今任何人仅需一个谷歌账户和一个网络浏览器,便能轻松尝试制作人工智能视频。 所谓的Stable Video Diffusion,是一个旨在为媒体、娱乐、教育及营销领域提供广泛视频应用解决方案的强大工具。它能够将文本和图像输入转换成生动的场景,把简单的想法变成电影级的体验。 这项技术以两种图像转视频模型的形式被释放到市场,能够生成14帧和25帧的视频,并允许用户在3到30帧每秒之间自定义帧率。 其能力范围涵盖: Stable Video Diffusion的工作原理依赖于一个复杂的过程,涉及扩散模型(Diffusion Models, DMs)、无分类器指导技术,以及专门为视频生成设计的基础模型架构。对于想深入了解其工作机制的人来说,可以参考该技术的白皮书。 在Stable Video网站上展示的社区生成的示例视频,包括了以“极光”、“非洲大象”及“深度场景中的动漫女孩操作太空穿梭机驾驶舱,伴随激光光影秀和反射镜面等元素的视频”为提示词的作品。 Stable Video — Stability AI 访问Stable Video的方式非常简单,只需使用谷歌账户登录其网站。在注册时,用户将获得150个免费积分,可以用于生成视频。 以一位穿着黑色皮夹克、长红裙和黑靴的时尚女士,在充满温暖霓虹灯和动态城市标志的东京街道上自信且悠然行走的场景为例,AI首先会生成四张图像,供用户选择其最喜欢的一张进行视频生成。 尽管其视频质量可能还不足以与Sora竞争,但已表现出相当不错的水平。 值得一提的是,使用文本提示生成视频将消耗11个积分,而使用图像输入每次生成则消耗10个积分。 对于新用户,Stability AI提供了150个免费积分的起始套餐。此外,用户还可以选择购买更多积分,以10美元购买500积分或50美元购买3000积分的价格,分别约可生成50个或300个视频。 然而,根据Stability AI提供的模型代码和权重的许可证及其可接受使用政策,这些视频目前仅限于研究和非商业用途。 总的来说,随着Stability AI在本周宣布另一种AI视频生成器的推出,过去一年里机器学习领域的进步速度令人赞叹。人们对于如何利用这项技术,尤其是在ControlNet得到适当适用于视频后的各种可能,充满了期待。尽管从稳定扩散生成稳定视频通常需要大量手动后期处理来消除闪烁,但有望在未来几次迭代后,其性能将与Sora相媲美。此外,对于有能力在本地运行模型的用户来说,10美元购买50个视频的价格或许显得有些高昂。
微软刚刚抛出了一张1600万美元的大额支票,砸向了Mistral AI
昨日,位于巴黎的初创公司Mistral AI,宣布推出一款全新的大型语言模型,挑战OpenAI的GPT-4,这个聊天助手并且和微软建立了分销合作关系。但是,微软和Mistral AI对这个消息保持了低调——至少对其中重要的一部分。 作为合作的一部分,微软决定投资这家法国初创公司1500万欧元(按照今天的汇率约合1630万美元)。微软表示,这笔投资将在Mistral的下一轮融资中转为股权。这意味着,这笔投资并不会改变Mistral AI的估值。微软在AI初创公司中的股份百分比也将取决于下一轮融资的估值。 Mistral AI在2023年12月的最新一轮融资后,估值约为20亿美元。当时,公司募集了3.85亿欧元(约4.15亿美元),由Andreessen Horowitz(a16z)领投。公司成立仅数周后,就已经完成了1.12亿美元的种子轮融资。如果Mistral AI能至少在下一轮融资中保持其估值,这意味着微软在这家法国AI公司中的股权将少于1%。 昨天,Mistral AI还揭幕了其旗舰大型语言模型Mistral Large,旨在与GPT-4和Claude 2等顶尖模型竞争。与之前Mistral AI的发布不同,Mistral Large不是开源的。开发者可以通过Mistral自己的API平台访问该模型。Mistral AI和微软还为Azure签署了一项分销合作协议。因此,Mistral AI通过这个新的分销渠道可能会吸引更多客户。这也意味着,希望留在微软生态系统中的Azure客户有了除OpenAI模型之外的另一个选择。Meta的Llama模型也在Azure上可用。 通过这次投资,微软现在是OpenAI盈利上限子公司和Mistral AI的投资者。微软与OpenAI的关系正受到欧盟和英国监管机构的审查。这项新投资吸引了欧洲委员会的注意。一位发言人告诉TechCrunch,EC将分析微软与Mistral AI之间的投资交易,作为其对大型科技公司和生成式AI公司之间进行持续审查程序的一部分。 这就是为什么微软没有大肆宣传这件事。至于Mistral AI,这个所谓的欧洲AI冠军,越来越像它的美国竞争对手,采用了封闭源代码的方法,并且有一长串美国支持者。
探索知识的未来,就用Globe.Engineer AI来开启新篇章,来试试
Globe.Engineer凭借其创新的AI工具Globe Explorer,为个性化网页创建提供了一种独特的结构化方法,这个工具对于那些热衷于了解ChatGPT及其它尖端技术最新发展的提示工程师和AI爱好者来说,无疑是个宝库。来试试: https://explorer.globe.engineer/ 如何驾驭Globe Explorer直接冲向Globe Explorer提供的网址吧。在搜索栏输入你感兴趣的话题,开启探索之旅。AI将根据你的查询,构建一个类似于定制版维基百科页面的结构化网站。 通过画廊式的用户界面,寻找相关的搜索结果和资源。点击问号图标,解开特定项目的秘密。通过选择子类别或相关搜索提示,深入探索小众话题。利用井然有序的段落,更好地理解你选择的主题。 谁会从Globe Explorer中获益对于那些热衷于实验和自我指导学习的AI早期采用者来说,Globe Explorer提供了一个互动平台,用于沉浸式研究。无论你是想深入了解ChatGPT的新功能,追踪最新的AI发展,还是探索工程组件,这个工具都能让你的知识库大大丰富。通过将大量网络内容提炼成结构化、易于消化的格式,它使用户能够快速而彻底地掌握复杂主题。 关于Globe.Engineer及其使命Globe.Engineer不仅仅是一个实用工具,它是信息发现新时代的象征。帮助用户不只是浅尝辄止,而是深入剖析和理解任何给定主题的复杂性,它体现了现代学习和探索的精神。它将网络上的原始数据转化为美观且富有启发性的体验,标志着从传统互联网研究方法中的一次显著转变。
Nvidia、Intel和Jeff Bezos投了数百万美元到一家人工智能仿人机器人公司
Nvidia、Jeff Bezos以及一众科技大咖正在向Figure AI这家造人似机器人的初创公司砸钱。据彭博社报道,这家公司即将获得大约6.75亿美元的融资,投资前估值约为20亿美元。 Figure AI吸引了科技界的极大兴趣,像微软这样的大玩家投入了9500万美元,Nvidia和一个与亚马逊有关的基金各投资了5000万美元。通过Explore Investments, LLC,Bezos个人出资了1亿美元。 这家初创公司的雄心勃勃的项目旨在推动AI和机器人技术的能力(可能包括亚马逊的能力)得到发展,得到了这些有影响力支持者的支持。Figure AI计划将其AI驱动的Figure 01机器人部署到全球的仓库中。Figure 01是一台能够学习和执行仓库工作的自主机器人。 在这轮融资中,其他值得注意的投资者包括英特尔公司的风险投资部门,投资了2500万美元,LG Innotek投入了850万美元。三星的投资团队也参与了,承诺投资500万美元。这些公司的参与凸显了对AI驱动的仿人机器人潜力的广泛兴趣。 这轮融资还吸引了大量的风险资本兴趣。Parkway Venture Capital投资了1亿美元,而Align Ventures提供了9000万美元。其他支持者包括ARK Venture Fund、Aliya Capital Partners、Tamarack、Boscolo Intervest Ltd.和BOLD Capital Partners,他们提供了不同金额的资金。 作为ChatGPT制造商和Figure AI的早期支持者的OpenAI,正在投资500万美元,此前曾考虑收购这家初创公司。 最初寻求5亿美元的融资额,这轮融资已经超出了预期,部分归功于微软和OpenAI的早期参与,这帮助吸引了更多的投资。 AI机器人领域的活动正处于激增状态,其他公司如1X Technologies、Sanctuary AI和特斯拉也在研究人形机器人。Figure AI成功的融资轮突显了对开发能够执行复杂任务并解决劳动力挑战的机器人的兴趣和投资不断增长。
NVIDIA的RTX 500和1000系列专业Ada世代笔记本GPU,让你随时随地享受AI增强的工作流程
在混合工作环境和生成式AI成为新常态的今天,无论是内容创作者、研究人员还是工程师,几乎每位专业人士都需要一款强大的、AI加速的笔记本电脑,以便在移动中也能应对各行各业的重大挑战。 NVIDIA新推出的RTX 500和1000 Ada世代笔记本GPU,将在新款的高度便携移动工作站中亮相,进一步扩充基于Ada Lovelace架构的产品阵容,该阵容已包括RTX 2000、3000、3500、4000和5000 Ada世代笔记本GPU。 AI的快速采用正在推动专业设计、内容创建工作流程以及日常生产力应用的效率,这强调了拥有强大的本地AI加速能力和足够的处理能力在系统中的重要性。 搭载Ada世代GPU的下一代移动工作站,包括RTX 500和1000 GPU,将包含一个神经处理单元(NPU,CPU的一部分)和一个NVIDIA RTX GPU,后者包含用于AI处理的Tensor核心。NPU有助于卸载轻量级AI任务,而GPU则为更多要求日常AI工作流程提供高达额外682 TOPS的AI性能。 GPU所提供的更高级别的AI加速对于处理一系列基于AI的任务非常有用,如进行高质量AI效果的视频会议、带AI上采样的视频流、或使用生成式AI和内容创建应用加速工作。 新的RTX 500 GPU为像稳定扩散这样的生成模型提供高达14倍的生成AI性能,AI照片编辑速度提高3倍,与仅CPU配置相比,3D渲染的图形性能提高10倍,为传统和新兴工作流程带来巨大的生产力飞跃。 跨行业提升专业工作流程RTX 500和1000 GPU通过AI提升了笔记本用户的工作流程,以紧凑的设计在任何地方使用。视频编辑可以用AI简化去除背景噪声等任务。图形设计师可以用AI上采样让模糊图像复活。专业人士可以在移动中使用AI进行更高质量的视频会议和流体验。 对于希望利用AI进行高级渲染、数据科学和深度学习工作流程的用户,NVIDIA还提供了RTX 2000、3000、3500、4000和5000 Ada世代笔记本GPU。3D创作者可以使用AI去噪和深度学习超采样(DLSS)实时可视化光影渲染。企业可以使用类似聊天机器人的接口查询内部知识库。研究人员和科学家可以进行数据科学、AI模型训练和调优以及开发项目的实验。 NVIDIA RTX的性能与便携性基于NVIDIA Ada Lovelace架构的RTX 500和1000 GPU,为轻薄笔记本带来了最新进展,包括: 可用性新的NVIDIA RTX 500和1000 Ada世代笔记本GPU将于今年春季在包括Dell Technologies、HP、Lenovo和MSI在内的全球制造合作伙伴推出的移动工作站中上市。
Google爆料2018年微软居然想把Bing卖给苹果,但因为搜索质量的问题搁浅
嘿,各位网友们,今天我给你们带来的热辣八卦是来自科技界的大新闻,你们绝对想不到!据Google在本月早些时候一份法庭文件中爆料,原来在2018年,微软竟然想把它的搜索引擎Bing卖给苹果!这件事在上周五文件解封时曝光,简直是太劲爆了! 这背后其实是一场关于Google是否在网络搜索广告领域拥有垄断地位的法律大战。Google为了保持其搜索引擎的独家地位,与苹果及安卓手机制造商签订了一系列关键协议。据说在2021年,Google为此花费超过260亿美元。在这场诉讼中,Google试图证明自己是公平竞争的。 Google在文件中指出,微软在2009年、2013年、2015年、2016年、2018年和2020年多次向苹果提议,希望使Bing成为苹果Safari网页浏览器的默认搜索引擎,但苹果每次都以Bing的质量问题为由拒绝了。 Google在文件中写道:“每一次,苹果都仔细比较了Bing和Google的相对质量,并得出结论,对于其Safari用户来说,Google是更优的默认选择。这就是竞争。” 美国司法部在自己的新解封文件中表示,微软在过去20年里对Bing的投入几乎达到了1000亿美元。这家Windows和Office软件制造商在2009年推出了Bing,此前曾以MSN和Windows Live品牌进行搜索尝试。 如今,根据StatCounter的数据,Bing在全球市场的份额仅为3%。在第四季度,微软通过搜索和新闻广告赚取了32亿美元,而Google的搜索及其他收入总计达到了480亿美元。 Google还提到,当微软在2018年联系苹果时,强调了Bing质量的提升,并提出将Bing卖给苹果或与苹果建立一个与Bing相关的合资企业。 苹果高级副总裁Eddy Cue根据文件表示:“微软在搜索质量、他们对搜索的投资等方面的表现并不突出,一切都显得较为逊色。因此,他们的搜索质量不够好,他们的投资水平与Google或微软自身可能的投资水平相比也显得不够,他们的广告组织和货币化方式也不尽人意。” 据文件显示,苹果CEO蒂姆·库克曾就对Bing的评估给苹果高管发过电邮,但具体内容在文件中被编辑掉了。 Google和微软的代表未立即回应置评请求。 微软CEO萨蒂亚·纳德拉在审判中作证称,他作为CEO的每一年都在尝试看看苹果是否会对Bing成为默认搜索引擎持开放态度。 Cue作证说,“如果苹果没有从Google那里获得它所要求的巨额支付,苹果会开发自己的搜索引擎”,司法部在其文件中如此声称。 据彭博社去年9月报道,引述未具名人士的话说,大约在2020年,微软高管与苹果高级副总裁Eddy Cue进行了“探索性”对话,讨论将Bing卖给苹果的可能性。
Perplexity.ai为大型语言模型(LLM)时代重新设计谷歌搜索引擎优化(SEO)模型
ChatGPT自2022年11月30日发布以来,既受到了热烈的欢迎,也遭遇了不少反对声音。很快就明显地发现,人们想要向AI提出他们通常会问Google的那些问题——而ChatGPT往往无法给出答案。 问题层出不穷。ChatGPT的回答过时了,不引用来源,而且经常凭空想象出新的不准确的细节。华盛顿大学计算语言学实验室的主任Emily Bender当时被引用说,AI搜索是“星际迷航幻想,你有一个无所不知的电脑,你可以问问题。”Perplexity最初希望构建一个由AI驱动的Text-to-SQL工具。但在公司的Slack频道中,开始酝酿着一些不同的东西。 Perplexity这个创业公司成立于2022年8月,意外地进入了一个赛道——然后迅速向构建一个每日更新并通过引用多个来源来响应查询的AI驱动搜索引擎冲刺。它现在每月有超过1000万用户,并且最近获得了Jeff Bezos的投资。 “我认为Google是人类迄今为止构建的最复杂的系统之一。就复杂性而言,它甚至可能超越了登月,”Perplexity.ai的联合创始人兼CTO Denis Yarats说。 最初,它是一个Slack机器人Perplexity最初希望构建一个由AI驱动的Text-to-SQL工具,Yarats说,让开发人员以自然语言查询和编码SQL。但在公司的Slack频道中开始酝酿着不同的东西——一个结合了OpenAI的大型语言模型(LLMs)的聊天机器人。然后,在2022年11月下旬,ChatGPT公开发布,成为历史上增长最快的消费应用程序,在两个月内达到了1亿用户。人们向ChatGPT提出了各种问题,其中很多它都无法回答。但Yarats说,Perplexity的Slack机器人可以。 “字面上在两天内,我们创建了一个简单的网站,将其连接到我们Slack机器人的后端基础设施,并将其作为一个有趣的演示发布,”Yarats说。“老实说,它工作得并不是很好。但鉴于有这么多人喜欢它,我们意识到这里有一些东西。” 一段时间以来,Perplexity继续致力于其Text-to-SQL工具。它还创建了一个Twitter搜索工具,BirdSQL,让用户找到超级具体的推文,比如“Elon Musk发给Jeff Bezos的推文”。但AI驱动的搜索引擎脱颖而出,在几个月内成为了公司新的——也是艰巨的——使命。 AI驱动搜索如何成为可能?这引出了一个明显的问题。Perplexity,一家不到两年前由四个人创立的公司(现已发展到大约40人),是如何解决看似让AI在搜索方面表现糟糕的问题的? 二十年来,失败的Google竞争者已经证明“还不错”是不够的。这就是AI提供的捷径。 检索增强生成,或(RAG),是公司努力的一个支柱。由Meta、伦敦大学和纽约大学的研究人员发明,RAG将生成性AI与一个“检索器”配对,后者可以找到并引用向量数据库中的特定数据,然后传递给“生成器”以产生响应。“我确实同意RAG[对于搜索是有用的],”AI基础设施公司Weaviate的联合创始人兼CEO Bob van Luijt说。“[RAG]所做的是允许普通开发人员,不仅仅是在Google工作的人,能够不费太多力气就构建这些类型的AI原生应用程序。”他指出,实现RAG的资源在AI开发者资源HuggingFace上是免费可用的。这导致了广泛的采用。Weaviate使用RAG来帮助其客户在专有数据上基础知识的AI代理。Nvidia使用RAG减少ChipNeMo中的错误,这是一个旨在帮助芯片设计师的AI模型。Latimer使用它来对抗种族偏见并放大少数群体的声音。而Perplexity则将RAG用于搜索。但为了让RAG有所用处,模型必须有东西可以检索,这里Perplexity.ai采用了更传统的搜索技术。该公司使用自己设计的网络爬虫,称为PerplexityBot,来索引互联网。 “当试图在最新信息上取得优势,比如新闻……我们将无法每天或每小时重新训练一个模型,”Yarats说。但在Google的规模上爬行网络也不实际;Perplexity缺乏科技巨头的资源和基础设施。为了管理负载,Perplexity将结果分成“领域”,这些领域以不同的紧迫性进行更新。新闻网站每小时更新一次以上。不太可能快速变化的网站,则每几天更新一次。 plexity还利用了来自Transformers(BERT)的双向编码器表示,这是Google在2018年创建的一个NLP模型,反过来用来更好地理解网页。Google将BERT开源,为Perplexity等公司提供了构建它的机会。“它让你得到一个简单的排名。它不会像Google那样好,但还是不错的,”Yarats说。但二十年来,失败的Google竞争者已经证明“还不错”是不够的。这就是AI提供的捷径。 “对于Google来说,有很多约束。最大的是广告。主页的房地产非常优化。” LLMs非常擅长解析文本以找到相关信息——实际上,发现模式是它们的全部事情。这允许LLM产生对提示的有说服力的文本响应,但它也可以用来有效地解析然后呈现LLM检查的信息。你可以通过将PDF上传到ChatGPT、Google Gemini或Claude.ai自己尝试这一点。LLM可以在几秒钟内摄取文档,然后回答有关文档的问题。 Perplexity本质上对网页做同样的事情,从而根本改变了搜索的工作方式。它不试图排名网页以将最佳页面放在查询列表的顶部,而是分析来自良好排名页面索引的可用信息以找到最相关的内容并生成答案。这就是秘密武器。 “你可以把它想象成LLM做最后的排名任务,”Yarats说。“[LLMs]不关心[SEO]分数。他们只关心语义和信息。这更加无偏见,因为它基于实际的信息增益,而不是Google工程师出于任何原因优化的信号。”当然,这引出了一个问题:Google也可以做到这一点吗? Yarats说,Perplexity意识到面对Google的困难,因此,专注于搜索的“分布头部”。Perplexity不提供图像搜索,不缓存旧网页,不允许用户将结果缩小到特定日期或时间,也不包括购物结果,仅举几个Google功能例子,这些功能很容易被视为理所当然。他还认为Google将面临的问题不在于其技术执行,而在于其现有的高度盈利的广告业务。 “对于Google来说,有很多约束,”他说。“最大的是广告。主页的房地产非常优化。你不能只说,让我们移除这个广告,我要显示一个答案代替。我们没有那个。我们可以实验。”
VideoPrism: 深入了解视频内容的基础视觉编码器
在这个信息爆炸的网络世界里,各种视频如同繁星般遍布每一个角落,从日常分享到历史时刻,再到科学观察,每一段视频都在用自己独特的方式记录着这个世界。要是有合适的工具来分析这些视频,我们对周围世界的理解可能会发生翻天覆地的变化。 比起静态的图片,视频提供了更为丰富的动态视觉内容,捕捉到了运动、变化以及实体间的动态关系。分析这些复杂性,以及公开可获取的视频数据的巨大多样性,需要超越传统图像理解的模型。因此,很多在视频理解方面表现最佳的方法依然依赖于为特定任务量身定做的专门模型。最近,在这一领域使用视频基础模型(ViFMs)取得了令人兴奋的进展,比如VideoCLIP、InternVideo、VideoCoCa和UMT。然而,构建一个能够处理视频数据巨大多样性的ViFM依然是一个挑战。 为了构建一个能够通用视频理解的单一模型,Google 推出了“视频棱镜:视频理解的基础视觉编码器”(VideoPrism)。视频棱镜是一款设计用来处理广泛视频理解任务的ViFM,包括分类、定位、检索、字幕和问答(QA)。Google在预训练数据以及建模策略上提出了创新。Google在大规模且多样化的数据集上预训练视频棱镜:3600万高质量视频-文本对和5.82亿带有噪声或机器生成的并行文本的视频片段。Google的预训练方法是为这种混合数据设计的,旨在从视频-文本对以及视频本身学习。视频棱镜极易适应新的视频理解挑战,并且使用单一冻结模型就能达到最新的性能水平。 视频棱镜是一个通用视频编码器,通过从单一冻结模型产生视频表示,它在广泛的视频理解任务上实现了最新的结果,包括分类、定位、检索、字幕和问答。 Google提供了一个庞大的预训练视频库,理想情况下,Google希望预训练数据能够代表世界上所有的视频。虽然自然大多数视频没有完美的字幕或描述,即便是不完美的文本也能提供关于视频语义内容的有用信息。 在两阶段训练中,视频棱镜模型架构源自标准的视觉变换器(ViT),采用分解设计,顺序编码空间和时间信息,遵循ViViT。Google的训练方法利用了上述提到的高质量视频-文本数据和带噪声文本的视频数据。首先,Google使用对比学习来教导模型匹配视频与其文本描述,包括不完美的描述。这为匹配语义语言内容到视觉内容奠定了基础。 视频棱镜的独特之处在于,Google使用了两种互补的预训练信号:文本描述和视频内的视觉内容。文本描述通常聚焦于事物的外观,而视频内容提供了关于运动和视觉动态的信息。这使得视频棱镜在需要理解外观和运动的任务中表现出色。 在广泛的视频理解任务上对视频棱镜进行了广泛评估,包括视频分类和定位、视频-文本检索、视频字幕、问答和科学视频理解。视频棱镜在33个视频理解基准测试中的30个上实现了最新的性能水平——所有这些都是通过对单一冻结模型的最小调整实现的。 总之,视频棱镜作为一个强大且多功能的视频编码器,为通用视频理解设定了新的标准。Google通过构建大规模多样化的预训练数据集和创新的建模技术,验证了Google的方法。视频棱镜不仅一致性地超越了强大的基线,而且其独特的泛化能力使其非常适合处理一系列真实世界的应用。鉴于其潜在的广泛用途,Google致力于在这一领域继续进一步的负责任研究,由Google的AI原则指导。Google希望视频棱镜能为AI与视频分析交叉领域的未来突破铺平道路,帮助实现ViFMs在科学发现、教育和医疗等领域的潜力。