Google 最近开发的一种名为MELON的新算法,代表了计算机视觉领域的一项重大进展,使得在只有少量图像的情况下重建物体的3D形状成为可能。这一基础的计算机视觉任务在从电子商务3D模型的创建到自动驾驶汽车导航等多个领域都有广泛应用。 关键的问题之一是如何确定拍摄图像的确切位置,这一过程称为姿态推断。如果相机姿态已知,一系列成功的技术——如神经辐射场(NeRF)或3D高斯投影——可以重建3D物体。但如果这些姿态不可用,就会遇到困难的“先有鸡还是先有蛋”的问题,即如果我们知道3D物体,我们可以确定姿态,但在知道相机姿态之前我们无法重建3D物体。伪对称性——即许多物体从不同角度观看时看起来相似——使这个问题更加复杂。例如,正方形物体如椅子每旋转90°看起来都很相似。通过在转盘上从各种角度渲染物体并绘制其光度自相似性图,可以揭示物体的伪对称性。 在介绍了一种名为“MELON: 在SO(3)中未定位图像的NeRF”(MELON: Modulo Equivalent Latent Optimization of NeRF)的技术后,该技术在3DV 2024大会上受到关注,它可以完全从头开始确定以物体为中心的相机姿态,同时重建物体的3D形状。MELON是首批能够在没有初始相机姿态估计、复杂训练方案或有标签数据的预训练的情况下实现这一目标的技术之一。MELON是一种相对简单的技术,可以轻松地整合到现有的NeRF方法中。研究团队演示了MELON如何从未定位图像中重建NeRF,并在只需要4-6张物体图像的情况下实现了最先进的精度。 为了帮助解决这个难题,研究团队利用了两项关键技术来促进收敛。第一项是一个非常轻量级、动态训练的卷积神经网络(CNN)编码器,该编码器可以从训练图像中回归相机姿态。通过将缩小的训练图像传递给一个四层CNN来推断相机姿态。这个CNN从噪声中初始化,不需要预训练。其容量如此之小,以至于它迫使看起来相似的图像具有相似的姿态,从而为收敛提供了一个隐式的正则化。 第二项技术是模除损失(modulo loss),它同时考虑了物体的伪对称性。对于每个训练图像,研究团队从一组固定的视点渲染物体,只通过与训练图像最匹配的视图进行损失的反向传播。这有效地考虑了每张图像的多个视图的可能性。实际上,研究团队发现,在大多数情况下,N=2视图(从物体的另一侧观察)就足够了,但有时对于方形物体使用N=4可以获得更好的结果。 这两种技术被整合到标准的NeRF训练中,除了相机姿态不是固定的,而是由CNN推断并通过模除损失复制。光度梯度通过最佳匹配的相机反向传播到CNN中。研究团队观察到,相机通常会迅速收敛到全局最优姿态。在神经场训练完成后,MELON可以使用标准的NeRF渲染方法合成新的视图。 研究团队简化了问题,使用了NeRF合成数据集,这是NeRF研究的一个流行基准,并且在姿势推断文献中很常见。这个合成数据集的相机位于精确固定的距离,并且具有一致的“向上”方向,研究团队需要推断的只是相机的极坐标。这就像一个物体位于球体中心,相机始终指向它,在表面上移动一样。然后研究团队只需要纬度和经度(2个自由度)来指定相机姿势。 MELON使用了一个动态训练的轻量级CNN编码器,该编码器可以为每张图像预测一个姿态。通过模除损失复制预测的姿态,该损失只惩罚与地面真实颜色的最小L2距离。在评估时,神经场可以用于生成新的视图。 为了评估MELON在NeRF合成数据集上的性能,研究团队计算了两个关键指标。地面真实姿势与推断姿势之间的方向误差可以量化为单一的角度误差,该误差在所有训练图像中平均计算,得到姿势误差。接着,研究团队通过测量从新视角渲染的MELON物体与保留测试视图的峰值信号噪声比(PSNR)来测试MELON渲染物体的准确性。结果显示,MELON在训练的前1000步内快速收敛到大多数相机的大致姿势,并在50k步后达到了27.5 dB的竞争性PSNR。 MELON在优化过程中对玩具卡车模型的收敛表现。左侧:NeRF的渲染图。右侧:极坐标图显示预测的(蓝色X标记)与地面真实(红点)相机的位置。MELON对NeRF合成数据集中的其他场景也取得了类似的结果。 此外,MELON还在从极度嘈杂的未定位图像进行新视角合成时表现良好。研究团队向训练图像中添加了不同量的白高斯噪声。例如,尽管在σ=1.0的情况下物体几乎无法辨认,但MELON仍能确定姿势并生成物体的新视图。 MELON从极嘈杂的未定位128×128图像中合成新视图的能力。顶部:训练视图中存在的噪声水平示例。底部:从嘈杂训练视图重建的模型及其平均角度姿势误差。考虑到如RawNeRF这样的技术已展示了NeRF在已知相机姿势下的出色去噪能力,MELON在未知相机姿势的嘈杂图像上如此稳健地工作的事实是意料之外的。 总结,MELON是一种无需近似姿势初始化、复杂的GAN训练计划或预训练有标签数据即可确定以物体为中心的相机姿势并重建3D物体的技术。MELON是一种相对简单的技术,可以轻松地集成到现有的NeRF方法中。尽管研究团队只在合成图像上演示了MELON的应用,但他们正在调整其技术以适应现实世界的条件。了解更多信息,请参阅相关论文和MELON网站。https://melon-nerf.github.io/
MIT的研究人员最近开发了一种名为“FeatUp”的新算法,这一突破性技术为计算机视觉领域带来了高分辨率的洞察力
想象一下,你短暂地注视着繁忙的街道,然后试图根据记忆绘制你所看到的场景。大多数人能够大致绘制出车辆、人和斑马线等主要物体的位置,但几乎没有人能够以像素级完美的精度绘制出每一个细节。对于大多数现代计算机视觉算法来说,情况也是如此:它们擅长捕捉场景的高层次细节,但在处理信息时会丢失细粒度的细节。 现在,麻省理工学院(MIT)的研究人员创建了一个名为“FeatUp”的系统,允许算法同时捕获场景的高层次和低层次细节——几乎就像是计算机视觉的Lasik眼科手术。 当计算机通过查看图像和视频学会“看”时,它们通过所谓的“特征”构建对场景中物体的“理念”。为了创建这些特征,深度网络和视觉基础模型将图像分解成一个个小方格,并将这些方格作为一个组处理,以确定照片中正在发生的事情。每个小方格通常由16到32个像素组成,因此这些算法的分辨率远小于它们处理的图像。在试图总结和理解照片时,算法会丢失大量的像素清晰度。 FeatUp算法可以阻止这种信息损失,并提升任何深度网络的分辨率,而不会影响速度或质量。这使研究人员能够快速轻松地提高任何新的或现有算法的分辨率。例如,尝试解释肺癌检测算法的预测,目标是定位肿瘤。在使用类似类激活映射(CAM)的方法解释算法之前应用FeatUp,可以显著更详细地(16-32倍)查看模型可能定位的肿瘤位置。 FeatUp不仅帮助从业者理解他们的模型,而且还可以改善各种不同的任务,如物体检测、语义分割(为图像中的像素与对象标签赋予标签)和深度估计。通过提供更准确的高分辨率特征,它实现了这一点,这些特征对于构建从自动驾驶到医学成像的视觉应用至关重要。 “所有计算机视觉的本质都在于这些从深度学习架构的深处涌现出的深刻、智能的特征。现代算法的一大挑战是它们将大型图像缩小为非常小的‘智能’特征网格,获得智能洞察但失去更细微的细节,”麻省理工学院电气工程与计算机科学博士生、MIT计算机科学与人工智能实验室(CSAIL)附属成员,以及该项目论文共同首席作者之一的Mark Hamilton说。“FeatUp帮助实现了两全其美的情况:具有原始图像分辨率的高度智能表现。这些高分辨率特征显著提高了从增强物体检测到改善深度预测的一系列计算机视觉任务的性能,通过高分辨率分析提供了对网络决策过程的更深入理解。” 团队指出,PyTorch中可用的标准工具无法满足他们的需求,并在他们寻求快速有效解决方案的过程中引入了一种新类型的深度网络层。他们的自定义层,一种特殊的联合双边上采样操作,在PyTorch中的朴素实现中效率提高了100倍以上。团队还展示了这个新层可以改进包括语义分割和深度预测在内的多种不同算法。这一层提高了网络处理和理解高分辨率细节的能力,给任何使用它的算法带来了显著的性能提升。 “另一个应用是所谓的小物体检索,我们的算法允许精确定位物体。例如,在杂乱的道路场景中,通过FeatUp丰富的算法可以看到微小物体,如交通锥、反光器、灯和坑洞,而它们的低分辨率同类则失败了。这展示了它将粗糙特征增强为精细信号的能力,”加利福尼亚大学伯克利分校的博士生Stephanie Fu ’22, MNG ’23,也是新FeatUp论文的另一位共同首席作者说。“这对于时间敏感的任务尤为关键,如在杂乱的高速公路上定位交通标志。这不仅可以通过将广泛的猜测转化为精确的定位来提高这类任务的准确性,而且可能还会使这些系统更可靠、可解释和值得信赖。” 社区及其它领域内的潜在广泛应用,类似于数据增强实践。“目标是将这种方法作为深度学习中的基本工具,丰富模型以更细致的细节感知世界,而不会带来传统高分辨率处理的计算效率低下,”Fu说。 “FeatUp代表了向着使视觉表示真正有用迈出的美妙进步,通过以完整图像分辨率产生它们,”康奈尔大学计算机科学教授Noah Snavely说,他没有参与这项研究。“在过去几年中,学习到的视觉表示变得非常好,但它们几乎总是以非常低的分辨率产生——你可能会输入一个漂亮的全分辨率照片,然后得到一个微小的、邮票大小的特征网格。如果你想在产生全分辨率输出的应用中使用这些特征,这就是一个问题。FeatUp以一种创造性的方式解决了这个问题,将超分辨率中的经典想法与现代学习方法相结合,产生了美丽的、高分辨率的特征图。” “我们希望这个简单的想法可以有广泛的应用。它提供了我们之前认为只能是低分辨率的图像分析的高分辨率版本,”麻省理工学院电气工程与计算机科学教授、CSAIL成员的高级作者William T. Freeman说。 首席作者Fu和Hamilton与麻省理工学院的博士生Laura Brandt SM ’21、Axel Feldmann SM ’21以及Zhoutong Zhang SM ’21, PhD ’22一起,他们都是MIT CSAIL的现任或前任成员。他们的研究部分得到了国家科学基金会研究生奖学金、国家科学基金会和国家情报总监办公室的支持,以及美国空军研究实验室和美国空军人工智能加速器的支持。该小组将在5月份的国际学习表示会议上展示他们的工作。
NVIDIA 正在结合其 Omniverse Cloud API 技术,不久将允许企业开发者与流式传输至苹果Vision Pro的完全渲染的3D数字孪生进行互动
NVIDIA 正在结合其 Omniverse Cloud API 技术,不久将允许企业开发者与流式传输至苹果Vision Pro的完全渲染的3D数字孪生进行互动。你可能知道NVIDIA是因为其图形卡或游戏流服务,但该公司也开发用于企业的应用程序。一个新的软件框架,利用Omniverse Cloud API构建,让开发者将OpenUSD场景从他们的应用程序发送到NVIDIA Graphics Delivery Network,该网络可以将内容流式传输到苹果Vision Pro。 这里有许多技术术语和行业用语,可以这样概括——企业级NVIDIA开发者将能够将他们的工作上传到云端,并将其流式传输到苹果Vision Pro,无需在本地M2处理器上运行。它还使得使用苹果和NVIDIA的技术在同一软件中结合本地和远程渲染成为可能。这个新框架是在NVIDIA GTC期间宣布的。如果你还在想所有这些意味着什么,CGI工作室Katana展示了一个演示,一个佩戴苹果Vision Pro的用户使用由NVIDIA云支持的汽车配置器。视频中的车辆被称为数字孪生。数字孪生是一个如车辆之类的对象,使用真实世界的统计数据和度量来在模拟中代表它。 创建一个数字孪生并不像在视频游戏中渲染车辆那样简单。它需要强大的、专用的图形处理器来处理高分辨率显示屏上的所有数据。 “苹果Vision Pro的突破性超高分辨率显示屏,结合从NVIDIA加速计算流式传输的OpenUSD内容的逼真渲染,为沉浸式体验的进步解锁了一个不可思议的机会,”苹果视觉产品组副总裁Mike Rockwell说。”空间计算将重新定义设计师和开发者如何构建引人入胜的数字内容,推动创造力和参与度的新时代。” 将3D概念从2D显示器移动到空间计算环境可以为与数据互动开辟新的可能性。虽然苹果Vision Pro不能独立运行这些模型,但NVIDIA RTX企业云渲染允许将数字孪生带入空间环境。
微软聘请了谷歌DeepMind的联合创始人
微软聘请了谷歌DeepMind的联合创始人、人工智能初创企业Inflection的首席执行官穆斯塔法·苏莱曼(Mustafa Suleyman),来领导一个新的面向消费者的AI部门。 苏莱曼,这位2010年在伦敦共同创立DeepMind的英国企业家,将向微软首席执行官萨提亚·纳德拉(Satya Nadella)汇报。微软在周二宣布,他将启动一个名为Microsoft AI的部门,该部门将包括面向消费者的产品,如微软的Copilot、Bing、Edge和GenAI。 这是微软利用生成式AI热潮的最新举措。它在OpenAI(ChatGPT的开发者)上投资了130亿美元,并迅速将其技术集成到微软产品中。 微软对OpenAI的投资使其在硅谷部署AI的竞赛中取得了早期领先,使其最大的竞争对手谷歌难以追赶。微软还投资了包括法国开发商Mistral在内的其他AI初创公司。 它一直在其产品中推出AI助手,如Windows、Office软件和网络安全工具。苏莱曼的部门将致力于包括将AI版本的Copilot集成到其Windows操作系统中,以及增强其Bing搜索引擎中生成式AI的使用的项目。 纳德拉在周二的一份声明中说:“我已经认识穆斯塔法好几年了,一直非常钦佩他作为DeepMind和Inflection的创始人,以及作为一个有远见、制造产品的人和建立追求大胆任务的先锋团队的人。” DeepMind于2014年被谷歌以5亿美元收购,这是大型科技公司对一个初创AI实验室的首批大笔投注之一。几年后,该公司因其在英国医疗部门的一些项目引起争议,包括一项被政府监管机构发现获得了不适当访问患者记录的工作。 苏莱曼作为公司的主要公共面孔,于2019年被暂停职务。DeepMind员工抱怨他的管理风格过于激进。苏莱曼当时回应员工的抱怨时说:“我真的搞砸了。我非常苛求并且相当无情。” 他几个月后转到谷歌,负责AI产品管理。2022年,他加入硅谷风险投资公司Greylock,并在当年晚些时候启动了Inflection。 微软还将聘请Inflection的大部分员工,包括Inflection的联合创始人兼首席科学家Karén Simonyan,他将成为AI团队的首席科学家。微软没有明确表示将接收多少员工,但表示其中包括AI工程师、研究员和大型语言模型构建者,他们在过去五年中设计和共同撰写了“许多在推进AI方面最重要的贡献”。 作为OpenAI的竞争对手,Inflection将把其焦点从消费者聊天机器人Pi转向,改为向企业销售企业AI软件,根据其网站上的一份声明。Sean White,曾担任过各种技术角色,加入成为其新的首席执行官。 Inflection的第三位联合创始人,LinkedIn的创始人和执行董事长Reid Hoffman将继续留在Inflection的董事会上。Inflection在6月份筹集了13亿美元,将该集团的估值定在约40亿美元,这是AI初创企业在该领域兴趣爆炸式增长中的最大一笔融资之一。 这个新单位标志着微软的一个重大组织变革。其网络服务总裁Mikhail Parakhin及其整个团队将转移,向苏莱曼汇报。 纳德拉说:“我们有一个真正的机会建立曾经被认为不可能的技术,并确保AI的好处能够安全、负责任地惠及地球上的每个人和每个组织。” 美国和欧洲的竞争监管机构一直在审查微软和OpenAI之间的关系,这是对AI投资的更广泛调查的一部分。
NVIDIA 推出地球-2云平台,使用AI超级计算机的模拟技术,预测整个地球的气候变化
为了应对气候变化引起的极端天气模式所导致的经济损失日益增加,NVIDIA推出了地球-2,这是一款革命性的气候数字孪生云平台。在GTC大会上公开的地球-2,提供了前所未有的API,设计用于模拟和可视化天气和气候,为更准确的预测和及时的警报铺平了道路。 公司在加利福尼亚州圣何塞举行的NVIDIA GTC 2024活动上,由NVIDIA首席执行官Jensen Huang在主题演讲中宣布了地球-2。地球-2最初于2021年宣布,现在已经准备就绪。 “气候灾难现在已成为新常态——历史性干旱、灾难性飓风和世代洪水在新闻中频频出现,”黄说。“地球-2云API力求帮助我们更好地准备应对——并激发我们采取行动缓解——极端天气。”地球-2本身是可以在各种超级计算机上运行的软件,其详细预测依赖于各合作伙伴投入的计算能力。长远目标是预测未来几十年的气候变化。 地球-2平台,作为NVIDIA CUDA-X微服务软件的一部分,利用先进AI模型和CorrDiff生成式AI模型,产生的高分辨率模拟比当前数值模型快1000倍且更节能3000倍。NVIDIA使用Omniverse帮助设计数据中心的数字孪生。黄在舞台上表示,灾害造成的大部分损害集中在世界的某些部分。 “在科学计算中,气候研究仍然是一项巨大的挑战,”NVIDIA模拟副总裁Rev Lebaredian在新闻发布会上表示。“我们宣布了我们的地球2平台,用于交互式的高分辨率气候和天气预测。极端天气事件每年造成1400亿美元的经济损失。负担得起的气候模拟太过宏观。” 他补充说:“我们需要千米级别的模拟来真正产生影响。更长尺度的模拟成本高昂,需要百万倍的计算量。[这是]一个云平台,供政府机构、天气预报员和预测机构加速天气预测的部署。” 为了详细说明地球2,NVIDIA正在开发可以在不同超级计算机上运行的软件,世界各地的客户或政府机构将决定将使用哪种超级计算机。NVIDIA正在展示新的服务,能够计算地球气候的详细模型,比今天的数值天气预测过程快1000倍,更节能2000倍,Lebaredian说。 NVIDIA提供加速模拟作为一项服务,具有更好的性能、能源效率、更低的成本和由Omniverse Cloud API提供支持的更好的可视化。地球-2 API让用户能够创建从全球大气条件到局部天气现象,如台风和湍流的交互式模拟,使他们能够在几秒钟内提供实时预报和警告。 台湾中央气象局是最早采用地球-2的扩散模型来增强台风预测的机构之一,旨在通过早期疏散最小化伤亡。通过利用NVIDIA的先进生成式AI技术,地球-2承诺将革新灾害准备和应对策略,有潜力在易受极端天气事件影响的地区挽救生命。 此外,地球-2与NVIDIA Omniverse集成,使像The Weather Company这样的组织能够开发包含真实天气数据的3D工作流程,增强其数字孪生环境,以更好地分析和模拟天气影响。The Weather Company计划利用地球-2 API创建更高分辨率的模拟,并开发新的天气建模产品,最终改善企业客户的天气情报服务。 抱歉,让我来补全一下。 地球-2 API的早期采用者包括像Spire和Meteomatics这样的天气分析平台,以及探索气候技术解决方案的初创公司。借助NVIDIA DGX Cloud的强大支持,地球-2为气候和天气解决方案提供了全栈加速服务,包括最佳AI流水线和GPU加速的数值天气预测模型。 通过地球-2,NVIDIA旨在赋能全球组织更深入地理解、分析和缓解天气和气候变化的影响,这标志着在对抗环境挑战的斗争中迈出了重要的一步。它以两公里的尺度可视化和模拟天气。 当与气候技术行业(价值200亿美元)的公司拥有的专有数据结合使用时,地球-2的应用程序编程接口(API)能够在几秒钟内提供警报和更新的预测,与传统的CPU驱动建模相比,这大大缩短了时间,从几分钟或几小时缩短到几秒钟。 “台湾是全球供应链的关键组成部分,洪水风险分析和疏散准备是我们的核心任务,”中央气象局局长Chia-Ping Cheng在一份声明中说。 自2000年以来,台湾遭受了超过136次台风袭击,利用地球-2缓解这些影响对于提高灾害信息学的质量和分辨率至关重要,国家灾害减少中心(NCDR)表示。 全球领先的天气数据预测和洞察公司——The Weather Company计划将其气象数据和Weatherverse工具与Omniverse集成,首次使构建数字孪生的客户能够更好地理解和可视化实际天气条件的影响。 The Weather Company还计划探索使用NVIDIA基于分数的生成AI为其Weatherverse服务、Weather Engine企业级天气智能解决方案和新的高分辨率天气建模产品。 “为了有效应对当前和未来的天气和气候相关挑战,现在比以往任何时候都更加关键的是,将可靠的、全球规模的真实天气数据和洞察力纳入数字孪生环境中,以更好地分析、计划和模拟天气的影响,”The Weather Company的CEO Sheri Bachstein在一份声明中说。“我们多年来一直与Nvidia合作,加速我们的专有天气建模系统GRAF的GPU加速,我们计划采用地球-2 API创建更高分辨率、更节能、成本更低的模拟。” 地球-2 API利用DGX Cloud提供气候和天气解决方案的全栈加速。这包括模型如FourCastNet、GraphCast和深度学习天气预测的最佳AI流水线。它还包括如Icon这样的数值天气预测模型在最新的Grace Hopper系统上的GPU加速。 运行在Nvidia DGX GH200、HGX H100和OVX超级计算机上的地球-2可能为模拟和可视化全球气候模拟提供了前所未有的速度和规模的路径。
NVIDIA 2024年GTC大会精彩亮点
NVIDIA携手苹果Vision Pro推出共享VR技术:NVIDIA为苹果Vision Pro带来了共享VR技术,使企业开发者能够流式传输高保真3D数字孪生。依托Omniverse Cloud API和NVIDIA Graphics Delivery Network,无需在M2处理器上本地渲染,实现混合渲染和沉浸式空间计算体验。想了解更多吗,继续读下去。Apple Vision Pro gains new enterprise 3D rendering capabilities NVIDIA推出地球-2气候预测平台:NVIDIA推出了基于云的地球-2数字孪生气候模型平台。通过AI超级计算机驱动,地球-2利用生成式AI和CUDA-X微服务提供高分辨率模拟,助力全球理解和减缓气候变化影响。台湾中央气象局等机构已经开始使用这些API,以提高灾难预备能力。Nvidia announces Earth-2 digital twin to forecast planet’s climate change | VentureBeat 新一代AI芯片——NVIDIA的Blackwell GPU:NVIDIA推出下一代Blackwell GPU,大幅提升AI性能。GB200芯片拥有20 petaflops性能,而Grace Blackwell Superchip则承诺提供比LLM推理快30倍的性能。黄仁勋将此称为一场革命,凭借CUDA-X驱动的Blackwell的六项新技术,将影响从数据处理到工程等多个领域。Nvidia announces GB200 Blackwell AI chip, launching later this year Project GR00T人形机器人项目:NVIDIA宣布了Project GR00T,这是一个为人形机器人设计的基础模型,搭配Jetson Thor计算机和对Isaac机器人平台的增强,推动具有自然语言理解、类人动作和自主性的AI驱动机器人发展。NVIDIA Announces Project GR00T Foundation Model for Humanoid…
Stability AI 3D:开创3D视觉技术新篇章,提升多视角连贯性与生成质量
今天,他们在3D技术界掀起了一场风暴,发布了稳定视频3D(简称SV3D https://huggingface.co/stabilityai/sv3d)——一个基于稳定视频扩散技术的创新模型,大大提升了3D视觉质量和视角的连贯性。 这次发布的SV3D分为两个版本:SV3D_u和SV3D_p。SV3D_u能够从单一图片输入出发,无需任何摄像机调整,就能生成环绕视频。而SV3D_p则在此基础上进一步发展,不仅支持单张图片和环绕视图作为输入,还能创建沿特定摄像机路径的3D视频。 无论是商业使用还是个人学习探索,SV3D都已准备就绪,商业用途需要Stability AI的会员资格,而个人学习者可以在Hugging Face下载模型权重,并参阅他们的研究论文。 他们的SV3D模型接受单一物体图片作为输入,创造出该物体的全新多视角视图。利用这些新视角,SV3D能够生成3D网格。 当他们之前发布稳定视频扩散模型时,就已经强调了该视频模型在多个应用领域的灵活性。现在,基于这个坚实的基础,他们激动地推出了稳定视频3D,这个新模型在3D技术领域取得了巨大的进步。相比之前发布的Stable Zero123以及其他开源选择,如Zero123-XL,稳定视频3D提供了更加出色的质量和多视角一致性。 此次发布的两个版本分别是: – SV3D_u:这个版本能够基于单张图片输入生成环绕视频,无需摄像机设置。– SV3D_p:这个版本在SV3D_u的基础上扩展了功能,支持单张图片和环绕视图作为输入,允许沿特定摄像机路径创建3D视频。 视频扩散的优势在于,通过将稳定视频扩散模型与摄像机路径条件化相结合,他们的稳定视频3D能够生成物体的多视角视频。与在Stable Zero123中使用的图像扩散模型相比,视频扩散模型在一般化和生成输出的视角连贯性方面提供了显著优势。此外,他们提出了改进的3D优化方法,利用稳定视频3D的能力生成任意绕物体的轨道。通过实现这些技术,并结合解耦的照明优化以及新的掩码得分蒸馏采样损失函数,稳定视频3D能够可靠地从单张图片输入中生成高质量的3D网格。 稳定视频3D在3D生成方面带来了重大进步,尤其是在新视角合成(NVS)方面。与先前的方法相比,他们的模型能够从任何给定角度提供连贯的视图,并具有出色的一般化能力。这不仅增强了姿态控制能力,还确保了跨多个视图的对象外观一致性,进一步提升了3D生成的真实感和精确度。 通过多视角一致性的优化,他们的稳定视频3D提高了3D神经辐射场(NeRF)和网格表示的质量,从而改善了直接从新视角生成的3D网格的质量。他们设计了一个掩码得分蒸馏采样损失,以进一步提高在预测视角中不可见区域的3D质量。此外,为了解决烘焙入照明的问题,稳定视频3D采用了解耦的照明模型,与3D形状和纹理共同优化。
Nvidia的GTC大会真是一场硬件和软件公告的重拳出击啊
嘿,小伙伴们,你们听说了吗?NVIDIA在它们的开发者大会GTC上放了个大招,CEO Jensen Huang在主题演讲中抛出了一系列炸弹。让我们来一探究竟,这其中都有些什么新奇的东西吧! 首先登场的是一颗新的芯片——Blackwell。这可不是普通的新成员,Blackwell在训练性能上比NVIDIA之前的芯片Hopper强了2.5倍,使用FP8精度时如此,而在推理速度上,使用FP4精度则快了5倍。它将以GB200的形式出产,也就是Grace Blackwell 200,这玩意儿是两颗Blackwell GPU、一颗Grace CPU加上一堆其他配件的大杂烩。但真正牛逼的地方在于NVIDIA的DGX SuperPOD,这可是一个拥有11.5 exaflops AI超级计算能力的怪兽,用成千上万的NVIDIA的GB20搭建而成。 接下来是NIMs——Nvidia推出的Inference Microservices,换句话说,开发者不必从头开始造轮子,可以直接使用Nvidia提供的预构建AI微服务(NIMs)。你可以把它们想象成特定任务的即插即用AI工具。NVIDIA还允许企业在NIMs之上,使用自己的专有数据构建定制的AI“副驾驶”。NIMs的设计旨在使它们易于跨不同软件平台使用,甚至兼容旧版GPU模型。 最后是GR00T——通用机器人模型项目,专为仿人机器人设计的AI基础模型,着重于让机器人拥有更好的运动、感知和适应能力。 GR00T将运行在升级版的Jetson Thor计算机上,这意味着更小但更强大的机器人板载计算机。想象一下,那些仿真度超高的人形机器人将因此而更加逼真。 总之,NVIDIA这次真是下了一番大手笔,让我们拭目以待,看看这些新技术将如何改变我们的世界吧!
马斯克的xAI公司推出开源AI聊天机器人Grok-1,助力技术创新与合作
埃隆·马斯克的xAI公司开发的AI聊天机器人Grok-1现已开源。Grok-1的开放发布版本现已在Github上提供,供用户访问和构建。这一消息发布于马斯克在X(前身为Twitter)上宣布公司将很快向开发者提供聊天机器人访问权限几天后。xAI提到,他们将Grok-1这个大型语言模型的基础模型权重和网络架构作为开源AI平台提供。 对于那些不知道的人来说,开源意味着软件、其源代码和项目对所有人都是可访问的,无需任何许可费。这种模型的优势在于为公司和开发者提供灵活性,以提出新的解决方案,找到修复方法,甚至为不同的需求和用途重新目的化它。 根据博客文章,Grok-1是Grok-1预训练阶段的原始基础模型检查点,该阶段于2023年10月进行。它是一个由xAI使用自定义训练堆栈在JAX和Rust之上从头训练的314亿参数混合专家模型”。xAI进一步明确表示,他们正在“根据Apache 2.0许可证发布权重和架构”,该许可证允许商业使用,但不包括用于训练AI大型语言模型的数据或访问实时数据的权限。文章还指出,Grok-1模型没有针对任何特定应用程序或对话进行训练。 埃隆·马斯克一直在批评像OpenAI这样的公司没有将他们的AI语言模型作为开源提供。去年11月在一个播客中,马斯克提出了将AI语言模型作为开源平台提供的想法。他在播客中提到,“我通常倾向于开源,比如有偏向于开源的倾向。”他的评论是在xAI的Grok发布后不久发表的,Grok的训练花费了四个月的时间。也就是说,一开始,Grok与OpenAI的ChatGPT、微软的Copilot甚至谷歌的双子星相比,被认为是一个更加更新的AI聊天机器人。 同样,不是没有公司将AI模型作为开源提供。Mistral和Falcon是已经可用的开源AI平台。然而,从更广泛的角度来看,大多数AI平台都是封闭源代码的。公司只是将其作为开源或有限开源模型提供,以接收来自其他研究人员的反馈并对其进行改进。 下载:https://github.com/xai-org/grok-1
Apple加速AI大跃进:最新发布的MM1 模型论文
苹果似乎在大型语言模型(LLM)的领域里来得有点晚,跟谷歌、微软和Meta在打造强大的AI工具方面有些距离,但看起来它正在迅速追赶。 今年早些时候,CEO蒂姆·库克告诉投资者,将会有关于AI的重大宣布,这将是一个“重大突破”。许多人猜测这将是一个新版的Siri,由与谷歌的助手更换为双子星类似的LLM驱动。 苹果的研究人员刚刚揭示了这个下一代Siri的可能基础的细节,如果传言属实,它可以在iPhone上与双子星并行工作,提供选择。 作为一篇预印研究论文发布的MM1,本质上提供了一种使用AI生成的数据和标签来加速新模型训练的新方法——包括可能的Siri 2.0。 MM1的核心是一种使用合成数据(包括图像和文本)训练多模态模型的新方法。MM1的研究者声称,他们的新方法加快了性能,并减少了获得所需结果所需的后续提示次数。能够改善提示理解,并尽可能少地与AI互动就得到所需输出,对于消费技术来说是完美的,特别是在将由各种技术能力的人群使用的Siri中。 这些模型在预训练指标上达到了最先进的水平,并在微调后在多模态基准测试上表现出竞争力。MM1似乎是一个AI模型家族,最大的模型大约有300亿个参数。这比GPT-4和Claude 3 Opus中的万亿以上参数要小得多,但研究者仍然声称由于效率提高而达到关键基准。这一突破性成就特别体现在视觉方面,尤其是对图像和其他视觉内容的分析能力以及理解输出的能力。我最近测试了ChatGPT、Claude和双子星在这项任务上的表现如何。 MM1使用不同于其他模型的架构,包括更高分辨率的图像编码器,采用了不同的预训练和标注方法,并专注于使用数据混合来提高单一提示的总体性能。 它还使用了一种混合专家(MoE)模型来在保持处理要求低的同时扩大规模,这进一步暗示了它在iPhone或笔记本电脑等设备上的潜在用途,而不是在云中运行。 苹果是否会用MM1驱动Siri 2.0?尽管这篇论文没有提到Siri或任何潜在产品,但对性能和效率的关注、实现最少提示下的稳定结果以及对广泛多模态能力的需求确实暗示了苹果未来可能会如何发展Siri。由于苹果长期以来的隐私立场,许多LLM驱动的Siri的功能可能必须“在设备上”运行,特别是处理个人信息方面。能够开发一个非常强大的模型,能够从与用户的互动中学习,并且足够小到可以在iPhone上运行,这是一个重大进步。 随着最近的消息称苹果可能会将双子星带到iPhone上,以及之前的传言称公司也在与ChatGPT制造商OpenAI进行谈判,看起来苹果正在采取多方面的方法来实现库克向投资者承诺的AI“大爆炸”。