苹果和谷歌打算携手达成一项重磅交易,旨在将双子星AI模型的强大功能融入iPhone上,据彭博社报道。这将使谷歌的地位更加牢不可破,因为该公司已经是iPhone上Safari浏览器的首选搜索引擎提供商。 报道援引了熟悉此事的人士的话称,苹果计划许可谷歌的AI技术,以便在今年晚些时候通过iOS更新引入AI驱动的特性。此外,该公司还与OpenAI进行了讨论,可能会使用GPT模型,彭博社表示。 苹果面临着巨大的压力,需要赶上如OpenAI、微软、Anthropic乃至谷歌等在AI领域的竞争对手。苹果首席执行官蒂姆·库克在2月份表示,公司将在“今年晚些时候”推出基于生成式AI的特性。 公司去年的招聘广告暗示苹果正在研发多种内部和外部工具,这些工具由生成式AI驱动。然而,讨论利用第三方AI技术的消息意味着苹果在自己的AI努力方面进展不如预期。 苹果自己的模型可能会为即将发布的iOS 18软件更新提供一些设备上的功能 — 预计将在每年六月举行的全球开发者大会(WWDC)上宣布。但是,该公司正在探索与外部提供商合作,以应用于诸如图像创建和帮助用户写作等生成式AI用例。 谷歌自己在双子星上也遇到了问题。上个月,该公司不得不暂停其图像生成功能,因为该模型产生了带有历史错误的图像。后来,谷歌首席执行官桑达尔·皮查伊表示,双子星的回应是“完全不可接受的”。上周,谷歌表示,它正在全球范围内阻止有关选举的查询在双子星上进行。但TechCrunch发现,用户可以通过对一些查询引入错别字来绕过这些限制。 尽管遇到这些挫折,谷歌在推出与智能手机相关功能方面仍具有优势。今年早些时候,该公司与三星合作,在Galaxy S24系列设备上引入了双子星驱动的AI功能。这家搜索巨头还在自己的Pixel系列手机上推出了这些功能。
斯坦福大学推出pyvene:开创性的AI模型干预Python库
在AI领域不断演化的今天,理解和操作神经模型变得至关重要。这一需求源自多种应用,从改进模型以增强其鲁棒性,到揭示它们的决策过程以提高可解释性。在这一背景下,斯坦福大学的研究团队推出了“pyvene”,这是一个开创性的开源Python库,专为对PyTorch模型进行复杂干预而设计。pyvene巧妙地克服了现有工具的局限性,这些工具往往缺乏灵活性、可扩展性和用户友好性。 pyvene的创新之处在于其基于配置的干预方法。这种方法不同于传统的、基于代码执行的干预,提供了一种更直观、更可适应的操作模型状态的方式。该库处理多种类型的干预,包括静态和可训练参数,满足多种研究需求。该库的一个突出特点是其对复杂干预方案的支持,如顺序和并行干预,以及它在模型解码过程的不同阶段应用干预的能力。这种多功能性使pyvene成为生成模型研究中不可或缺的资产,尤其是在模型输出生成动态特别有趣的情况下。 深入探究pyvene的能力,研究通过着眼于模型可解释性的引人注目的案例研究,证明了该库的有效性。团队利用因果抽象和知识定位技术,展示了pyvene揭示模型预测背后机制的潜力。这一努力展示了该库在实际研究场景中的实用性,并突出了其在使AI模型更加透明和可理解方面的贡献。 斯坦福团队对pyvene进行了严格测试,跨越了各种神经架构,展示了其广泛的适用性。例如,该库成功地对从简单前馈网络到复杂的多模态架构等范围内的模型进行了干预。这种适应性进一步体现在库对涉及在多个模型前向传递中改变激活的干预的支持上,这对许多现有工具来说是一项挑战。 使用pyvene所得到的性能和结果特别令人印象深刻。该库在识别和操作神经模型的特定组件方面发挥了重要作用,从而使我们能够更细致地理解模型行为。在一个案例研究中,pyvene被用来在神经模型表示中定位性别,在性别代词预测任务中实现了100%的准确率。这一高水平的精确性突显了该库在促进目标干预和从复杂模型中提取有意义见解方面的有效性。 随着斯坦福大学研究团队继续完善和扩展pyvene的功能,他们强调了该库在推动AI研究创新方面的潜力。pyvene的推出在理解和改进神经模型方面标志着一个重要的进步。通过提供一个多功能、用户友好的工具进行干预,团队解决了现有资源的局限性,并在人工智能的探索和发现中开辟了新的路径。随着pyvene在研究社区中获得关注,它有望进一步推动发展,为开发更加鲁棒、可解释和有效的AI系统做出贡献。
探索可扩展指令式多世界代理(SIMA):谷歌DeepMind在通用游戏AI领域的新里程碑
在最新的科技研究领域,谷歌DeepMind团队推出了一项名为“可扩展指令式多世界代理”(Scalable Instructable Multiworld Agent,以下简称SIMA)的研究,这是一种能够根据自然语言指令在多种视频游戏设置中执行任务的代理。 视频游戏被视为人工智能(AI)系统的重要试验场。与现实世界类似,游戏提供了丰富的学习环境,其中包含了响应式的实时场景和不断变化的目标。 从谷歌DeepMind早期在雅达利游戏上的工作,到其AlphaStar系统在星际争霸II游戏中达到人类大师级水平,该团队在AI与游戏领域拥有长期的研究历史。 如今,谷歌DeepMind宣布了一个新的里程碑——其研究重点从针对单一游戏的研究转变为开发一个能够理解和执行多种游戏指令的通用AI代理。 在一份新的技术报告中,谷歌DeepMind团队介绍了“可扩展指令式多世界代理”,这是一种针对3D虚拟环境设计的通用AI代理。谷歌DeepMind与游戏开发商合作,训练SIMA在多种视频游戏中学习。这项研究首次证明了一种代理能够理解广泛的游戏世界,并能够根据自然语言指令在这些游戏世界中执行任务,如同人类可能做的那样。 该项工作的重点并不是在游戏中获得高分。对于AI系统而言,学会玩一个视频游戏本身就是一个技术挑战,但学会在多种游戏环境中根据指令执行任务可能会开启更多有用的AI代理,用于各种环境。该团队的研究展示了如何将先进AI模型的能力通过语言界面转化为实用的、现实世界中的行动。谷歌DeepMind希望,通过SIMA及其他代理的研究,可以利用视频游戏作为沙盒,更好地理解AI系统如何变得更加有益。 为了使SIMA接触到多样的环境,谷歌DeepMind与游戏开发商建立了合作伙伴关系。团队与八家游戏工作室合作,训练和测试SIMA在九种不同的视频游戏上,例如Hello Games的《无人深空》和Tuxedo Labs的《Teardown》。SIMA的投资组合中的每款游戏都开启了一个新的互动世界,其中包括从简单的导航和菜单使用到采矿资源、驾驶太空船或制作头盔等多种技能学习。 谷歌DeepMind还使用了四个研究环境,包括与Unity合作建立的一个名为建筑实验室的新环境,代理需要在此环境中从建筑块中构建雕塑,测试其物体操作和对物理世界的直观理解能力。 通过学习不同的游戏世界,SIMA能够理解语言与游戏行为之间的联系。谷歌DeepMind的首次尝试是记录其投资组合中游戏的人类玩家配对,其中一位玩家观察并指导另一位玩家。玩家还可以自由玩游戏,然后回顾他们的游戏行为,并记录下能够导致这些游戏行为的指令。 SIMA包括预训练的视觉模型和一个主模型,后者包含内存并输出键盘和鼠标动作。 作为一个多才多艺的AI代理,SIMA能够感知和理解多种环境,然后采取行动以实现指定的目标。它包括一个设计用于精确图像-语言映射的模型和一个视频模型,后者预测屏幕上接下来会发生什么。这些模型在特定于SIMA投资组合中的3D设置的训练数据上进行了微调。 谷歌DeepMind的AI代理不需要访问游戏的源代码或特定的API。它只需要两种输入:屏幕上的图像和用户提供的简单自然语言指令。SIMA使用键盘和鼠标输出来控制游戏的中心角色执行这些指令。这种简单的界面与人类使用的界面相同,意味着SIMA可以潜在地与任何虚拟环境进行交互。 SIMA当前版本在600个基本技能上进行了评估,包括导航(例如“向左转”)、物体交互(例如“爬梯子”)和菜单使用(例如“打开地图”)。谷歌DeepMind训练了SIMA执行可以在大约10秒内完成的简单任务。 谷歌DeepMind希望其未来的代理能够处理需要高级战略规划和完成多个子任务的任务,例如“找到资源并建立一个 营地”。这对于AI总体来说是一个重要的目标,因为尽管大型语言模型催生了强大的系统,这些系统可以捕获关于世界的知识并生成计划,但它们目前缺乏代表我们采取行动的能力。 在游戏和更多方面的泛化是谷歌DeepMind研究的重要部分。该团队展示了在多种游戏上训练的代理比只学会玩一个游戏的代理表现更好。在评估中,接受其投资组合中九款3D游戏训练的SIMA代理显著优于仅在每个单一游戏上训练的所有专业代理。更重要的是,除了一个游戏之外在所有游戏上训练的代理在那个未见过的游戏上的表现几乎与专门在其上训练的代理一样好,平均而言。这种在全新环境中正常工作的能力突出了SIMA的泛化能力。这是一个有希望的初步结果,然而,需要更多研究才能使SIMA在已知和未知的游戏中都能达到人类水平的表现。 谷歌DeepMind的结果还显示,SIMA的表现依赖于语言。在一个未给代理提供任何语言训练或指令的控制测试中,它以适当但无目的的方式行动。例如,一个代理可能会收集资源,这是一种频繁的行为,而不是按照指令行动。 谷歌DeepMind评估了SIMA遵循指令完成近1500个独特的游戏内任务的能力,部分使用人类评审。作为基线比较,该团队使用了环境专业的SIMA代理的表现(训练和评估以遵循单一环境内的指令)。这种表现与三种类型的通用SIMA代理进行了比较,每种都在多个环境中接受了训练。 推进AI代理研究是谷歌DeepMind的目标之一。SIMA的结果显示了开发一系列通用的、由语言驱动的AI代理的潜力。这是早期研究,该团队期待在更多训练环境中进一步构建SIMA,并整合更有能力的模型。 随着SIMA接触到更多训练世界,谷歌DeepMind预期它会变得更具泛化性和多才多艺。随着模型的进步,该团队希望提高SIMA对更高级语言指令的理解和行动能力,以实现更复杂的目标。 最终,谷歌DeepMind的研究旨在构建更通用的AI系统和代理,这些系统和代理可以理解并安全地执行广泛的任务,以一种对人类在线和现实世界有帮助的方式。
V-JEPA模型,非LLM另外的选择,AGI的未来:迈向Yann LeCun先进机器智能(AMI)愿景的下一步
I-JEPA:基于Yann LeCun愿景的首个更人性化AI模型– 庆祝FAIR十周年:通过开放研究推动技术前沿的十年– 图灵奖颁给了Yann LeCun、Geoffrey Hinton和Yoshua Bengio 今天,我们向大家公开发布视频联合嵌入预测架构(V-JEPA)模型,这是推进机器智能并加深对世界理解的关键一步。作为一个早期的物理世界模型示例,V-JEPA擅长检测和理解对象间的高度详细互动。遵循负责任的开放科学精神,我们决定以创意共享非商业许可发布此模型,供研究人员进一步探索。 作为人类,我们通过观察学习到关于周围世界的许多知识——尤其是在生命早期阶段。就像牛顿的第三运动定律:即使是婴儿(或猫)在多次推落桌上物品并观察结果后也能直观地理解,凡是上升的都必须下落。你不需要几小时的指导或阅读成千上万本书就能得出这个结果。你的内在世界模型——基于世界的心理模型的上下文理解——为你预测了这些后果,而且非常高效。 “V-JEPA是朝着更深入理解世界迈出的一步,以便机器能够实现更广泛的推理和规划,”Meta的副总裁兼首席AI科学家Yann LeCun说道,他在2022年提出了最初的联合嵌入预测架构(JEPA)。“我们的目标是构建高级机器智能,能像人类一样学习,形成对周围世界的内部模型,以便高效地学习、适应并制定计划以完成复杂任务。” 聚焦视频JEPA V-JEPA是一个非生成模型,通过预测视频中缺失或遮蔽部分的抽象表示空间学习。这类似于我们的图像联合嵌入预测架构(I-JEPA)如何比较图像的抽象表示(而不是直接比较像素本身)。与试图填补每个缺失像素的生成方法不同,V-JEPA具有丢弃不可预测信息的灵活性,这导致训练和样本效率提高了1.5到6倍。 由于采用自监督学习方法,V-JEPA完全使用未标记数据进行预训练。标签仅用于预训练后将模型适配到特定任务。与之前的模型相比,这种架构在所需标记示例数量和学习即使是未标记数据所需的总体努力方面更为高效。通过V-JEPA,我们在这两方面都看到了效率提升。 我们通过遮蔽视频的大部分内容,仅向模型展示一小部分上下文。然后我们让预测器填补缺失的部分——不是以实际像素的形式,而是作为这个表示空间中的更抽象的描述。 V-JEPA通过预测学习到的潜在空间中遮蔽的时空区域来训练视觉编码器。 遮蔽方法论 V-JEPA的训练并不是为了理解一种特定类型的行动。相反,它使用自监督训练在一系列视频上学习,并了解了世界运作方式的许多方面。团队还仔细考虑了遮蔽策略——如果你不遮蔽视频的大部分区域,而是在这里那里随机采样补丁,这会使任务变得太简单,你的模型就不会学到世界上特别复杂的任何事情。 同样重要的是要注意,在大多数视频中,事物随时间缓慢演变。如果你遮蔽视频的一部分,但只在特定瞬间,并且模型可以看到紧接之前和/或之后的情况,这也会使事情变得太简单,模型几乎肯定不会学到任何有趣的东西。因此,团队采用了一种在空间和时间上都遮蔽视频部分的方法,这迫使模型学习并发展对场景的理解。 高效预测 在抽象表示空间进行这些预测很重要,因为它允许模型专注于视频包含的高级概念信息,而不必担心那些对下游任务通常不重要的细节。毕竟,如果视频显示了一棵树,你可能不会关心每片单独叶子的微小运动。 我们对这一方向感到兴奋的原因之一是,V-JEPA是第一个擅长“冻结评估”的视频模型,这意味着我们在编码器和预测器上完成了所有自监督预训练,然后我们不再触碰模型的这 些部分。当我们想要将它们适配学习新技能时,我们只需在其上训练一个小型轻量级的专门层或小网络,这非常高效且快速。 低样本冻结评估:将V-JEPA与其他视频模型在Kinetics-400和Something-Something-v2上的冻结评估进行比较,我们变化了每个数据集可用于训练注意力探针的标记示例百分比。我们在几个低样本设置中训练探针:使用训练集的5%、10%或50%,并在每个设置中进行三次随机分割,以获得更稳健的指标,每个模型进行九次不同的评估实验。我们报告了K400和SSv2官方验证集上的平均值和标准偏差。V-JEPA比其他模型更节省标签——具体来说,减少每个类别可用的标记示例数量会增加V-JEPA与基准之间的性能差距。 以前的工作需要进行完全的微调,这意味着在预训练模型之后,当你希望模型在进行微调以承担该任务时真正擅长细粒度动作识别时,你必须更新模型中的参数或权重。然后那个模型总体上变得擅长执行那个任务,而不再适用于其他任何事情。如果你想教模型一个不同的任务,你必须使用不同的数据,并且必须为这个其他任务专门定制整个模型。如我们在这项工作中所展示的,通过V-JEPA,我们可以一次性预训练模型而不需要任何标记数据,固定它,然后重用模型的同一部分来完成几个不同的任务,如动作分类、精细物体交互识别和活动定位。 V-JEPA是一种自监督方法,用于从视频中学习表示,可以应用于各种下游图像和视频任务,而无需调整模型参数。V-JEPA在冻结评估中的图像分类、动作分类和时空动作检测任务上优于之前的视频表示学习方法。 未来研究的途径… 虽然“V”在V-JEPA中代表“视频”,但到目前为止它只考虑了视频的视觉内容。下一步显然是采取更多模态方法,所以我们正在仔细考虑如何将音频与视觉结合起来。 作为概念验证,当前的V-JEPA模型擅长于细粒度物体交互和区分随时间发生的详细物体对物体交互。例如,如果模型需要能够区分放下笔、捡起笔和假装放下笔但实际上没有放下笔之间的区别,V-JEPA相比之前的方法在这种高级别动作识别任务上做得相当好。然而,这些事情在相对较短的时间尺度上工作。如果你向V-JEPA展示几秒钟到10秒钟的视频剪辑,它在那方面做得很好。因此,我们的另一个重要步骤是考虑规划和模型在更长时间范围内进行预测的能力。 …以及通往AMI的道路 到目前为止,我们与V-JEPA的工作主要关于感知——理解各种视频流的内容,以获得一些关于我们周围世界的上下文。这个联合嵌入预测架构中的预测器充当了一个早期的物理世界模型:你不必看到画面中发生的一切,它可以告诉你那里概念上发生了什么。作为下一步,我们想展示我们如何能够使用这种预测器或世界模型进行规划或序列决策。 我们知道,可以在没有强监督的情况下对JEPA模型进行视频数据训练,它们可以像婴儿那样观看视频——被动地观察世界,学习很多有趣的东西,了解这些视频的上下文,以这样一种方式,仅需少量标记数据,你就可以迅速获得一项新的任务和能力,识别不同的动作。 V-JEPA是一个研究模型,我们正在探索许多未来的应用。例如,我们预期V-JEPA提供的上下文对我们的具身AI工作以及我们构建未来AR眼镜的上下文AI助手的工作将是有用的。我们坚信负责任的开放科学的价值,这就是为什么我们以CC BY-NC许可发布V-JEPA模型,以便其他研究人员可以扩展这项工作。 代码: https://github.com/facebookresearch/jepa
微软向谷歌发起挑战,直指后者在生成式AI领域的优势地位
在这个充满竞争的数字时代,微软直接向欧盟反垄断监管机构爆料,称谷歌凭借其庞大的数据宝库和专为AI优化的芯片,在生成式人工智能领域拥有不可小觑的竞争优势。这一切的背后,可不仅仅是两个科技巨头之间的小打小闹,而是一场关于未来科技霸权的较量。 微软的这番言论,是对欧盟委员会1月份关于生成式AI竞争水平的一次咨询的回应。生成式AI因其能够生成类似人类的回应而日益受到欢迎,由微软支持的OpenAI的ChatGPT和谷歌的聊天机器人Gemini就是两个典型的例子,但这也引发了人们对误信息和假新闻的担忧。 微软在报告中指出:“今天,只有谷歌一家公司在AI的各个层面上实现了垂直整合,这给它带来了力量和独立性,从芯片到繁荣的移动应用商店无所不包。其他公司必须依靠合作伙伴来创新和竞争。” 微软还表示,谷歌自产的AI半导体将在未来几年内给它带来竞争优势,而谷歌搜索索引和YouTube的大量专有数据使其能够训练其大型语言模型Gemini。“YouTube提供了无与伦比的视频内容集,拥有大约140亿个视频。谷歌可以访问这些内容,但其他AI开发者却无法做到。” 此外,微软指出,谷歌的Google Assistant和苹果的Siri等AI驱动的语音助手为这两家公司带来了优势。“它们非常有可能利用各自现有的语音助手,在生成式AI领域取得领导地位。谷歌和苹果的新进入者和竞争对手将无法享有同样的优势。” 面对其在OpenAI上超过100亿美元的投资现正受到欧盟反垄断监管机构的审视,微软还试图化解有关大型科技公司与初创企业之间合作伙伴关系的监管担忧。“所有这些初创企业都依靠不同形式的投资和合作伙伴关系,使它们能够进入和扩大在这一领域的存在。” 微软通过指出Anthropic、法国的Mistral以及加拿大的Cohere等公司背后的投资者包括谷歌、亚马逊、微软、Salesforce和Nvidia,强调在AI领域鼓励支持竞争的合作伙伴关系,是防止公司通过垂直整合获得反竞争优势的有效方式。
苹果收购DarwinAI,引领设备上AI运行新时代,隐私保护再升级
苹果公司对AI的态度绝不是闹着玩的。他们悄悄收购了加拿大初创公司DarwinAI,这家公司擅长让AI模型变得更小、更快——完美适合于直接在你的设备上运行AI。这是他们为2024年承诺的大规模AI升级做准备。 这到底是怎么一回事? 苹果在AI竞赛中正在迎头赶上,并且正在为今年的重大生成式AI推动增强其团队力量。 这意味着什么? DarwinAI主要关注于制造业,但它也在将AI模型缩小和加速方面做了一些工作。这可能就是苹果此次收购的大计(毕竟他们非常注重隐私和本地数据)。 DarwinAI团队中的几十位成员已加入苹果更广泛的生成式AI团队,共同创始人Alexander Wong在苹果的AI军队中担任“导演”级别的角色。 我为什么要关心? 我们很可能很快就会看到日常AI获得重大的苹果风格升级——最受期待的是更好的Siri。苹果能让设备上的AI工作吗? 三星和谷歌都试过,但许多“强大”的功能需要将你的数据发送到云端,那里有大型的语言模型。设备上的AI可以为隐私开辟令人兴奋的可能性,因为这些酷炫功能的工作不需要你的数据离开设备。
Claude 3 Haiku,它不仅是Claude系列中最快的成员,还在速度的赛道上领先一大步
在今天的技术圈里掀起了一场小小的革命,Claude 3系列迎来了它的最新成员——Haiku。这位新成员以其独特的速度优势和亲民的价格在智能界独树一帜。Haiku擅长于解析图像,无论是在行业基准测试还是实际应用场景中,都展现出了令人瞩目的表现。现在,无论用户是Sonnet的追随者还是Opus的爱好者,都可以在Claude API或者claude.ai的Claude Pro订阅服务中找到Haiku。 对于那些需要快速分析庞大数据集和生成及时输出的企业用户来说,Haiku的速度就像一股清流。这位新成员能够以其它同级产品三倍的速度处理大多数工作任务,每秒处理约21K token(大约30页内容),对于32K token以下的提示,它的响应速度异常迅速,能够提供流畅的聊天体验并同时执行多个小任务。 Haiku采用了1:5的输入输出token比率计价模式,特别适合处理企业级的长篇幅任务。企业可以依赖Haiku以半价的成本快速分析处理大量文件,如季度报告、合同或法律案件。例如,只需一美元,Haiku就能处理分析400个最高法院案例或2500张图片,这使得它在同等性能级别的模型中性价比极高。 除了速度和成本效益,Haiku还特别强调企业级的安全性和稳健性。通过严格的测试减少有害输出和模型逃逸的风险,确保使用的安全性。此外,从系统的持续监控、端点加固、安全编码实践、强大的数据加密协议到严格的访问控制等多重安全措施,均旨在保护敏感数据的安全。定期的安全审计和与经验丰富的渗透测试人员的合作也是为了主动识别和解决潜在的安全威胁。更多关于这些安全措施的信息可以在Claude 3的模型说明卡中找到。 从今天起,客户可以通过API或在claude.ai上的Claude Pro订阅服务使用Claude 3 Haiku。它已经在亚马逊Bedrock平台上线,并将很快登陆谷歌云的Vertex AI平台。
微软推出AI Copilot for Security,采用按量付费的方式
微软下月将把它的人工智能小能手——“AI 安全副舵手”带进网络安全领域,这可不是个普通的聊天机器人哦,它专为那些日夜奋战在网络安全第一线的英雄们设计,帮他们抵御各种网络威胁。别以为这家伙会像微软365的副驾一样,收你个月费就完事了。微软这次玩的是“用多少,付多少”,每小时4美刀的消费模式,4月1号正式上线。 这位“AI 安全副舵手”不仅脑洞大开,还特别能干,它是由OpenAI的GPT-4和微软自家的安全特制模型驱动的。这意味着,网络安全工作者现在可以随时获取最新的安全事件信息、威胁总结等等。微软早在一年前就开始测试这个聊天机器人了,它能接入微软每天收集的78万亿个安全信号中的最新威胁信息。 而且,“AI 安全副舵手”还有一个钉板区,方便网络安全员工之间的协作,还能总结事件报告呢。就像其他的AI聊天机器人一样,你可以用自然语言输入信息,上传文件供其分析,甚至让它来分析代码。所有的指令都会被保存在历史记录里,以便日后审计。 这种按量付费的定价策略,旨在帮助企业根据需要调整AI驱动的网络安全工作。微软表示:“我们会提供一个简单的定价模型,不管是单独的副驾体验还是嵌入到微软安全产品组合中的体验,都用这一个模型。消费模式意味着企业可以快速、小规模地开始,无需预付任何设备或用户费用,就能试验和学习。” 微软推动AI进入网络安全领域的同时,也正遭受俄罗斯国家支持的黑客组织Nobelium的攻击。就是这个团伙之前发动了SolarWinds攻击,还偷偷监视了一些微软高管的电子邮件收件箱好几个月。那次攻击还导致微软的一些源代码被偷,黑客得以访问公司的源代码仓库和内部系统。 在最近几年严重的Azure云攻击事件之后,微软正在全面改革其软件安全。2021年,因为Microsoft Exchange Server的一个漏洞,有三万个组织的电子邮件服务器被黑;去年,中国黑客通过一个微软云漏洞入侵了美国政府的电子邮件。
Jeff Bezos的投资正开始见效
面对谷歌在搜索引擎领域的统治地位,许多公司尝试挑战但最终难以撼动。然而,Perplexity AI作为一款全新的由AI驱动的搜索引擎,正在引起关注。之前,它在杰夫·贝佐斯和Nvidia参与的融资轮中估值达到了5.2亿美元。仅仅几个月后,它的估值就超过了10亿美元,这意味着贝佐斯的投资在短时间内几乎翻了一番。 贝佐斯注意到Perplexity的快速崛起,因为它迅速达到了每月1000万用户。尽管创业公司试图挑战谷歌权威的赔率堆叠不利,贝佐斯仍冒险投资于Perplexity,而这一冒险几个月后显然取得了回报。 Perplexity的首席执行官阿拉温德·斯里尼瓦斯认为,在更好地利用AI方面,他们比谷歌有优势。这个案例不仅展示了贝佐斯敏锐的投资眼光,也证明了即使在由巨头主导的市场中,通过创新和利用先进技术,新兴公司仍有机会颠覆市场。
打造Meta的GenAI基础设施,正站在一场技术革命的风口浪尖
Meta公司近日宣布了其AI未来的重大投资,公布了两个拥有24k GPU集群的细节。这标志着该公司在硬件、网络、存储、设计、性能和软件方面的突破,以提高各种AI工作负载的吞吐量和可靠性。这些集群专为训练Llama 3而设计,体现了Meta对开放计算和开源的坚定承诺。通过采用Grand Teton、OpenRack和PyTorch等开放技术,Meta持续推动整个行业的开放创新。 这次公告仅是Meta雄心勃勃的基础设施路线图中的一步。到2024年底,Meta计划继续扩大其基础设施建设,将包括350,000 NVIDIA H100 GPUs,旨在提供相当于近600,000 H100s的计算能力。 在开发AI的道路上,领先意味着在硬件基础设施上进行大量投资。硬件基础设施在AI未来中扮演了重要角色。今天,Meta分享了其两个24,576-GPU数据中心规模集群的细节。这些集群支持当前和下一代AI模型,包括Llama 3及其公开发布的LLM的继任者Llama 2,以及GenAI和其他领域的AI研究与开发。 Meta的长期愿景是建立开放且负责任地构建的人工通用智能(AGI),以便每个人都能从中受益。在迈向AGI的过程中,Meta也在扩大其集群的规模,以支持这一雄心。这些进步不仅创造了新产品,还为其应用家族和新的AI中心计算设备提供了新的AI功能。 Meta在构建AI基础设施方面拥有悠久的历史。2022年,Meta首次分享了其AI研究超级计算机(RSC)的细节,该计算机配备了16,000 NVIDIA A100 GPUs,加速了开放且负责任的AI研究,帮助Meta构建了第一代高级AI模型。RSC在开发Llama和Llama 2以及从计算机视觉、自然语言处理、语音识别到图像生成甚至编码的应用中的高级AI模型中发挥了并将继续发挥重要作用。 通过从RSC中获得的成功经验和教训,Meta的新AI集群着重于构建端到端AI系统,强调研究员和开发者的体验和生产力。这些集群的高性能网络结构、关键存储决策以及每个集群中的24,576 NVIDIA Tensor Core H100 GPUs的效率,使这两个版本的集群能够支持比RSC中可能支持的更大更复杂的模型,为GenAI产品开发和AI研究铺平了道路。 在网络方面,Meta每天需要处理数百万亿次AI模型执行。为了在大规模提供这些服务,需要一个高度先进和灵活的基础设施。Meta自主设计了大量硬件、软件和网络结构,以优化AI研究者的端到端体验,同时确保数据中心的高效运作。 在计算方面,这些集群使用了Meta自己设计并贡献给开放计算项目(OCP)的Grand Teton开源GPU硬件平台。Grand Teton基于多代AI系统,将功率、控制、计算和织物接口集成到单一机箱中,以获得更好的整体性能、信号完整性和热性能。它提供了快速的可扩展性和灵活性,可以快速部署到数据中心舰队中,并容易维护和扩展。结合其他自主创新,如Open Rack电源和机架架构,Grand Teton使Meta能够以针对当前和未来应用定制的方式构建新集群。 在存储方面,随着GenAI训练作业变得更加多模态,消耗大量的图像、视频和文本数据,对数据存储的需求迅速增长。Meta的存储部署通过一个自主开发的Linux文件系统用户空间(FUSE)API以及为Flash媒体优化的Meta“Tectonic”分布式存储解决方案来解决AI集群的数据和检查点需求。此外,Meta还与Hammerspace合作开发并实施了一个并行网络文件系统(NFS)部署,以满足这个AI集群的开发者体验要求。 性能方面,Meta在构建大规模AI集群时的一个原则是同时最大化性能和易用性,而不牺牲其中一个。随着我们推动AI系统的极限,最好的测试我们扩展设计能力的方式是实际构建系统,优化并测试它。在这个设计旅程中,我们比较了小集群和大集群的性能,以找出瓶颈所在。 Meta继续致力于AI软件和硬件的开放创新。公司相信,开源硬件和软件将始终是帮助行业解决大规模问题的有价值工具。 今天,Meta继续 支持作为OCP创始成员的开放硬件创新,并使像Grand Teton和Open Rack这样的设计可用于OCP社区。Meta也继续是PyTorch的最大和主要贡献者,PyTorch是推动大部分行业的AI软件框架。 Meta也继续致力于AI研究社区的开放创新。公司已经启动了开放创新AI研究社区,这是一个与学术研究人员合作的伙伴计划,旨在加深我们对如何负责任地开发和分享AI技术的理解,特别是关注LLMs。 对于Meta来说,对AI的开放方法并不新鲜。公司还启动了AI联盟,这是一个由AI行业领先组织组成的团体,专注于在一个开放社区内加速负责任的AI创新。Meta的AI努力建立在开放科学和跨领域合作的哲学之上。一个开放的生态系统为AI开发带来了透明度、审查和信任,并导致了每个人都能从中受益的创新,这些创新以安全和责任为最重要的考虑。 这两种AI训练集群设计是Meta未来AI更大路线图的一部分。到2024年底,Meta计划继续增长其基础设施建设,将包括350,000 NVIDIA H100s,作为一个将提供相当于近600,000 H100s计算能力的组合的一部分。 展望未来,Meta认识到昨天或今天有效的方法可能不足以满足明天的需求。这就是为什么公司不断评估和改进基础设施的每一个方面,从物理和虚拟层到软件层及以外。公司的目标是创建灵活且可靠的系统,以支持快速发展的新模型和研究。