苹果公司(AAPL股价下跌0.97%)与英伟达(Nvidia NVDA股价上涨0.32%)正在洽谈对OpenAI进行投资,此举将进一步加强它们与这一在人工智能竞赛中至关重要的合作伙伴之间的联系。 据知情人士透露,这次投资将是OpenAI新一轮融资的一部分,这轮融资将使这家ChatGPT的开发者估值超过1000亿美元。据《华尔街日报》周三报道,风险投资公司Thrive Capital将领投这轮融资,总额将达到数十亿美元,而微软(Microsoft MSFT股价上涨0.04%)也有望参与其中。 目前尚不清楚苹果、英伟达或微软在此次融资中会投入多少资金。迄今为止,微软一直是OpenAI的主要战略投资者,自2019年以来,微软已投资了130亿美元,持有这家AI初创公司的49%的利润份额。 作为全球领先的人工智能芯片制造商,英伟达与OpenAI长期保持紧密合作。 今年6月,苹果宣布OpenAI成为其Apple Intelligence的首个官方合作伙伴,这个系统旨在将AI功能融入其操作系统中。新AI将包括改进版的Siri语音助手、文本校对以及自定义表情符号的创建。 苹果宣布的部分新AI任务将由其自有的AI技术处理。而对于更复杂的AI任务,例如生成书面信息,苹果将使用OpenAI的ChatGPT。 苹果此次洽谈投资OpenAI,凸显了其确保继续获得这一技术的决心。尽管OpenAI面临来自其他AI初创公司和大型科技公司的激烈竞争,但ChatGPT依然是市场领导者。 苹果希望与其他公司合作,将它们的生成式AI整合到新的系统中。苹果软件负责人Craig Federighi在6月的开发者大会上表示,之所以选择ChatGPT作为首发AI,“是因为我们想要从最好的开始。” 在这次大会上,苹果还提到谷歌的生成式AI模型Gemini作为潜在合作伙伴。该公司还与Meta Platforms以及AI初创公司Anthropic和Perplexity进行了合作讨论。 然而,投资OpenAI可能会使苹果在与其他AI公司的合作中保持中立的努力变得复杂。 这对苹果来说是一个不寻常的举动,苹果通常不会投资初创公司。多年来,苹果在制造合作伙伴上进行了一些投资,部分原因是为了确保其设备组件的供应。 2017年,苹果向日本软银的愿景基金投资了10亿美元,当时苹果发言人表示此举“将加速可能对苹果战略上重要的技术的发展。” 2016年,苹果还向中国的网约车初创公司滴滴出行投资了10亿美元,尽管苹果没有解释这笔交易的动机,但当时驾驶技术的未来竞争日益激烈。苹果当时正处于尝试制造自己的电动汽车的初期阶段,而这一项目已于今年早些时候取消。 据《华尔街日报》最近报道,过去一年半来,苹果大幅增加了对内部AI的投资,以提升其自身能力。 苹果将在下个月举行的活动中,可能会发布下一代iPhone,而新AI工具预计将成为这些设备的亮点。 过去两年,英伟达加大了投资活动,投入资金到热门AI公司如Inflection AI和Databricks,以及涉及AI药物发现和机器人技术的小型初创公司。 OpenAI是英伟达AI芯片的最大用户之一,使用了数万枚芯片来训练其最先进的AI系统。此前彭博社曾报道,英伟达正在讨论对OpenAI进行投资。
AI驱动的游戏革命:Google研究人员突破传统引擎,实现《毁灭战士》实时生成GameNGen
Google研究人员近日在人工智能领域取得了重大突破,成功创建了一个名为GameNGen的神经网络,可以在无需传统游戏引擎的情况下,实时生成经典射击游戏《毁灭战士》的游戏画面。这个系统标志着人工智能技术的一次重大进步,它在一块芯片上每秒生成20帧可玩游戏画面,每一帧都由扩散模型预测生成。 根据研究人员在预印本服务器arXiv上发表的论文所述:“我们推出了GameNGen,这是第一个完全由神经模型驱动的游戏引擎,能够在复杂环境中实现高质量的实时互动。” AI游戏引擎:2000亿美元游戏行业的颠覆者 自1993年发布以来,《毁灭战士》一直是技术基准测试的代表作,被移植到各种各样的平台上,从微波炉到数码相机无所不包。然而,GameNGen的意义超越了这些早期的适配版本。与依赖精心编写的代码来管理游戏状态和渲染视觉效果的传统游戏引擎不同,GameNGen通过AI驱动的生成扩散模型自主模拟整个游戏环境。 从传统游戏引擎过渡到像GameNGen这样的AI驱动系统,可能会彻底改变全球2000亿美元的游戏行业。通过消除手动编写游戏逻辑的需求,AI驱动的引擎有望显著减少开发时间和成本。这一技术转变可能会使游戏创作更加民主化,允许小型工作室甚至个人创作者开发出复杂的互动体验,这在以前是难以想象的。 除了节省成本和时间,AI驱动的游戏引擎还可能开辟全新的游戏类型,其中环境、叙事和游戏机制可以根据玩家的行为动态发展。这种创新可能会重塑游戏格局,将行业从目前的大片模式转向更加多样化的生态系统。 AI模拟的广泛应用:从电子游戏到自动驾驶 GameNGen的潜在应用远远超出了游戏领域。它的能力表明,在虚拟现实、自动驾驶和智慧城市等需要实时模拟的行业中,它可以带来革命性的变化。这些行业需要进行高保真度的实时处理,而AI驱动的引擎如GameNGen能够胜任这一任务。 例如,自动驾驶汽车需要模拟无数驾驶场景,以安全地在复杂环境中导航。这项任务通过像GameNGen这样的AI引擎可以更高效地完成。此外,在虚拟和增强现实领域,AI驱动的引擎可以创建完全沉浸式的互动世界,这些世界能够实时适应用户的输入。这将彻底改变教育、医疗和远程工作等领域,为用户提供更有效和更具吸引力的体验。 AI梦中的虚拟世界:游戏未来的无限可能 虽然GameNGen代表了一个重大的进步,但也面临着一些挑战。尽管它可以以互动速度运行《毁灭战士》,但更现代、更复杂的游戏可能需要更强大的计算能力。此外,当前的系统针对特定的游戏(即《毁灭战士》)进行了优化,而开发一个能够运行多款游戏的通用AI游戏引擎仍然是一个巨大的挑战。 尽管如此,GameNGen是朝向新一代游戏引擎迈出的重要一步——一个不仅由AI玩游戏,还由AI创造和驱动游戏的时代即将到来。 随着人工智能的不断进步,我们可能正处于一个未来的边缘,未来的游戏不再是由代码编写,而是由机器的无限创意所构建。Google研究人员通过GameNGen让我们得以一窥这个未来,一个AI创造的虚拟体验将没有极限的世界。
英伟达AI芯片:热度不减,挑战重重
今年夏天,华尔街和硅谷开始质疑生成式人工智能的成本是否能够被其带来的效益所抵消。然而,芯片制造巨头英伟达在本周三的表现证明,市场对人工智能的热情依然高涨。 作为AI投资的风向标,英伟达再一次超出了华尔街的预期。在截至7月的三个月内,公司报告称其销售额和利润均翻了一番,预计当前季度的销售额将比去年同期增长80%,远超之前的估计。具体数据显示,英伟达本季度收入达到了300.4亿美元,超过了5月份预估的280亿美元。净收入更是从去年同期的61.9亿美元飙升至169.5亿美元,超越了Meta和亚马逊最近的季度利润。 然而,即便取得了如此亮眼的成绩,英伟达的股价在盘后交易中仍下跌了7%。原因在于,公司承认即将推出的一款AI芯片面临生产挑战,不过该芯片仍计划在今年内向客户提供。与此同时,英伟达宣布将额外投入500亿美元用于回购股票,并在上季度已经花费了154亿美元用于股票回购和分红。 英伟达的业绩凸显了其在AI芯片市场的主导地位,即便面对不断增长的竞争压力和高企的市场预期,依然能够稳居行业前沿。早在其他芯片巨头意识到AI的潜力之前,英伟达的首席执行官黄仁勋就已经押注于图形处理单元(GPU)会成为推动AI系统的关键。经过多年的努力,英伟达成功占据了市场主导地位。 如今,英伟达供应了全球超过90%的AI关键芯片。在微软、Meta、亚马逊和谷歌母公司Alphabet等大公司投入超过500亿美元建设AI数据中心的背景下,英伟达的销售额也水涨船高。这些数据中心支持从ChatGPT这样的聊天机器人到制药公司利用AI开发新药的各种项目。据分析师预测,未来AI数据中心和能源成本的支出预计将达到1万亿美元,而英伟达正处于这一浪潮的最前沿。 黄仁勋的远见得到了华尔街的回报。过去一年,英伟达的市值从1万亿美元猛增至3万亿美元,成为全球最有价值的三大科技公司之一。然而,关于AI扩展可持续性的疑虑,使得英伟达的股价波动性比同类公司更大。 尽管如此,英伟达依旧面临供应不足的问题。客户对其芯片的需求远超公司产能,这也引发了政府部门对其分配稀缺资源权力的担忧。美国司法部、欧盟、英国和中国均已开始调查该公司的销售行为。此外,英伟达的芯片在国家安全领域的重要性也引发了担忧。美国官员担心,这些芯片可能会帮助中国在AI开发领域取得领先地位。 两年前,美国商务部禁止向中国出口先进芯片,迫使英伟达为中国市场打造了性能较低的芯片。如今,中国科技巨头华为已经开始自制AI芯片,分析师称其性能与英伟达的产品相媲美。 与此同时,竞争者们也在迅速崛起。美国的AMD、英特尔以及硅谷初创公司Cerebras等小型企业正在推出更强大的芯片。微软和亚马逊这样的客户也在开发定制芯片,以减少对英伟达的依赖。 正如瑞银高级半导体分析师Timothy Arcuri所言,“每个季度,大家都会紧张地问,这种情况还能持续多久?”他认为,争论的焦点并非销售数字是否良好,而是明年是否会达到顶峰、市场是否会骤然冷却。不过,他相信,英伟达的“音乐”还会持续一段时间。 尽管市场前景不明,但英伟达依旧在积极推动业务扩展。公司开发了自己的云计算产品DGX Cloud,向客户提供超级计算机的使用权限,每月收费3.7万美元。英伟达在AI芯片市场的地位固若金汤,但能否继续保持其优势,还需拭目以待。
OpenAI 正在与此前的投资方 Thrive Capital 商谈一轮大规模融资
据报道,OpenAI 正在与此前的投资方 Thrive Capital 商谈一轮大规模融资,预计估值超过1000亿美元。这一估值远高于 OpenAI 之前的860亿美元,也是迄今为止任何AI初创公司中最高的估值。 据悉,Thrive Capital 预计将为此轮融资贡献约10亿美元。微软也有望参与其中,消息来源为《华尔街日报》。不过,目前尚不清楚是否有其他投资者会加入这一轮融资。OpenAI 现有的其他支持者包括 Khosla Ventures、Infosys 和 Y Combinator 等。 这笔融资预计将成为 OpenAI 自2023年1月以来最大的一笔外部资本注入,当时微软曾投资近100亿美元。 OpenAI 目前确实需要资金。据《华尔街日报》透露,OpenAI 今年初的年化收入已超过34亿美元。然而,据《信息》报道,OpenAI 预计今年年底前将亏损近50亿美元,并且已经在AI培训和员工费用上烧掉了85亿美元。
Nvidia主导AI推理竞赛,但新兴对手纷纷崭露头角
虽然Nvidia GPU在AI训练领域的主导地位依然不可撼动,但在AI推理方面,竞争对手似乎正在缩小与这家科技巨头的差距,尤其是在能效方面。然而,Nvidia的新款Blackwell芯片的强大性能可能依然难以超越。 今天,ML Commons发布了最新的AI推理竞赛结果,即ML Perf Inference v4.1。这一轮竞赛首次有使用AMD Instinct加速器、最新的Google Trillium加速器、多伦多初创公司UntetherAI的芯片以及Nvidia新款Blackwell芯片的团队参与。另有两家公司,Cerebras和FuriosaAI,宣布了新款推理芯片,但未提交MLPerf竞赛。 MLPerf竞赛类似于奥运会,有许多类别和子类别。本次提交最多的类别是“数据中心封闭”类别。封闭类别要求参赛者在给定模型上运行推理,不能对软件进行重大修改。数据中心类别则测试参赛者的大批量查询处理能力,而边缘类别则更加关注减少延迟。 在每个类别中,有9种不同的基准测试,涵盖不同类型的AI任务。这些任务包括流行的应用场景,如图像生成(如Midjourney)和大型语言模型问答(如ChatGPT),以及同样重要但不太出名的任务,如图像分类、物体检测和推荐引擎。 本轮竞赛还新增了一个名为“专家混合”的基准测试。这是大型语言模型(LLM)部署中日益流行的趋势,其中一个语言模型被分成多个较小的独立模型,每个模型针对特定任务进行微调,如普通对话、解决数学问题和编程辅助。模型可以将每个查询定向到合适的子模型或“专家”组。这种方法能够减少每个查询的资源使用,从而降低成本并提高吞吐量。 在数据中心封闭基准测试的各项任务中,Nvidia的H200 GPU和GH200超级芯片依然表现最佳,这些芯片将GPU和CPU整合在同一个封装内。然而,细看性能结果时,情况变得更加复杂。一些参赛者使用了多个加速器芯片,而另一些只使用了一个。如果我们将每个参赛者能够处理的每秒查询次数按所用加速器数量归一化,并只保留每种加速器类型中表现最好的提交,就会发现一些有趣的细节(需要注意的是,这种方法忽略了CPU和互连的作用)。 在每个加速器基础上,Nvidia的Blackwell在LLM问答任务上表现出2.5倍的性能提升,超越了此前的所有芯片版本。Untether AI的speedAI240 Preview芯片在其唯一提交的任务——图像识别——中几乎与H200持平。Google的Trillium在图像生成方面表现为H100和H200的一半多一点,而AMD的Instinct在LLM问答任务中的表现与H100大致相当。 Blackwell的强大性能 Nvidia Blackwell取得成功的原因之一是其能够以4位浮点精度运行LLM。Nvidia及其竞争对手一直致力于减少在变压器模型(如ChatGPT)的部分计算中使用的比特数,以加快计算速度。Nvidia在H100中引入了8位数学计算,而此次提交则标志着4位数学计算首次在MLPerf基准测试中得到展示。 使用如此低精度的数字的最大挑战在于保持准确性。Nvidia的产品营销总监Dave Salvator表示,为了保持MLPerf提交所需的高准确性,Nvidia团队在软件上进行了重大创新。 另一个重要的贡献是Blackwell的内存带宽几乎翻倍,从H200的4.8 TB/s提升至8 TB/s。 Nvidia提交的Blackwell芯片使用了单个芯片,但Salvator表示,Blackwell是为网络化和扩展而设计的,结合Nvidia的NVLink互连技术后将表现最佳。Blackwell GPU支持最多18个NVLink 100 GB/s连接,总带宽为1.8 TB/s,约为H100互连带宽的两倍。 Salvator认为,随着大型语言模型的规模不断扩大,即使是推理也将需要多GPU平台来满足需求,而Blackwell正是为此设计的。“Blackwell是一个平台,”Salvator表示。 Nvidia在预览子类别中提交了基于Blackwell芯片的系统,这意味着该芯片尚未上市,但预计将在下次MLPerf发布前(六个月后)上市。 Untether AI在功耗和边缘推理中的表现 在每个基准测试中,MLPerf还包括了一个能量测量部分,系统地测试每个系统在执行任务时消耗的电力。在主赛事(数据中心封闭能量类别)中,本轮只有Nvidia和Untether AI提交了结果。虽然Nvidia参与了所有基准测试,但Untether仅提交了图像识别任务。 Untether AI通过一种称为内存计算的方法实现了这一令人印象深刻的效率。UntetherAI的芯片设计为内存单元网格,并在其间分布了小型处理器。这些处理器是并行化的,每个处理器同时处理附近内存单元中的数据,从而大大减少了在内存和计算核心之间传输模型数据所消耗的时间和能量。 Untether AI的这一方法在MLPerf的另一个子类别——边缘封闭——中尤为成功。这个类别面向更为实地的应用场景,如工厂车间的机器检测、引导视觉机器人和自动驾驶汽车——这些应用中低能耗和快速处理至关重要。 在图像识别任务中,UntetherAI的speedAI240 Preview芯片在延迟性能上超越了Nvidia L40S 2.8倍,在吞吐量(每秒样本数)上超越了1.6倍。虽然UntetherAI也在这一类别中提交了功耗结果,但其Nvidia加速的竞争对手没有提交,因此难以进行直接比较。然而,UntetherAI的speedAI240 Preview芯片的标称功耗为150瓦,而Nvidia的L40S为350瓦,从而实现了标称2.3倍的功耗减少并改进了延迟。 Cerebras和Furiosa跳过MLPerf但发布了新芯片 昨天在斯坦福大学举行的IEEE Hot Chips会议上,Cerebras推出了自己的推理服务。这家位于加利福尼亚州Sunnyvale的公司制造了尽可能大的芯片,避免了芯片之间的互连,大幅提高了其设备的内存带宽,这些设备主要用于训练大规模神经网络。现在它已经升级了软件堆栈,以使用其最新的CS3计算机进行推理。 虽然Cerebras没有提交MLPerf,但该公司声称其平台在每秒生成的LLM标记数量上比H100高7倍,比竞争AI初创公司Groq的芯片高2倍。“今天,我们处于生成AI的拨号时代,”Cerebras的CEO兼联合创始人Andrew Feldman表示。“这是因为存在内存带宽瓶颈。无论是Nvidia的H100,还是MI 300或TPU,它们都使用相同的离片内存,产生了相同的限制。我们打破了这一限制,因为我们是晶圆级的。” Hot Chips会议还见证了首尔公司Furiosa发布其第二代芯片RNGD(发音为“renegade”)。Furiosa芯片的特点是其张量收缩处理器(TCP)架构。AI工作负载中的基本操作是矩阵乘法,通常在硬件中作为基本运算实现。然而,矩阵的大小和形状可以广泛变化,更一般地称为张量。RNGD将张量的乘法作为基本运算实现。Furiosa的创始人兼CEO June…
解锁浏览器中的70亿+语言模型:深入探讨Google AI Edge的MediaPipe
为了克服内存限制并使更大的大型语言模型(7B+参数)能够在浏览器中运行,Google AI Edge团队重新设计了模型加载代码,推出了跨平台推理框架。 大型语言模型(LLMs)为人类与计算机和设备的互动带来了新的可能性。尽管这些模型通常运行在专用服务器上,通过网络连接传输请求和响应,但在设备上完全运行模型是一种有吸引力的替代方案。这种方式不仅可以消除服务器成本,还能提供更高的用户隐私保护,并支持离线使用。然而,由于LLMs通常包含数十亿参数、文件大小以GB计,因此在设备上运行这些模型对机器学习基础设施是一个巨大的考验,容易导致内存和计算资源超载。 今年早些时候,Google AI Edge的MediaPipe框架推出了一款实验性的跨平台LLM推理API,该API可以利用设备GPU在Android、iOS和Web上高效运行小型LLMs,最大限度提升性能。最初,这一系统支持在设备上完全运行四款公开可用的LLMs:Gemma、Phi 2、Falcon和Stable LM。这些模型的参数规模从1亿到30亿不等。 当时,30亿参数是该系统能够在浏览器中运行的最大模型。为了实现广泛的跨平台覆盖,Google的系统首先针对移动设备进行优化,随后升级以支持浏览器运行。这次升级虽然保留了速度优势,但由于浏览器的内存限制,使用和内存管理的复杂性也随之增加。加载更大的模型会突破这些内存限制。此外,由于系统需要支持多种模型并使用单文件的.tflite格式,Google的缓解措施也受到了一定限制。 如今,Google很高兴分享这一Web API的最新更新,包括重新设计的Web模型加载系统。这一更新使Google能够运行更大的模型,例如拥有70亿参数的Gemma 1.1 7B模型。这个8.6GB的文件比Google之前在浏览器中运行的任何模型都大数倍,且其响应质量的提升同样显著——欢迎在MediaPipe Studio中亲自体验! 在Web上运行LLMs MediaPipe框架本质上是跨平台的,因此大部分代码都是用C++编写的,可以为多个目标平台和架构进行编译。为了在浏览器中运行代码,Google将整个代码库(包括非Web特定部分及其依赖项)编译为WebAssembly,这是一种可以高效运行于所有主流浏览器中的特殊汇编代码。这种方式为Google带来了出色的性能和可扩展性,但也增加了一些额外的限制,因为浏览器在一个沙盒虚拟机中运行WebAssembly,就像模拟一个独立的物理计算机一样。 值得注意的是,虽然WebAssembly影响了C++代码和CPU内存限制,但它并不限制GPU功能。这是因为Google使用了专为浏览器原生设计的WebGPU API,能够比以往更直接地访问GPU及其计算能力。为实现最佳性能,Google的机器学习推理引擎会将模型权重上传并完全在GPU上运行模型操作。 克服内存限制 与此相对,在从硬盘或网络加载LLM时,原始数据必须通过多个层级才能到达GPU: Google使用基于浏览器的文件读取API将原始数据引入JavaScript,再传递到C++ WebAssembly内存,最后上传到WebGPU,在那里进行所有操作。每个层级都有内存限制,因此Google设计了相应的系统架构来适应这些限制。 WebGPU设备内存 WebGPU设备的限制是硬件特定的,但幸运的是,大多数现代笔记本和台式机的GPU内存都足够Google使用。因此,Google专注于消除其他三项CPU内存限制,使GPU成为唯一的真正限制。 文件读取内存 Google早期的MediaPipe Web API在加载数据时大量使用JavaScript原语,如ArrayBuffer,但这些对象无法支持超过约2GB的大小。为了解决这个问题,Google设计了自定义的数据复制程序,依赖于更灵活的对象,如ReadableStreamDefaultReader。现在,Google在此基础上进一步开发,将巨大的文件分解为较小的块,并在需要时按需流式传输这些块。 WebAssembly内存 WebAssembly当前使用32位整数(范围为0到2^32-1)来索引其内存空间的地址,超过4.3GB的内存时,索引方案将溢出。为了应对这个挑战,Google利用了LLM的结构特性。LLM由许多部分组成,其中大部分二进制大小集中在变压器堆栈中。这个堆栈由一系列类似形状的模型层组成,依次运行。 Gemma 1.1 7B模型有28层,这意味着如果Google能够将这些层逐一加载到WebAssembly内存中,内存使用可以提高28倍。因此,Google将同步加载管道更改为异步加载管道,由C++代码向JavaScript发出请求,并按需等待每个权重缓冲区。 实际结果甚至超出了预期:由于这些层本身包含许多较小的权重缓冲区,按需加载这些权重缓冲区使Google的WebAssembly内存峰值使用量降至不到1%的水平。 JavaScript内存 然而,这些升级也带来了一些弊端:Google现在在整个加载过程中进行一次性扩展扫描,无法按需跳转到文件的特定位置。这意味着加载顺序变得重要。解决方案是将模型权重按加载代码请求的顺序存储。然而,这种保证完全顺序的方式需要在模型格式中做出约定,或者让加载代码动态调整顺序。由于这些是更长期的解决方案,目前Google采用了备用方案,即创建一个临时本地缓存,在扫描数据时将未使用的数据保留,丢弃其余部分。 未来展望 在降低CPU内存使用方面,Google还可以通过减少模型大小来进一步优化,例如通过应用更激进的量化策略。Google希望很快能为Gemma 1.1 7B模型发布一个int4版本,在保持质量的同时,将模型大小减半。 此外,Google还在不断优化性能,添加令人期待的新功能,例如动态LoRA支持、即时微调和多模态支持。敬请期待更多更新,包括Gemma 2的发布!
ChatGPT和GPT-4可能会在今年秋季迎来“草莓”版甜美升级
虽然OpenAI在AI竞赛中长期处于领先地位,但竞争对手已经赶上,甚至在某些情况下超越了GPT-4,这让大家的目光都聚焦在该公司下一代大型语言模型(LLM)上。据报道,GPT-4的继任者正借助一种新AI进行强化,而这款新AI可能会在今年晚些时候作为ChatGPT的一部分推出。 据《The Information》报道,OpenAI计划在今年秋季发布一款代号为“Strawberry”的新AI,作为聊天机器人的一部分。报道推测,Strawberry有可能会成为ChatGPT的一部分。 Strawberry的特别之处是什么? 关注OpenAI新闻的人可能对Strawberry并不陌生。此前,这款AI被称为Q*(发音为Q Star),由OpenAI前首席科学家Ilya Sutskever启动,后来由Jakub Pachocki和Szymon Sidor两位研究人员在Sutskever离职后继续改进。这款AI曾在2023年引发技术突破,同时也因安全问题引发公司内部动荡。 Strawberry的突出特点是其先进的数学推理能力,能够解决从未见过的数学问题,这是当前的聊天机器人普遍难以做到的。它还具备高级编程和其他技能,能够回答诸如市场营销策略等主观性较强的问题。 用于聊天机器人的Strawberry版本是这一AI的简化版,OpenAI的目标是让这个版本在性能上不逊色于更大规模的模型,同时更加经济且易于操作。然而,报道指出,目前尚不清楚这一简化版的Strawberry是否会在今年为ChatGPT或GPT-4带来性能提升。 大版本Strawberry的作用 OpenAI发现,Strawberry的大版本可以用来生成高质量的训练数据,供其LLM使用。这种由AI生成的训练数据被称为“合成”数据。通过这种合成数据,公司对网络文本和图像等传统数据的依赖减少了。此外,这种高质量数据还能帮助减少AI常见的“幻觉”错误。 Strawberry有望帮助OpenAI解决为其LLM获取足够现实世界数据的问题。报道称,该公司正利用Strawberry的大版本来训练GPT-4的继任者,代号为“Orion”。此外,Strawberry还可能用于提升OpenAI的智能代理技术。 OpenAI对Strawberry的信心十足,甚至向美国国家安全官员展示了该技术。报道指出,此次展示可能与OpenAI希望向政策制定者更透明的举措有关,这些政策制定者对AI的威力感到担忧。对于OpenAI来说,展示这项技术显得尤为重要,尤其是在公司最近有多位安全负责人离职的情况下。 目前尚不清楚简化版Strawberry具体会在今年秋季何时推出,大家只能拭目以待,看看这一增强功能是否能让OpenAI在与竞争对手的较量中再度领先。
埃隆·马斯克宣布:蜂窝Starlink将为所有手机提供免费紧急服务
埃隆·马斯克表示,SpaceX的Starlink手机系统在连接紧急服务时将对用户完全免费。 “不能让人因为忘了付费或无法支付而失去生命,”SpaceX的CEO在周二的一条推文中说道。 这一声明正值SpaceX呼吁联邦通信委员会(FCC)批准其“直连手机”的Starlink技术商用,但面临竞争对手AT&T和Verizon的反对。 上周五,SpaceX向FCC提交文件称,Starlink技术将惠及所有消费者,因为它能在蜂窝信号覆盖不到的区域向所有无线用户发送紧急警报——即便这些用户并未订阅服务。这是因为该技术利用绕地卫星向地面用户提供蜂窝和互联网连接。 周二,马斯克在Twitter上发文称:“如果有人困在荒野中,这技术可以帮助很多人。”他接着补充:“经过深思熟虑,SpaceX Starlink将为处于困境中的手机用户提供免费紧急服务接入。这适用于全球,但需要各国政府的批准。” 目前,马斯克并未透露更多细节,但这一服务有望类似于苹果iPhone的紧急SOS功能,该功能在iPhone 14及更高版本中也是免费的,已经在偏远地区挽救了许多人的生命。 SpaceX正努力争取FCC批准,以便能与T-Mobile合作在今年秋天推出蜂窝Starlink系统。因此,马斯克的推文很可能是为了向美国监管机构施压。同一推文中,FCC共和党专员布伦丹·卡尔(Brendan Carr)也发声支持:“直连手机技术将极大提升公共安全通信和应急响应。” 尽管如此,SpaceX还请求FCC豁免其蜂窝Starlink卫星的正常无线电频率参数,以确保覆盖广度和速度。然而,AT&T和Verizon则要求FCC驳回这一请求,担心Starlink卫星会产生过多无线电干扰。 AT&T向FCC提交的技术分析显示,SpaceX的提议可能会导致AT&T PCS C Block市场部署中网络下行吞吐量平均下降18%。对此,SpaceX回函反驳,称AT&T和Verizon试图阻止消费者接入Starlink技术。 蜂窝Starlink系统也势必会与AT&T和Verizon正在开发的手机卫星互联网系统竞争,这一系统由初创公司AST SpaceMobile提供
谷歌又出三款Gemini模型
在AI时代的组织准备:从技术到变革 谷歌AI Studio产品负责人Logan Kilpatrick自信满满地在X平台上发文称:“Gemini 1.5 Flash是目前全球开发者的最佳选择。” “前所未有”的Gemini模型最新实验版 今年5月,谷歌推出了Gemini 1.5 Flash,这是一款轻量版的Gemini 1.5。Gemini 1.5系列模型专为处理超长文本设计,能够分析超过1000万标记的复杂信息。这使得这些模型能够处理包括文档、视频和音频在内的大量多模态输入。 今天,谷歌推出了一款改进版的Gemini 1.5 Flash模型,其参数达80亿。此外,全新的Gemini 1.5 Pro在编码和处理复杂指令方面表现出显著提升,成为8月初发布的前一版本的“即插即用”替代品。 Kilpatrick没有透露更多细节,只是表示谷歌将在未来几周内发布一个可用于生产环境的版本,并“希望附带评估功能”。 他在X平台的帖子中解释称,这些实验模型是为了收集反馈,让开发者尽早接触到最新更新。“通过实验性发布获得的经验教训将指导我们如何更广泛地发布模型,”他写道。 这次发布的Gemini 1.5 Flash和Pro的“最新实验版”均支持100万个标记限制,并可以通过Google AI Studio和Gemini API免费测试。根据Kilpatrick的说法,这些模型很快也会通过Vertex AI实验端点提供免费使用,并且公司将在未来几周内推出一个用于生产环境的版本。 自9月3日起,谷歌将自动将请求重新路由到新模型,并从Google AI Studio和API中移除旧版模型,以“避免因同时保留多个版本而造成混淆”。 “我们迫不及待地想听听大家的反馈,看看这个模型如何能解锁更多新的多模态应用场景,”Kilpatrick在X上发文称。 “巨大进步”,但依旧存在“懒惰编码病” 发布仅几小时后,大型模型系统组织(LMSO)就在其聊天机器人竞技场中发布了基于2万社区投票的排行榜更新。Gemini 1.5 Flash取得了“巨大飞跃”,从第23位跃升至第6位,达到了Llama的水平,并超越了谷歌的Gemma开放模型。 Gemini 1.5 Pro在编码和数学方面也表现出“强劲提升”,并且“显著改进”。 LMSO对这些模型表示赞赏:“恭喜谷歌DeepMind Gemini团队取得了令人难以置信的发布成果!” 然而,正如通常在迭代模型发布中所见,早期反馈呈现出多样化——从过度吹捧到讽刺和困惑。 一些X用户质疑为何如此频繁地更新而不是直接推出2.0版本。有人发帖表示:“伙计,这已经不够用了 😐 我们需要真正的升级,Gemini 2.0。” 另一方面,许多自称粉丝的用户对这些快速升级表示赞赏,报告称图像分析的“改进非常明显”。“速度简直太快了,”一位用户写道,另一位则指出,谷歌持续推出新产品,而OpenAI几乎保持沉默。还有人甚至表示,“谷歌团队正在默默地、勤奋地、不断地交付成果。” 但也有批评者称其“糟糕”和“懒惰”,特别是在处理需要较长输出的任务时,认为谷歌在这方面“远远落后”于Claude、OpenAI和Anthropic。 一位X用户遗憾地表示,这次更新“可悲地患上了懒惰编码病”,类似于GPT-4 Turbo的表现。 另一位用户则称更新版本“并没有那么好”,并表示模型“经常会崩溃,开始重复内容,就像小模型常见的问题那样。” 还有人表示,尽管对测试感到兴奋,但Gemini在编码方面“是最糟糕的。” 还有人调侃谷歌的命名能力,回忆起其今年早些时候的巨大觉醒失误。 “你们已经完全失去了命名事物的能力,”一位用户开玩笑道,另一位则附和说:“你们真的需要找人帮忙起名字。” 还有人冷嘲热讽地问道:“Gemini 1.5还是讨厌白人吗?”
Meta AI动画生成功能的规模化部署与优化策略
Meta推出Meta AI的目标是为人们提供利用生成式AI(GenAI)提升生产力和激发创造力的新方式。然而,GenAI也伴随着规模化的挑战。当Meta在部署新的GenAI技术时,Meta也专注于尽可能快速且高效地向人们提供这些服务。 Meta AI的动画生成功能允许用户生成短动画,并且在这一方面Meta面临着独特的挑战。为了在大规模应用中实现此功能,Meta的图像动画生成模型必须能够服务于使用Meta产品和服务的数十亿用户,并且做到快速生成、极少出错且资源高效。 以下是Meta如何通过延迟优化、流量管理和其他新颖技术成功部署Meta AI动画生成功能的过程。 优化生成图像动画的延迟 在将动画生成功能推向Meta应用家族和Meta AI网站之前,使动画模型的运行速度变得更快是Meta的首要任务之一。Meta希望用户能够体验到仅需几秒钟就能看到动画生成的魔力。这不仅从用户角度重要,而且模型越快、效率越高,Meta就能使用更少的GPU,从而实现可持续的规模化发展。Meta在创建带有视频扩散的动画贴纸、加速图像生成的Imagine Flash、以及通过块缓存加速扩散模型方面的工作帮助Meta开发出实现大幅度延迟优化的新技术。 减半浮点精度 这些优化技术之一是将浮点精度减半。Meta将模型从float32转换为float16,这加快了推理时间,主要有两个原因。首先,模型的内存占用减少了一半。其次,16位浮点运算比32位运算速度更快。对于所有模型,Meta使用bfloat16,一种用于训练和推理的float16变体,以获取这些优势。 改进时序注意力扩展 第二项优化是改进了时序注意力扩展。时序注意力层在时间轴和文本条件之间进行注意力计算,需要将上下文张量复制以匹配时间维度或帧数。以前,这是在传递到交叉注意力层之前完成的。然而,这导致了性能提升不理想。Meta选择的优化实现通过利用重复张量是相同的这一事实,在通过交叉注意力线性投影层之后进行扩展,从而减少计算和内存消耗。 利用DPM-Solver减少采样步骤 第三项优化使用了DPM-Solver。扩散概率模型(DPMs)是一种功能强大且有影响力的模型,能够生成高质量的结果,但其速度较慢。其他可能的解决方案,如去噪扩散隐式模型或去噪扩散概率模型,虽然可以提供高质量的生成,但需要更多的采样步骤。Meta利用了DPM-Solver和线性对数信噪比时间,将采样步骤减少到15步。 结合引导和步骤蒸馏 Meta实施的第四项优化是结合引导和步骤蒸馏。通过初始化教师和学生权重相同的模型,Meta进行了步骤蒸馏,训练学生模型在单步内模仿教师模型的多个步骤。引导蒸馏方面,Meta通过无分类器引导的方式实现了条件图像生成。这要求每个求解步骤都进行有条件和无条件的前向传递。然而,在Meta的场景中,每步有三个前向传递:无条件、图像条件和完整的文本与图像条件。通过引导蒸馏,Meta将这三个前向传递合并为一个,使推理时间缩短了三倍。最后,通过训练学生模型同时模仿无分类器引导和多步骤操作,Meta的最终模型只需八步求解,每步只需要一次通过U-Net。 PyTorch优化 最后一项优化涉及部署和架构,包含两项转化。首先是利用TorchScript进行脚本化和冻结。通过将模型转换为TorchScript,Meta获得了许多自动优化,包括连续折叠、多个操作的融合以及减少计算图的复杂性。这三项优化帮助Meta提高了推理速度,而冻结技术通过将图中的动态计算值转化为常量,进一步减少了总操作数。 虽然这些优化对于Meta的初次发布至关重要,但Meta还在持续突破界限。例如,Meta将所有媒体推理从TorchScript迁移到基于PyTorch 2.0的解决方案,这为Meta带来了多项提升。通过在组件级别利用pytorch.compile进行优化,以及在新架构中启用上下文并行和序列并行等高级优化技术,Meta实现了从减少高级功能的开发时间到改进跟踪、支持多GPU推理的全面胜利。 在大规模部署图像动画 在完全优化模型后,Meta面临的新挑战是如何在全球范围内运行此模型,支持来自世界各地的流量,同时保持快速的生成时间,尽量减少故障,并确保GPU可以用于公司内的其他重要用例。 Meta首先查看了以前AI生成媒体的流量数据,包括其发布时和随时间推移的流量情况。Meta使用这些信息来估算可以预期的请求数量,并利用模型速度的基准测试来确定需要多少GPU来容纳这些请求。在扩大规模后,Meta开始进行负载测试,以查看是否可以处理各种流量水平,解决各种瓶颈,直到Meta能够处理发布时预计的流量为止。 在测试过程中,Meta注意到动画请求的端到端延迟比预期高,并且高于Meta在构建上述所有优化后看到的情况。调查显示,流量在全球范围内被路由,导致显著的网络和通信开销,增加了生成时间。为了解决这个问题,Meta利用了流量管理系统,该系统获取服务的流量或负载数据并使用这些数据计算路由表。