北美数据中心扩展激增:2024年上半年新增容量超硅谷总量 根据房地产服务公司CBRE的最新数据中心趋势报告,北美的主要市场在2024年上半年增加了相当于整个硅谷数据容量的规模。在这六个月内,北美八大主要市场新增了515兆瓦(MW)的数据中心容量,超出了硅谷459 MW的总容量。 2024年年中,美国的数据中心总容量接近5,700 MW,比六个月前增加了10%。与去年同期相比,主要市场的供应量增加了约1,100 MW,增长率达24%。 尽管面临电力和设备短缺的挑战,企业仍在积极扩展数据中心容量,甚至为三到四年后才会使用的设施签订长期租约。CBRE的全球数据中心解决方案负责人Pat Lynch指出,这表明企业对数据中心容量的需求只会持续增加。 数据显示,2024年4月,美国在计算机、电子和电气制造领域的建筑投资几乎达到了1,320亿美元,远超2022年4月的260亿美元。此外,主要市场和次级市场的数据中心空置率分别下降至2.8%和9.7%。 报告强调,电网接入仍然是选址的首要考虑因素,而生成式AI等耗电技术的需求激增,进一步加剧了市场的可持续性问题。未来,碳排放目标或将促使运营商更加注重冷却系统优化、废热回收和可再生能源的利用。
前OpenAI首席科学家创立SSI,融资10亿美元推动安全超人工智能发展
由OpenAI前首席科学家Ilya Sutskever共同创立的Safe Superintelligence(SSI)刚刚筹集了10亿美元现金,旨在开发超越人类能力的安全人工智能系统。SSI目前拥有10名员工,计划利用这笔资金获取计算资源并招聘顶尖人才,目标是打造一个高度可信的研究和工程团队,分布在美国加州Palo Alto和以色列的特拉维夫。 尽管公司没有透露具体估值,但消息人士称其估值已达到50亿美元。此次融资显示,尽管市场对这类长期不盈利的AI研究公司的兴趣有所下降,但顶尖人才依然吸引着风险资本的巨额投资。Andreessen Horowitz、Sequoia Capital、DST Global等顶级风投公司均参与了此次投资。 Sutskever表示,创立SSI是因为他“发现了一座不同的山峰”,并计划在未来几年专注于研发,确保AI安全并超越人类智能。
Magic推出100M个token的上下文
目前,AI模型有两种学习方式:一种是通过训练,另一种是在推理过程中通过上下文学习。迄今为止,训练一直占据主导地位,因为模型处理的上下文通常比较短。然而,超长上下文可能会改变这一局面。 与依赖模糊记忆不同,Magic的长期记忆(LTM)模型在推理时可处理多达1亿个token的上下文,基于这些上下文进行推理。这种模型的商业应用十分广泛,但Magic专注于软件开发领域。 可以想象,如果模型在推理时能参考所有的代码、文档和库,甚至包括那些不在公共互联网上的资源,代码生成的效果将会显著提升。 评估上下文窗口 目前,关于长上下文的评估并不理想。广为人知的“干草堆中的针”评估方法,随机将一个事实(“针”)放在长上下文窗口(“干草堆”)的中间,要求模型提取该事实。 然而,如果一本关于鲸鱼的小说中出现“Arun和Max在Blue Bottle喝咖啡”这样的描述,它会显得格外突兀。模型能够识别出这种“不寻常”的信息,从而忽略干草堆中其他相关内容,减少存储负担。此外,模型只需关注上下文中一个小的、语义上显著的部分,这让像RAG这样的方法看起来很成功。 Mamba的第4.1.2节和H3的附录E.1中的归纳头基准使这一任务更加简单,它们使用特殊的token标记“针”的开始位置,大大降低了评估的存储和检索难度。这就像考前已经知道考试的题目一样。 这些细微的缺陷削弱了当前长上下文评估方法的有效性,使得传统的循环神经网络(RNN)和状态空间模型(SSM)即便受到O(1)大小的状态向量限制,依然能取得好成绩。 为了消除这些隐含和显式的语义提示,Magic设计了HashHop评估方法。 Hash是随机生成的,无法压缩,这意味着模型必须在任何上下文大小下存储并检索最大量的信息内容。 具体来说,Magic给训练有Hash的模型提示Hash对: 接着,模型需要完成一个随机选定的Hash对: 这评估了单步归纳头的出现情况,但实际应用通常需要多跳。因此,Magic要求模型完成一串Hash链条: 为了确保顺序和位置的不可变性,Magic将Hash对打乱后提示模型: 然后,要求模型完成: 通过逐步写出所有中间的Hash值,这类似于“思维链”的推理方式,允许模型将推理过程延展至更长的时间。 Magic还提出了一个更具挑战性的变体,模型需要跳过步骤,直接完成: 这要求模型架构能够一次性跨越整个上下文的多个点进行推理。 在对代码和语言模型进行评估时,Magic发现在Hash上训练小模型,并在这些简单任务上测量性能,是其架构研究的一个有效工具。 Magic的超长上下文进展 Magic最近训练了首个能处理1亿token上下文的模型:LTM-2-mini。1亿token相当于约1000万行代码或约750本小说。 每解码一个token,LTM-2-mini的序列维度算法在1亿token上下文窗口下比Llama 3.1 405B1的注意力机制便宜大约1000倍。 两者在内存需求上的差距更大——运行1亿token上下文的Llama 3.1 405B需要每个用户638个H100显卡来存储KV缓存,而LTM只需一块H100的很小一部分内存即可处理同样的上下文。 通过“思维链”训练的LTM架构在以下测试中取得了优异的表现,尽管在没有“思维链”的情况下,进行三次跳跃的表现有所下降,但两次跳跃时依然表现强劲,表明该模型能够构建比单一归纳头更复杂的逻辑回路。 此外,Magic还训练了一个原型模型,通过超长上下文机制进行文本到差异数据的训练。虽然该模型在代码生成方面还不如当今的前沿模型,但偶尔能产生合理的输出。 与Google Cloud合作打造NVIDIA超级计算机 Magic与Google Cloud和NVIDIA合作,正在构建两台新超级计算机:Magic-G4和Magic-G5,后者将搭载NVIDIA GB200 NVL72系统,可扩展至成千上万块Blackwell GPU。 Magic的联合创始人兼CEO Eric Steinberger表示,这一合作将大幅提升模型的推理和训练效率,帮助Magic快速扩展AI基础设施。Google Cloud和NVIDIA的强大硬件与软件生态,将助力Magic推动AI的下一次突破。
OpenAI日本CEO长崎忠男公开谈论GPT-Next,这是一款比GPT-4强大100倍的AI模型
在2024年的KDDI峰会上,OpenAI日本的CEO长崎忠男透露了一些令人震惊的消息。他表示,未来发布的GPT-Next将比GPT-4强大100倍。据悉,这款模型将使用OpenAI神秘项目“草莓计划”的精简版。提升性能的关键并非依赖大量的计算资源,而是全新的架构设计。 据ITMediaAI+报道,长崎在峰会上重申了OpenAI对通信和AI领域的承诺。他详细介绍了这家AI巨头的业务,并分享了对未来AI模型的看法。据他透露,该模型名为GPT-Next。 此外,长崎还提到,截至今年8月底,ChatGPT的活跃用户数已经突破2亿。他强调,这是史上最快达到1亿到2亿活跃用户的软件,并指出ChatGPT为用户提供了前所未有的“易用”体验。同时,ChatGPT Enterprise在企业中的采用率也在持续上升。 长崎还谈到,OpenAI全球员工约有2000人,其中一半从事AI开发工作。除日本外,OpenAI在美国和英国也设有基地。当被问及为何选择日本作为亚洲的首个基地时,长崎解释称,日本在追求创新和新技术方面一直走在前列。 在演讲中,他对GPT系列的未来发展进行了展望,并将其与GPT-3和GPT-4进行了对比。他表示,AI技术的发展是指数级的,远超传统软件,因此OpenAI希望尽快推动一个充满AI的世界的到来。 在谈到个人经历时,长崎透露,他曾在2011年至2024年间担任亚马逊网络服务日本分公司的CEO,并于今年4月成为OpenAI日本的CEO。按照目前的进展,GPT-Next或将成为AI领域的下一个重大突破。
突破GPU利用率迷思:优化大型语言模型训练的真正关键
近年来,大型语言模型(LLMs)迅速崛起,推动了机器学习任务中对GPU高效利用的需求。然而,研究人员在准确评估GPU性能时面临着一个关键问题:常用的GPU利用率(通过nvidia-smi或集成监控工具访问)并不能可靠地反映实际计算效率。令人惊讶的是,仅仅通过读写内存就能达到100%的GPU利用率,而无需进行任何实际计算。这一发现促使学术界重新审视性能评估指标和方法,呼吁研究人员寻找更准确的GPU性能衡量方式,以优化LLM训练和推理任务的GPU使用。 为了克服GPU利用率的局限性,研究人员提出了替代指标。其中一个广为人知的方法是谷歌在PaLM论文中介绍的模型FLOPS利用率(MFU)。MFU衡量系统在理论最大FLOPS下的实际吞吐量比例,更准确地反映了GPU的计算效率。然而,MFU的计算复杂性较高,且依赖于具体的参数和框架。尽管如此,MFU揭示了GPU利用率和计算效率之间的巨大差异。比如,有些LLM训练虽然显示出100%的GPU利用率,但MFU仅为20%,远低于大多数LLM训练中常见的35-45%的范围,突显了对GPU性能指标更深层次理解的必要性。 研究人员通过应用如数据加载器参数调整、混合精度训练和融合优化器等常用的PyTorch性能优化技术,成功实现了100%的GPU利用率和显著的功耗增长。然而,为了更全面地了解计算效率,他们计算了训练任务的MFU,认识到仅依赖GPU利用率作为性能指标的局限性。 GPU架构的复杂性是理解GPU利用率作为性能指标局限性的关键。GPU由多个核心和多处理管理器组成,如NVIDIA的SM或AMD的CU。尽管NVIDIA的GPU利用率定义模糊,但它更多反映的是GPU的活动性,而非计算效率。因此,研究人员转向使用PyTorch Profiler对模型训练循环进行剖析,发现Softmax内核虽然显示高GPU利用率,但SM效率却很低,说明存在潜在的执行效率问题。 通过融合内核技术,研究人员成功提升了LLM训练的SM效率。最终,LLM训练效率大幅提升,MFU从20%增长至38%,训练时间缩短了四倍。研究人员建议,在GPU集群中同时追踪SM效率和GPU利用率,以准确评估性能,优化LLM训练的效率。 https://trainy.ai/blog/gpu-utilization-misleading
Nvidia遭遇反垄断调查:AI芯片巨头面临司法部传票
美国司法部(DOJ)向Nvidia公司及其他公司发出了传票,旨在寻找证据,调查该芯片制造商是否违反了反垄断法。这标志着对Nvidia——这一人工智能处理器领域的主导者——的调查进一步升级。 此前,司法部曾向多家公司发送问卷调查,而此次的传票则是具有法律约束力的请求,要求接收方提供相关信息。这表明政府距离提出正式诉讼更近了一步。 司法部的反垄断官员担心,Nvidia可能在通过限制客户更换供应商,并对不完全依赖其AI芯片的买家施加惩罚。Nvidia对此回应称,公司的市场主导地位源于产品质量,且其芯片的性能表现优于竞争对手。 该调查还涉及Nvidia在4月份宣布收购RunAI的交易,RunAI是一家提供AI计算管理软件的公司。监管机构担心此项交易可能会使客户更难摆脱对Nvidia芯片的依赖。此外,司法部还在调查Nvidia是否为独家使用其技术或购买其完整系统的客户提供了优惠供应和价格。 Nvidia自1993年成立以来,最初因销售图形卡而闻名于电脑游戏玩家。但随着其芯片制造方法在构建AI模型方面表现突出,Nvidia迅速扩大了其产品线,包括软件、服务器、网络和服务,旨在加速AI的部署。这也使其成为微软和Meta等巨头的关键供应商。 随着AI技术对经济和国家安全的重要性日益增加,Nvidia的市场行为正受到全球政府的广泛关注。
Canva用户因AI功能扩展导致的300%
Canva的用户们要做好准备了。这家广受欢迎的设计软件公司将大幅提高其Canva Teams订阅价格,涨幅高达300%以上,原因是其引入了新的生成式AI功能,这些功能据称足以证明如此大幅度的价格上涨是合理的。 现有用户对此次突然的涨价感到措手不及,特别是个人账户将在明年转向更高价位的订阅模式。在美国,一些用户报告称,最多五人的年度订阅费用从原来的120美元飙升至500美元。虽然公司提供了为期12个月的40%折扣,使价格暂时降至300美元,但之后将恢复到500美元的标准价格。 而在澳大利亚,情况更加戏剧化——原来五人的每月费用为39.99澳元,如今每位用户每月要支付40.50澳元。这意味着一个五人团队的年度费用从480澳元跃升至惊人的2,430澳元。 此前,一些团队享有锁定价格,但现在这些优惠不再适用于新用户。实际上,早在今年四月,Canva悄然更改了价格结构,设定了最低三位用户,每人每月10美元的标准。如今,老用户也被逐步推向这一更昂贵的定价模式,理由是要与“扩展后的产品体验”保持一致。 Canva的通讯主管Louisa Green解释了此次大幅涨价,称这是因为公司近年来的快速发展。新功能包括Visual Suite和Magic Studio,旨在将Canva从一个简单的设计工具变成一个全面的工作平台。 此次涨价主要是由于Canva推出了一系列AI功能,比如Magic Media的文本转图像生成器和Magic Expand背景扩展工具。这些更新是Canva更广泛的产品重塑计划的一部分,目的是将其从一个针对设计师的工具发展为更全面的商业工具。尽管公司此前曾暗示过价格调整,但此次突然的大幅上涨主要是通过客户邮件告知的。值得注意的是,其他订阅级别如Pro和Enterprise尚未受到影响。 这一举动标志着Canva的重大转型,毕竟它曾凭借比Adobe更加实惠的价格吸引了大量用户。毫不意外,许多用户已经在社交媒体上表达了不满,威胁要取消订阅并重返Adobe的怀抱。 此次涨价也紧随Canva收购Affinity创意软件套件之后,并且距离其计划于2026年在美国上市的目标越来越近。目前尚不清楚这些价格调整是否会扩展到中东地区,那里的用户可能正在密切关注,看看他们的订阅是否会受到影响,还是会保持不变。
OpenAI正在努力解决其面临的版权问题
OpenAI的GPT模型在技术上取得了巨大进步,这可能源于对整个网络文本的“吸收”。包括一些大型出版商如Axel Springer、Condé Nast和美联社的整个档案库,而这一切都未经他们的许可。令人惊讶的是,尽管如此,OpenAI还是与许多这些集团达成了合作协议。 乍一看,这种情况有点让人摸不着头脑。为什么OpenAI要为已经拥有的内容付费?而那些愤怒得想打官司的出版商们又为何同意与其合作? 如果仔细观察这些协议,或许能看到未来网络格局的一种可能。谷歌的流量导向作用在逐渐减弱,这对整个网络的生存构成了威胁。而这种搜索领域的权力真空,可能正是OpenAI试图填补的。 交易的内幕 根据Axel Springer协议的新闻稿,这些交易允许OpenAI访问出版物的内容,以“通过在ChatGPT中加入最新的权威内容来丰富用户体验”。这里的“最新内容”至关重要。通过爬取网络,ChatGPT的信息获取会受到时间限制,无法实时更新。而越接近实时访问,OpenAI的产品就越接近实时结果。 不过,这些交易所涉及的金额相对较小,据报道,OpenAI向出版商提供的年付款仅为100万到500万美元。结合公开的数据计算,每家出版物的交易上限约为1000万美元。相较于OpenAI对这些出版物数据的全面抓取,这笔钱确实不多。但为何OpenAI仍愿意支付这些费用呢? 一个可能的原因是,这些费用可以被视为防止出版商起诉OpenAI的一种手段。已经有一家大型出版物提起了诉讼,未来的法律纠纷可能会使OpenAI付出更大的代价。 《纽约时报》的诉讼和法律风险 《纽约时报》已对OpenAI提起了诉讼,指控其在未经许可的情况下使用了时报的作品来训练其语言模型,这构成了版权侵权。而更严重的是,OpenAI通过这种方式创造的产品现在与《纽约时报》直接竞争,意图“窃取”其读者群。 如果《纽约时报》赢得诉讼,OpenAI可能面临高达75亿美元的法定赔偿金。这就是为什么《纽约时报》没有接受OpenAI提出的微不足道的合作金额。 因此,OpenAI与出版商达成的协议,从某种意义上说,实际上是在确保这些出版商不会像《纽约时报》那样起诉OpenAI。同时,这些交易也帮助OpenAI维持其“合理使用”辩护,因为它必须在包括与《纽约时报》诉讼在内的多个案件中使用这一辩护。 谷歌与搜索市场的争夺 这些交易不仅仅是为了避免诉讼和管理声誉。更重要的是,这些交易还使OpenAI获得了实时信息。OpenAI最近宣布了自己的搜索引擎SearchGPT,尽管目前还处于原型阶段,但这个AI原生搜索引擎的目标是通过过滤掉AI生成的SEO内容,为用户提供更高质量的信息。 谷歌搜索在过去几年中逐渐变得不那么实用了,而Google的AI聊天机器人也未能显著改善这种情况。如果OpenAI能够推出一个能够颠覆现有搜索市场的产品,现在正是时机。 这些交易还为出版商提供了更多谈判筹码,可能最终迫使谷歌与出版商坐下来谈判。谷歌已经与Reddit达成了协议,支付6000万美元获取Reddit数据,这为出版商们争取更多利益打开了大门。 然而,如果法院最终裁定《纽约时报》胜诉,这可能会使所有大型语言模型的创建者都面临巨额赔偿,只有那些财力雄厚的公司才能在这一领域继续竞争。这将使谷歌、微软、亚马逊和Meta等巨头在生态系统中的地位更加稳固。 总的来说,尽管OpenAI目前面临法律风险,但它仍有时间在市场上发展壮大,并可能通过这些与出版商的交易,最终在搜索市场上获得一席之地。而对于出版商来说,趁着还能从中获利,现在达成交易可能是明智之举。
Nvidia扩展AI帝国:从芯片到数据中心设计的全面布局
Nvidia正处于人工智能(AI)芯片市场的中心地位,但首席执行官黄仁勋的目标远不止于此。他正通过提供软件、数据中心设计服务和网络技术等多方面的产品,扩大公司业务,并希望在竞争中进一步拉大优势,成为AI领域的全面供应商。 黄仁勋的战略旨在将Nvidia打造成不仅仅是一个硬件组件供应商,而是一个涵盖所有关键要素的一站式服务提供商,尤其是在像OpenAI的ChatGPT等工具开发和部署的AI数据中心,或他所谓的“AI工厂”中。 在本周三发布的财报中,Nvidia的表现超出了华尔街的预期。黄仁勋在随后的电话会议中强调了公司在数据中心设计方面日益增强的能力。这一财报发布前不久,竞争对手AMD宣布将以近50亿美元收购数据中心设计和制造公司ZT Systems,以图在数据中心领域缩小与Nvidia的差距。 黄仁勋指出,Nvidia有独特的能力来整合和设计AI工厂,因为公司掌握了所有关键部件。他表示:“如果没有所有这些组件,就无法每年设计出全新的AI工厂。” 这一战略旨在延续Nvidia的商业成功,使其成为全球最有价值的公司之一,同时通过在AI数据中心中占据更多的价值链环节,增加收入并使其产品对客户更加不可或缺。 Nvidia的成功在一定程度上依赖于其已经使用了17年的专有软件CUDA,这款软件使程序员能够充分利用其芯片。最近,黄仁勋还将资源投入到一种名为InfiniBand的超高速网络协议中,这是在五年前以近70亿美元收购该技术的主要设备制造商Mellanox Technologies后得来的。分析师估计,InfiniBand被用于大多数AI训练部署中。 此外,Nvidia还在建立一个业务,为传统数据中心广泛使用的AI优化以太网提供网络技术。首席财务官Colette Kress表示,以太网业务预计将在一年内带来数十亿美元的收入。 更广泛地说,Nvidia销售的产品包括为各种其他数据中心设备提供的中央处理器和网络芯片,这些设备经过精细调整以无缝协同工作。公司还为特定行业(如医疗保健和机器人技术)提供量身定制的软件和硬件解决方案。 数据中心运营商DataBank的首席执行官Raul Martynek表示:“他(黄仁勋)使公司垂直化,他们对AI有一个愿景,即需要哪些软件和硬件组件才能让用户真正部署它。” 竞争加剧 Nvidia的竞争对手正在做出回应。AMD收购ZT Systems的交易本质上是为了获取如何建造数据中心的技能。AMD计划出售ZT的制造业务,并保留其设计专家,以便对Nvidia发起更强有力的挑战。 包括Intel、Cerebras Systems和SambaNova Systems等AI芯片初创公司在内的其他芯片供应商,也在提供服务和系统,以帮助客户构建和运营AI工具。 分析师和业内高管表示,这种趋势在一定程度上反映了客户对即插即用AI计算基础设施的偏好,这有助于他们在AI繁荣中迅速行动。 “企业通常会选择一站式解决方案,”投资公司Raymond James的分析师Srini Pajjuri表示。“他们没有资源、技术或专业知识来自己拼凑设备。” 战略中的风险 然而,Pajjuri指出,这一战略也存在一些风险。随着AI计算领域竞争的加剧以及AI工厂建设热潮的减退,客户可能会探索替代方案,而不仅仅依赖于Nvidia围绕其AI芯片构建的专有技术。 他说:“目前,市场时间是最重要的,所以他们正在采用Nvidia的解决方案,但随着技术的成熟,Nvidia可能无法再占据更多市场份额。” Nvidia还可能面临监管障碍,这是许多在市场中占据主导地位并扩大其影响力的公司曾遇到的挑战。公司在欧洲的市场行为正受到审查,其在法国的办公室在过去一年里遭到突击检查,尽管目前尚未对其提出指控。 黄仁勋在周三表示,Nvidia的角色是一个协调者和设计者,能够为如何建立复杂的AI基础设施提供指导,但强调Nvidia并不打算包揽所有工作。 Nvidia将于今年晚些时候或明年年初推出下一代Blackwell AI芯片,并首次提供一个完整的计算设备机架设计,但Nvidia本身不会制造这些设备。 黄仁勋表示:“我们知道如何设计AI基础设施,以客户希望的方式提供,并让生态系统进行整合。”
Kotaemon:融合检索与生成的AI系统,提升信息提取效率
https://github.com/Cinnamon/kotaemon 为了解决这一问题,研究人员提出了Kotaemon,这是一种基于检索增强生成(RAG)方法的开源系统。与传统搜索引擎不同,Kotaemon不仅基于相关性检索文档,还利用先进的语言模型(LLMs)生成符合语境的准确回答。Kotaemon的核心创新在于将检索系统的优势与生成式AI相结合,从而为用户提供更详细且语境适配的答案。 Kotaemon的架构由两大部分组成:检索和生成。在检索阶段,系统会对文档进行索引,并创建嵌入——即捕捉文本语义意义的数值表示。当用户提交查询时,系统会生成相应的嵌入,并使用相似度搜索算法检索出最相关的文档。在生成阶段,这些检索到的文档与原始查询一起形成上下文,随后由语言模型(如GPT-3)生成连贯且信息丰富的回答。Kotaemon的高度可定制性允许用户选择不同的LLMs、索引算法和相似度度量,增强了工具的灵活性和有效性。尽管目前尚未对模型进行定量评估,但Kotaemon能够提供准确且信息丰富的回答,表明其在性能上优于传统搜索引擎。此外,Kotaemon提高了用户满意度,显著减少了手动搜索所需的时间和精力。 总而言之,Kotaemon通过结合检索和生成技术,成功应对了与大规模文本交互的挑战。这一方法使系统能够提供比传统搜索引擎更相关且信息丰富的响应,显著提升了用户体验,节省了时间,并提供了符合语境的准确答案。虽然系统的表现依赖于索引文档的质量和底层LLMs的能力,Kotaemon无疑代表了信息提取领域的一项重要进步。