目前,AI模型有两种学习方式:一种是通过训练,另一种是在推理过程中通过上下文学习。迄今为止,训练一直占据主导地位,因为模型处理的上下文通常比较短。然而,超长上下文可能会改变这一局面。 与依赖模糊记忆不同,Magic的长期记忆(LTM)模型在推理时可处理多达1亿个token的上下文,基于这些上下文进行推理。这种模型的商业应用十分广泛,但Magic专注于软件开发领域。 可以想象,如果模型在推理时能参考所有的代码、文档和库,甚至包括那些不在公共互联网上的资源,代码生成的效果将会显著提升。 评估上下文窗口 目前,关于长上下文的评估并不理想。广为人知的“干草堆中的针”评估方法,随机将一个事实(“针”)放在长上下文窗口(“干草堆”)的中间,要求模型提取该事实。 然而,如果一本关于鲸鱼的小说中出现“Arun和Max在Blue Bottle喝咖啡”这样的描述,它会显得格外突兀。模型能够识别出这种“不寻常”的信息,从而忽略干草堆中其他相关内容,减少存储负担。此外,模型只需关注上下文中一个小的、语义上显著的部分,这让像RAG这样的方法看起来很成功。 Mamba的第4.1.2节和H3的附录E.1中的归纳头基准使这一任务更加简单,它们使用特殊的token标记“针”的开始位置,大大降低了评估的存储和检索难度。这就像考前已经知道考试的题目一样。 这些细微的缺陷削弱了当前长上下文评估方法的有效性,使得传统的循环神经网络(RNN)和状态空间模型(SSM)即便受到O(1)大小的状态向量限制,依然能取得好成绩。 为了消除这些隐含和显式的语义提示,Magic设计了HashHop评估方法。 Hash是随机生成的,无法压缩,这意味着模型必须在任何上下文大小下存储并检索最大量的信息内容。 具体来说,Magic给训练有Hash的模型提示Hash对: 接着,模型需要完成一个随机选定的Hash对: 这评估了单步归纳头的出现情况,但实际应用通常需要多跳。因此,Magic要求模型完成一串Hash链条: 为了确保顺序和位置的不可变性,Magic将Hash对打乱后提示模型: 然后,要求模型完成: 通过逐步写出所有中间的Hash值,这类似于“思维链”的推理方式,允许模型将推理过程延展至更长的时间。 Magic还提出了一个更具挑战性的变体,模型需要跳过步骤,直接完成: 这要求模型架构能够一次性跨越整个上下文的多个点进行推理。 在对代码和语言模型进行评估时,Magic发现在Hash上训练小模型,并在这些简单任务上测量性能,是其架构研究的一个有效工具。 Magic的超长上下文进展 Magic最近训练了首个能处理1亿token上下文的模型:LTM-2-mini。1亿token相当于约1000万行代码或约750本小说。 每解码一个token,LTM-2-mini的序列维度算法在1亿token上下文窗口下比Llama 3.1 405B1的注意力机制便宜大约1000倍。 两者在内存需求上的差距更大——运行1亿token上下文的Llama 3.1 405B需要每个用户638个H100显卡来存储KV缓存,而LTM只需一块H100的很小一部分内存即可处理同样的上下文。 通过“思维链”训练的LTM架构在以下测试中取得了优异的表现,尽管在没有“思维链”的情况下,进行三次跳跃的表现有所下降,但两次跳跃时依然表现强劲,表明该模型能够构建比单一归纳头更复杂的逻辑回路。 此外,Magic还训练了一个原型模型,通过超长上下文机制进行文本到差异数据的训练。虽然该模型在代码生成方面还不如当今的前沿模型,但偶尔能产生合理的输出。 与Google Cloud合作打造NVIDIA超级计算机 Magic与Google Cloud和NVIDIA合作,正在构建两台新超级计算机:Magic-G4和Magic-G5,后者将搭载NVIDIA GB200 NVL72系统,可扩展至成千上万块Blackwell GPU。 Magic的联合创始人兼CEO Eric Steinberger表示,这一合作将大幅提升模型的推理和训练效率,帮助Magic快速扩展AI基础设施。Google Cloud和NVIDIA的强大硬件与软件生态,将助力Magic推动AI的下一次突破。
Author: aitrendtrackers@rengongzhineng.io
OpenAI日本CEO长崎忠男公开谈论GPT-Next,这是一款比GPT-4强大100倍的AI模型
在2024年的KDDI峰会上,OpenAI日本的CEO长崎忠男透露了一些令人震惊的消息。他表示,未来发布的GPT-Next将比GPT-4强大100倍。据悉,这款模型将使用OpenAI神秘项目“草莓计划”的精简版。提升性能的关键并非依赖大量的计算资源,而是全新的架构设计。 据ITMediaAI+报道,长崎在峰会上重申了OpenAI对通信和AI领域的承诺。他详细介绍了这家AI巨头的业务,并分享了对未来AI模型的看法。据他透露,该模型名为GPT-Next。 此外,长崎还提到,截至今年8月底,ChatGPT的活跃用户数已经突破2亿。他强调,这是史上最快达到1亿到2亿活跃用户的软件,并指出ChatGPT为用户提供了前所未有的“易用”体验。同时,ChatGPT Enterprise在企业中的采用率也在持续上升。 长崎还谈到,OpenAI全球员工约有2000人,其中一半从事AI开发工作。除日本外,OpenAI在美国和英国也设有基地。当被问及为何选择日本作为亚洲的首个基地时,长崎解释称,日本在追求创新和新技术方面一直走在前列。 在演讲中,他对GPT系列的未来发展进行了展望,并将其与GPT-3和GPT-4进行了对比。他表示,AI技术的发展是指数级的,远超传统软件,因此OpenAI希望尽快推动一个充满AI的世界的到来。 在谈到个人经历时,长崎透露,他曾在2011年至2024年间担任亚马逊网络服务日本分公司的CEO,并于今年4月成为OpenAI日本的CEO。按照目前的进展,GPT-Next或将成为AI领域的下一个重大突破。
突破GPU利用率迷思:优化大型语言模型训练的真正关键
近年来,大型语言模型(LLMs)迅速崛起,推动了机器学习任务中对GPU高效利用的需求。然而,研究人员在准确评估GPU性能时面临着一个关键问题:常用的GPU利用率(通过nvidia-smi或集成监控工具访问)并不能可靠地反映实际计算效率。令人惊讶的是,仅仅通过读写内存就能达到100%的GPU利用率,而无需进行任何实际计算。这一发现促使学术界重新审视性能评估指标和方法,呼吁研究人员寻找更准确的GPU性能衡量方式,以优化LLM训练和推理任务的GPU使用。 为了克服GPU利用率的局限性,研究人员提出了替代指标。其中一个广为人知的方法是谷歌在PaLM论文中介绍的模型FLOPS利用率(MFU)。MFU衡量系统在理论最大FLOPS下的实际吞吐量比例,更准确地反映了GPU的计算效率。然而,MFU的计算复杂性较高,且依赖于具体的参数和框架。尽管如此,MFU揭示了GPU利用率和计算效率之间的巨大差异。比如,有些LLM训练虽然显示出100%的GPU利用率,但MFU仅为20%,远低于大多数LLM训练中常见的35-45%的范围,突显了对GPU性能指标更深层次理解的必要性。 研究人员通过应用如数据加载器参数调整、混合精度训练和融合优化器等常用的PyTorch性能优化技术,成功实现了100%的GPU利用率和显著的功耗增长。然而,为了更全面地了解计算效率,他们计算了训练任务的MFU,认识到仅依赖GPU利用率作为性能指标的局限性。 GPU架构的复杂性是理解GPU利用率作为性能指标局限性的关键。GPU由多个核心和多处理管理器组成,如NVIDIA的SM或AMD的CU。尽管NVIDIA的GPU利用率定义模糊,但它更多反映的是GPU的活动性,而非计算效率。因此,研究人员转向使用PyTorch Profiler对模型训练循环进行剖析,发现Softmax内核虽然显示高GPU利用率,但SM效率却很低,说明存在潜在的执行效率问题。 通过融合内核技术,研究人员成功提升了LLM训练的SM效率。最终,LLM训练效率大幅提升,MFU从20%增长至38%,训练时间缩短了四倍。研究人员建议,在GPU集群中同时追踪SM效率和GPU利用率,以准确评估性能,优化LLM训练的效率。 https://trainy.ai/blog/gpu-utilization-misleading
Nvidia遭遇反垄断调查:AI芯片巨头面临司法部传票
美国司法部(DOJ)向Nvidia公司及其他公司发出了传票,旨在寻找证据,调查该芯片制造商是否违反了反垄断法。这标志着对Nvidia——这一人工智能处理器领域的主导者——的调查进一步升级。 此前,司法部曾向多家公司发送问卷调查,而此次的传票则是具有法律约束力的请求,要求接收方提供相关信息。这表明政府距离提出正式诉讼更近了一步。 司法部的反垄断官员担心,Nvidia可能在通过限制客户更换供应商,并对不完全依赖其AI芯片的买家施加惩罚。Nvidia对此回应称,公司的市场主导地位源于产品质量,且其芯片的性能表现优于竞争对手。 该调查还涉及Nvidia在4月份宣布收购RunAI的交易,RunAI是一家提供AI计算管理软件的公司。监管机构担心此项交易可能会使客户更难摆脱对Nvidia芯片的依赖。此外,司法部还在调查Nvidia是否为独家使用其技术或购买其完整系统的客户提供了优惠供应和价格。 Nvidia自1993年成立以来,最初因销售图形卡而闻名于电脑游戏玩家。但随着其芯片制造方法在构建AI模型方面表现突出,Nvidia迅速扩大了其产品线,包括软件、服务器、网络和服务,旨在加速AI的部署。这也使其成为微软和Meta等巨头的关键供应商。 随着AI技术对经济和国家安全的重要性日益增加,Nvidia的市场行为正受到全球政府的广泛关注。
Canva用户因AI功能扩展导致的300%
Canva的用户们要做好准备了。这家广受欢迎的设计软件公司将大幅提高其Canva Teams订阅价格,涨幅高达300%以上,原因是其引入了新的生成式AI功能,这些功能据称足以证明如此大幅度的价格上涨是合理的。 现有用户对此次突然的涨价感到措手不及,特别是个人账户将在明年转向更高价位的订阅模式。在美国,一些用户报告称,最多五人的年度订阅费用从原来的120美元飙升至500美元。虽然公司提供了为期12个月的40%折扣,使价格暂时降至300美元,但之后将恢复到500美元的标准价格。 而在澳大利亚,情况更加戏剧化——原来五人的每月费用为39.99澳元,如今每位用户每月要支付40.50澳元。这意味着一个五人团队的年度费用从480澳元跃升至惊人的2,430澳元。 此前,一些团队享有锁定价格,但现在这些优惠不再适用于新用户。实际上,早在今年四月,Canva悄然更改了价格结构,设定了最低三位用户,每人每月10美元的标准。如今,老用户也被逐步推向这一更昂贵的定价模式,理由是要与“扩展后的产品体验”保持一致。 Canva的通讯主管Louisa Green解释了此次大幅涨价,称这是因为公司近年来的快速发展。新功能包括Visual Suite和Magic Studio,旨在将Canva从一个简单的设计工具变成一个全面的工作平台。 此次涨价主要是由于Canva推出了一系列AI功能,比如Magic Media的文本转图像生成器和Magic Expand背景扩展工具。这些更新是Canva更广泛的产品重塑计划的一部分,目的是将其从一个针对设计师的工具发展为更全面的商业工具。尽管公司此前曾暗示过价格调整,但此次突然的大幅上涨主要是通过客户邮件告知的。值得注意的是,其他订阅级别如Pro和Enterprise尚未受到影响。 这一举动标志着Canva的重大转型,毕竟它曾凭借比Adobe更加实惠的价格吸引了大量用户。毫不意外,许多用户已经在社交媒体上表达了不满,威胁要取消订阅并重返Adobe的怀抱。 此次涨价也紧随Canva收购Affinity创意软件套件之后,并且距离其计划于2026年在美国上市的目标越来越近。目前尚不清楚这些价格调整是否会扩展到中东地区,那里的用户可能正在密切关注,看看他们的订阅是否会受到影响,还是会保持不变。
OpenAI正在努力解决其面临的版权问题
OpenAI的GPT模型在技术上取得了巨大进步,这可能源于对整个网络文本的“吸收”。包括一些大型出版商如Axel Springer、Condé Nast和美联社的整个档案库,而这一切都未经他们的许可。令人惊讶的是,尽管如此,OpenAI还是与许多这些集团达成了合作协议。 乍一看,这种情况有点让人摸不着头脑。为什么OpenAI要为已经拥有的内容付费?而那些愤怒得想打官司的出版商们又为何同意与其合作? 如果仔细观察这些协议,或许能看到未来网络格局的一种可能。谷歌的流量导向作用在逐渐减弱,这对整个网络的生存构成了威胁。而这种搜索领域的权力真空,可能正是OpenAI试图填补的。 交易的内幕 根据Axel Springer协议的新闻稿,这些交易允许OpenAI访问出版物的内容,以“通过在ChatGPT中加入最新的权威内容来丰富用户体验”。这里的“最新内容”至关重要。通过爬取网络,ChatGPT的信息获取会受到时间限制,无法实时更新。而越接近实时访问,OpenAI的产品就越接近实时结果。 不过,这些交易所涉及的金额相对较小,据报道,OpenAI向出版商提供的年付款仅为100万到500万美元。结合公开的数据计算,每家出版物的交易上限约为1000万美元。相较于OpenAI对这些出版物数据的全面抓取,这笔钱确实不多。但为何OpenAI仍愿意支付这些费用呢? 一个可能的原因是,这些费用可以被视为防止出版商起诉OpenAI的一种手段。已经有一家大型出版物提起了诉讼,未来的法律纠纷可能会使OpenAI付出更大的代价。 《纽约时报》的诉讼和法律风险 《纽约时报》已对OpenAI提起了诉讼,指控其在未经许可的情况下使用了时报的作品来训练其语言模型,这构成了版权侵权。而更严重的是,OpenAI通过这种方式创造的产品现在与《纽约时报》直接竞争,意图“窃取”其读者群。 如果《纽约时报》赢得诉讼,OpenAI可能面临高达75亿美元的法定赔偿金。这就是为什么《纽约时报》没有接受OpenAI提出的微不足道的合作金额。 因此,OpenAI与出版商达成的协议,从某种意义上说,实际上是在确保这些出版商不会像《纽约时报》那样起诉OpenAI。同时,这些交易也帮助OpenAI维持其“合理使用”辩护,因为它必须在包括与《纽约时报》诉讼在内的多个案件中使用这一辩护。 谷歌与搜索市场的争夺 这些交易不仅仅是为了避免诉讼和管理声誉。更重要的是,这些交易还使OpenAI获得了实时信息。OpenAI最近宣布了自己的搜索引擎SearchGPT,尽管目前还处于原型阶段,但这个AI原生搜索引擎的目标是通过过滤掉AI生成的SEO内容,为用户提供更高质量的信息。 谷歌搜索在过去几年中逐渐变得不那么实用了,而Google的AI聊天机器人也未能显著改善这种情况。如果OpenAI能够推出一个能够颠覆现有搜索市场的产品,现在正是时机。 这些交易还为出版商提供了更多谈判筹码,可能最终迫使谷歌与出版商坐下来谈判。谷歌已经与Reddit达成了协议,支付6000万美元获取Reddit数据,这为出版商们争取更多利益打开了大门。 然而,如果法院最终裁定《纽约时报》胜诉,这可能会使所有大型语言模型的创建者都面临巨额赔偿,只有那些财力雄厚的公司才能在这一领域继续竞争。这将使谷歌、微软、亚马逊和Meta等巨头在生态系统中的地位更加稳固。 总的来说,尽管OpenAI目前面临法律风险,但它仍有时间在市场上发展壮大,并可能通过这些与出版商的交易,最终在搜索市场上获得一席之地。而对于出版商来说,趁着还能从中获利,现在达成交易可能是明智之举。
Nvidia扩展AI帝国:从芯片到数据中心设计的全面布局
Nvidia正处于人工智能(AI)芯片市场的中心地位,但首席执行官黄仁勋的目标远不止于此。他正通过提供软件、数据中心设计服务和网络技术等多方面的产品,扩大公司业务,并希望在竞争中进一步拉大优势,成为AI领域的全面供应商。 黄仁勋的战略旨在将Nvidia打造成不仅仅是一个硬件组件供应商,而是一个涵盖所有关键要素的一站式服务提供商,尤其是在像OpenAI的ChatGPT等工具开发和部署的AI数据中心,或他所谓的“AI工厂”中。 在本周三发布的财报中,Nvidia的表现超出了华尔街的预期。黄仁勋在随后的电话会议中强调了公司在数据中心设计方面日益增强的能力。这一财报发布前不久,竞争对手AMD宣布将以近50亿美元收购数据中心设计和制造公司ZT Systems,以图在数据中心领域缩小与Nvidia的差距。 黄仁勋指出,Nvidia有独特的能力来整合和设计AI工厂,因为公司掌握了所有关键部件。他表示:“如果没有所有这些组件,就无法每年设计出全新的AI工厂。” 这一战略旨在延续Nvidia的商业成功,使其成为全球最有价值的公司之一,同时通过在AI数据中心中占据更多的价值链环节,增加收入并使其产品对客户更加不可或缺。 Nvidia的成功在一定程度上依赖于其已经使用了17年的专有软件CUDA,这款软件使程序员能够充分利用其芯片。最近,黄仁勋还将资源投入到一种名为InfiniBand的超高速网络协议中,这是在五年前以近70亿美元收购该技术的主要设备制造商Mellanox Technologies后得来的。分析师估计,InfiniBand被用于大多数AI训练部署中。 此外,Nvidia还在建立一个业务,为传统数据中心广泛使用的AI优化以太网提供网络技术。首席财务官Colette Kress表示,以太网业务预计将在一年内带来数十亿美元的收入。 更广泛地说,Nvidia销售的产品包括为各种其他数据中心设备提供的中央处理器和网络芯片,这些设备经过精细调整以无缝协同工作。公司还为特定行业(如医疗保健和机器人技术)提供量身定制的软件和硬件解决方案。 数据中心运营商DataBank的首席执行官Raul Martynek表示:“他(黄仁勋)使公司垂直化,他们对AI有一个愿景,即需要哪些软件和硬件组件才能让用户真正部署它。” 竞争加剧 Nvidia的竞争对手正在做出回应。AMD收购ZT Systems的交易本质上是为了获取如何建造数据中心的技能。AMD计划出售ZT的制造业务,并保留其设计专家,以便对Nvidia发起更强有力的挑战。 包括Intel、Cerebras Systems和SambaNova Systems等AI芯片初创公司在内的其他芯片供应商,也在提供服务和系统,以帮助客户构建和运营AI工具。 分析师和业内高管表示,这种趋势在一定程度上反映了客户对即插即用AI计算基础设施的偏好,这有助于他们在AI繁荣中迅速行动。 “企业通常会选择一站式解决方案,”投资公司Raymond James的分析师Srini Pajjuri表示。“他们没有资源、技术或专业知识来自己拼凑设备。” 战略中的风险 然而,Pajjuri指出,这一战略也存在一些风险。随着AI计算领域竞争的加剧以及AI工厂建设热潮的减退,客户可能会探索替代方案,而不仅仅依赖于Nvidia围绕其AI芯片构建的专有技术。 他说:“目前,市场时间是最重要的,所以他们正在采用Nvidia的解决方案,但随着技术的成熟,Nvidia可能无法再占据更多市场份额。” Nvidia还可能面临监管障碍,这是许多在市场中占据主导地位并扩大其影响力的公司曾遇到的挑战。公司在欧洲的市场行为正受到审查,其在法国的办公室在过去一年里遭到突击检查,尽管目前尚未对其提出指控。 黄仁勋在周三表示,Nvidia的角色是一个协调者和设计者,能够为如何建立复杂的AI基础设施提供指导,但强调Nvidia并不打算包揽所有工作。 Nvidia将于今年晚些时候或明年年初推出下一代Blackwell AI芯片,并首次提供一个完整的计算设备机架设计,但Nvidia本身不会制造这些设备。 黄仁勋表示:“我们知道如何设计AI基础设施,以客户希望的方式提供,并让生态系统进行整合。”
Kotaemon:融合检索与生成的AI系统,提升信息提取效率
https://github.com/Cinnamon/kotaemon 为了解决这一问题,研究人员提出了Kotaemon,这是一种基于检索增强生成(RAG)方法的开源系统。与传统搜索引擎不同,Kotaemon不仅基于相关性检索文档,还利用先进的语言模型(LLMs)生成符合语境的准确回答。Kotaemon的核心创新在于将检索系统的优势与生成式AI相结合,从而为用户提供更详细且语境适配的答案。 Kotaemon的架构由两大部分组成:检索和生成。在检索阶段,系统会对文档进行索引,并创建嵌入——即捕捉文本语义意义的数值表示。当用户提交查询时,系统会生成相应的嵌入,并使用相似度搜索算法检索出最相关的文档。在生成阶段,这些检索到的文档与原始查询一起形成上下文,随后由语言模型(如GPT-3)生成连贯且信息丰富的回答。Kotaemon的高度可定制性允许用户选择不同的LLMs、索引算法和相似度度量,增强了工具的灵活性和有效性。尽管目前尚未对模型进行定量评估,但Kotaemon能够提供准确且信息丰富的回答,表明其在性能上优于传统搜索引擎。此外,Kotaemon提高了用户满意度,显著减少了手动搜索所需的时间和精力。 总而言之,Kotaemon通过结合检索和生成技术,成功应对了与大规模文本交互的挑战。这一方法使系统能够提供比传统搜索引擎更相关且信息丰富的响应,显著提升了用户体验,节省了时间,并提供了符合语境的准确答案。虽然系统的表现依赖于索引文档的质量和底层LLMs的能力,Kotaemon无疑代表了信息提取领域的一项重要进步。
Google Deepmind 推出GenRM:提升生成式AI推理能力的新方法
生成式AI是人工智能中的一个重要领域,专注于开发能够生成类似人类文本并解决复杂推理任务的系统。这些模型在自然语言处理等多个应用中至关重要,其主要功能是预测文本序列中的后续单词,生成连贯的文本,甚至解决逻辑和数学问题。然而,尽管这些模型在许多方面表现出色,但在准确性和可靠性上仍存在挑战,尤其是在推理任务中,一个小错误就可能导致整个解决方案的失效。 生成式AI模型的一个显著问题是,它们常常会生成看似自信但实际上错误的输出。这一挑战在对精确性要求极高的领域(如教育、金融和医疗)中尤为关键。模型无法始终生成正确答案,这削弱了它们在高风险应用中的潜力。因此,提升这些AI系统的准确性和可靠性成为研究人员的首要任务,以增强AI生成解决方案的可信度。 为了解决这些问题,目前的方法包括使用判别式奖励模型(RMs),这些模型通过评分来判断潜在答案的正确性。然而,这些方法并未充分利用大型语言模型(LLMs)的生成能力。另一种常见方法是LLM-as-a-Judge,它利用预训练语言模型来评估解决方案的正确性。虽然这种方法发挥了LLM的生成能力,但在需要细致判断的推理任务中,往往不如专门的验证器。 谷歌DeepMind、多伦多大学、MILA和加州大学洛杉矶分校的研究人员引入了一种名为生成式奖励建模(GenRM)的新方法。该方法通过将验证过程重新定义为一个下一词预测任务,充分利用了LLMs的核心能力。与传统的判别式RMs不同,GenRM将LLMs的文本生成优势融入验证过程中,使模型能够同时生成和评估潜在解决方案。这种方法还支持Chain-of-Thought(CoT)推理,模型在得出最终结论前生成中间推理步骤,从而不仅评估了解决方案的正确性,还通过更详细和结构化的评估提升了整体推理过程。 GenRM方法采用了一个统一的训练方法,结合了解决方案生成和验证的过程。通过下一词预测训练模型来预测解决方案的正确性,这种技术利用了LLMs固有的生成能力。在实际操作中,模型会生成中间推理步骤(CoT推理),这些步骤随后用于验证最终的解决方案。这一过程与现有的AI训练技术无缝集成,允许同时改进生成和验证能力。此外,GenRM模型还受益于推理时的额外计算,如通过多数投票聚合多个推理路径,以得出最准确的解决方案。 特别是在与CoT推理结合时,GenRM模型的表现显著超越了传统的验证方法。在一系列严格测试中,包括与小学数学和算法问题解决相关的任务,GenRM模型在准确性上显示出了显著提升。研究人员报告称,与判别式RMs和LLM-as-a-Judge方法相比,正确解决问题的比例增加了16%到64%。例如,在验证Gemini 1.0 Pro模型的输出时,GenRM方法将问题解决成功率从73%提升到92.8%。这一显著的性能提升表明,该模型能够减轻标准验证器在复杂推理场景中经常忽略的错误。此外,研究人员观察到,随着数据集规模和模型容量的增加,GenRM模型能够有效扩展,进一步增强其在各种推理任务中的适用性。 总之,谷歌DeepMind研究人员引入的GenRM方法标志着生成式AI领域在解决推理任务相关验证挑战方面的重大进展。GenRM模型通过将解决方案生成和验证统一为单一过程,提供了更可靠和准确的复杂问题解决方案。这种方法不仅提高了AI生成解决方案的准确性,还增强了整体推理过程,使其成为未来多领域AI应用中的重要工具。随着生成式AI的不断发展,GenRM方法为进一步的研究和发展奠定了坚实的基础,尤其是在精确性和可靠性至关重要的领域。
推动主权AI:NVIDIA助力全球AI基础设施本地化发展
为了确保AI系统能够反映本地的价值观和法规,越来越多的国家开始制定主权AI战略,利用自己的基础设施、数据和专业知识开发AI技术。为支持这一趋势,NVIDIA推出了四款全新的NVIDIA NIM微服务。 这些微服务旨在简化生成式AI应用程序的创建和部署,支持区域定制的社区模型。通过增强对本地语言和文化细微差别的理解,它们承诺为用户提供更深度的参与体验,生成更准确和相关的响应。 这一举措正值亚太地区生成式AI软件市场预计将迎来爆炸式增长之际。据ABI Research预测,该地区的收入将从今年的50亿美元激增至2030年的480亿美元。 NVIDIA的新产品包括两个区域语言模型:Llama-3-Swallow-70B(基于日本数据训练)和Llama-3-Taiwan-70B(优化用于普通话)。这些模型旨在更好地理解本地法律、法规和文化复杂性。 此外,NVIDIA还推出了RakutenAI 7B模型系列,以支持日本语言市场。这些模型基于Mistral-7B,结合了英语和日语数据进行训练,并以两种不同的NIM微服务形式提供,分别用于聊天和指令功能。值得注意的是,Rakuten的模型在2024年1月至3月期间的LM评估基准测试中,在所有开放的日本大型语言模型中取得了最高平均分。 在区域语言上训练大型语言模型(LLMs)对于提高输出效果至关重要。通过准确反映文化和语言的细微差别,这些模型能够实现更精确和更具层次感的沟通。与Llama 3等基础模型相比,这些区域变体在理解日语和普通话、处理区域法律任务、回答问题以及翻译和总结文本方面表现更优。 全球推动主权AI基础设施的浪潮已在新加坡、阿联酋、韩国、瑞典、法国、意大利和印度等国家中得到充分体现,显著投资正不断涌入这一领域。 东京工业大学全球科学信息与计算中心的教授Rio Yokota表示:“LLMs不仅仅是提供普遍利益的机械工具,它们更像是与人类文化和创造力互动的智力工具。这种影响是双向的,模型不仅受到我们训练数据的影响,我们的文化和生成的数据也会被LLMs影响。因此,开发符合我们文化规范的主权AI模型至关重要。NVIDIA NIM微服务中提供的Llama-3-Swallow模型将使开发人员能够轻松地访问并在各行业的日本应用中部署该模型。” NVIDIA的NIM微服务使企业、政府机构和大学能够在本地环境中托管本土LLMs。开发人员可以借此创建高级的智能助理、聊天机器人和AI助手。这些微服务在NVIDIA AI Enterprise平台上提供,并使用开源的NVIDIA TensorRT-LLM库进行推理优化,承诺提升性能和加快部署速度。 Llama 3 70B微服务(即新推出的Llama-3-Swallow-70B和Llama-3-Taiwan-70B的基础模型)展示了显著的性能提升,吞吐量高达5倍,转化为降低的运营成本和通过减少延迟提升的用户体验。