埃隆·马斯克表示,他有信心将特斯拉打造成“AI和机器人领域的领导者”,这一宏伟目标需要大量昂贵的Nvidia处理器来搭建基础设施。 在特斯拉四月的第一季度财报电话会议上,马斯克提到,电动车公司计划将Nvidia旗舰AI芯片H100的使用数量从35,000增加到85,000,预计在今年年底前完成。几天后,他在社交媒体X上发文称,特斯拉将在今年花费100亿美元用于“AI的训练和推理”。 然而,Nvidia公司内部广泛流传的邮件显示,马斯克向股东展示了一个夸大的特斯拉采购情况。Nvidia员工的邮件还表明,马斯克将一大批原本预留给特斯拉的AI处理器转移给了他自己的社交媒体公司X(前身为Twitter)。 周二上午,这一消息导致特斯拉股价下跌近1%。 马斯克指示Nvidia优先为X提供处理器,推迟了特斯拉超过5亿美元的图形处理单元(GPU)的交付,可能进一步延缓特斯拉为开发自动驾驶汽车和人形机器人所需的超级计算机的建立。 Nvidia去年十二月的一份备忘录中写道:“埃隆优先将12,000个H100 GPU重新分配给X,而不是特斯拉。”换句话说,原本计划给X的订单将转移给特斯拉。 最新的一封Nvidia邮件,日期为四月底,指出马斯克在特斯拉第一季度电话会议上的言论“与实际订单不符”,他在X上提到的100亿美元AI支出计划也“与实际订单和2025财年预测不符”。邮件还提到了特斯拉正在进行的裁员,并警告说人手减少可能会进一步延迟特斯拉德州工厂的“H100项目”。 这些新信息揭示了马斯克与一些不满的特斯拉股东之间的矛盾,这些股东质疑这位亿万富翁CEO是否能够在经营多个需要他关注和资源的公司时,履行他对特斯拉的责任。 Nvidia发言人拒绝对此事发表评论。马斯克和X及特斯拉的代表也没有回应置评请求。 批评者指出,马斯克只是特斯拉的“兼职CEO”,而特斯拉是他财富的主要来源。他还担任航天公司SpaceX的CEO,是脑机接口初创公司Neuralink和隧道公司The Boring Co.的创始人,同时拥有X,这家公司是他在2022年末以440亿美元收购的。他在2023年创立了AI初创公司xAI。 X和xAI紧密相连。马斯克在十一月的X帖子中写道:“X Corp投资者将拥有xAI的25%股份。”此外,xAI还使用X数据中心的一部分容量来运行其聊天机器人Grok背后的大语言模型的训练和推理。 马斯克在X上推销Grok,最初名为Truth GPT,作为一个有“叛逆精神”的政治不正确的聊天机器人,并计划与OpenAI的ChatGPT和其他生成式AI服务竞争。 尽管马斯克分身多头,特斯拉股东们仍有理由担忧。公司正面临销量下降的困境,部分原因是电动车产品线老化和竞争加剧。根据Axios Harris Poll 100的调查,特斯拉的声誉也在美国受损,一些下降被归咎于马斯克的“奇特行为”和“政治言论”。 特斯拉股价今年下跌了29%。 与其讨论电动车销量或特斯拉正在进行的大规模重组,马斯克一直鼓励投资者关注他多年承诺但尚未交付的未来产品,包括将现有汽车转变为自动驾驶车辆的AI软件、可以为车主赚钱的专用自动出租车,以及一个无人驾驶交通网络。 马斯克在四月的财报电话会议上表示:“如果有人不相信特斯拉能够解决自动驾驶问题,那么他们不应该投资这家公司。我们会解决,我们正在解决。” 为了实现这一目标,他表示,特斯拉需要大量专门用于AI训练和工作负载的Nvidia GPU。这些芯片由于谷歌、亚马逊、Meta、微软、OpenAI等公司的需求激增而供应紧张。 “耗尽所有现有GPU”Nvidia,现为全球第三大公司,市值2.8万亿美元,表示很难满足需求。Nvidia CEO黄仁勋在五月的财报电话会议上表示,客户“正在耗尽所有现有的GPU”。在二月的财报电话会议上,黄仁勋表示,Nvidia尽力“公平分配,避免不必要的分配”,并补充说“为什么要分配给一个尚未准备好的数据中心?” 黄仁勋在五月的电话会议上提到正在使用Nvidia下一代Blackwell平台的客户时,提到了xAI,以及全球六大科技公司和特斯拉。 马斯克喜欢宣传他在两家公司上的基础设施投资。 在特斯拉,马斯克承诺在纽约布法罗建造一台耗资5亿美元的“Dojo”超级计算机,并在德州奥斯汀工厂建造一个“超密集的水冷超级计算机集群”。这项技术将有助于特斯拉开发用于机器人和自动驾驶汽车的计算机视觉和大语言模型。 在xAI,马斯克也在寻求建立“世界上最大的GPU集群”,部分容量计划在六月上线,根据二月的Nvidia内部邮件。这份备忘录描述了一个“马斯克任务”,要求在2024年底前将所有100,000个芯片提供给xAI。备忘录还指出,xAI背后的LLM依赖于亚马逊和甲骨文的云基础设施,X提供了额外的数据中心容量。 据《信息》报道,xAI的数据中心雄心此前已经有所披露。 五月二十六日,xAI宣布完成了一轮由许多资助马斯克收购Twitter的投资者领投的60亿美元融资。公司于2023年三月注册成立,但特斯拉当时并未披露其成立,四个月后马斯克才公开介绍这家初创公司。 利益冲突虽然马斯克多年来一直声称特斯拉是AI领域的领导者,但他在一月的X帖子中写道,他希望在推动公司进一步发展之前,拥有更多的控制权。 “在没有~25%的投票控制权的情况下,我对将特斯拉发展成为AI和机器人领导者感到不安。足以有影响力,但不会多到无法被推翻,”他在帖子中说。 特斯拉最新的代理文件显示,马斯克拥有公司20.5%的流通股,包括作为他2018年CEO薪酬方案的一部分获得的期权。一家特拉华州法院已下令撤销这笔薪酬。庭后程序正在进行中,并可能上诉。 如果无法达到他想要的所有权标志,马斯克在一月的帖子中表示,他“更愿意在特斯拉之外开发产品”。他已经在xAI上做到了这一点。 马斯克的一月帖子激怒了一些长期的支持者,包括公司最大的散户股东Leo Koguan和Gerber Kawasaki的Ross Gerber,他们将他的要求称为“勒索”。 股权诉讼集团的证券诉讼律师Joel Fleming表示,通过让他的私人公司在获取关键硬件方面领先于特斯拉,马斯克使他的利益冲突变得明显。 “当你像马斯克先生这样同时对多个公司负有信托责任时,法律认识到这会产生冲突,”Fleming说。“如果你对两个或更多公司负有信托责任,而这些公司在争夺同样的东西,你可能最终会将公司机会从一个公司转移到另一个公司。” Fleming经常代表上市公司投资者处理股东纠纷,他表示,在这种情况下,其他高管将处于最佳决策位置,而那些有冲突的人应该回避。 “这历来不是马斯克先生为自己选择的路径,”Fleming说。 马斯克在他的公司间混合资源毫不避讳。 例如,在收购Twitter后,马斯克招募了数十名Autopilot软件工程师和特斯拉的其他技术和行政员工,帮助他在公司进行大刀阔斧的改革。一些员工甚至同时为两家马斯克的公司工作。 在xAI,马斯克还吸引了不少特斯拉的员工,包括机器学习科学家Ethan Knight,以及至少四名前特斯拉员工,他们在加入初创公司前曾参与Autopilot和大数据项目。 一位不愿透露姓名的前特斯拉供应链分析师告诉CNBC,马斯克一直认为他的公司是他个性的延伸,相信自己可以随意处置它们。这包括特斯拉在 2016年收购SolarCity,他是该公司的主席和大股东。 然而,这位人士表示,将大量芯片从特斯拉转移到X是极端的,考虑到Nvidia技术的稀缺性。这个决定意味着特斯拉放弃了在德州或纽约建立其超级计算机集群和推进其自动驾驶软件和机器人背后的模型的宝贵时间。 在这篇报道发表后的一则X帖子中,马斯克写道:“特斯拉没有地方可以安装这些Nvidia芯片,它们会被闲置在仓库里。”他表示,德州工厂的“南扩展部分”将很快“容纳50,000个H100”,用于自动驾驶技术的训练。…
构建大型语言模型(LLM)产品的实战指南
使用大型语言模型(LLM)进行开发的时代令人兴奋。过去的一年中,LLM在实际应用中的表现已经达到“足够好”的水平,并且每年都在变得更好且更便宜。再加上社交媒体上的一系列演示,到2025年,预计将有2000亿美元的投资进入人工智能领域。此外,提供者的API使LLM变得更加易于访问,使得不仅是机器学习工程师和科学家,任何人都可以将智能融入他们的产品。然而,尽管构建AI的门槛已经降低,但创建真正有效的产品和系统——不仅仅是演示——仍然非常困难。 我们过去一年一直在构建过程中,发现了许多棘手的问题。虽然我们不敢说代表整个行业,但我们希望分享我们的经验,以帮助你避免我们犯过的错误,并加速你的迭代。这些经验分为三个部分: 战术层面:提示、RAG、流程工程、评估和监控的实践。不管你是构建LLM的从业者,还是周末项目的爱好者,这部分内容都是为你而写。 操作层面:产品发布的组织和日常关注点,以及如何打造高效团队。针对希望可持续且可靠地部署产品的产品/技术领导者。 战略层面:长远的宏观视角,带有明确观点,如“在产品市场契合前不使用GPU”和“关注系统而非模型”,以及如何迭代。专为创始人和高管们撰写。 我们的目的是提供一份实际指南,帮助你成功构建LLM产品,基于我们的经验,并引用行业中的案例。 准备好深入探讨了吗?让我们开始吧。 战术层面:使用LLM的具体操作 在本部分中,我们分享了新兴LLM堆栈核心组件的一些最佳实践:提高质量和可靠性的提示技巧、评估策略、改进基础生成的检索增强生成(RAG)思路等。我们还将探讨如何设计人机协作工作流。尽管技术仍在快速发展,但我们希望这些经验——我们通过无数实验获得的副产品——能够经受住时间的考验,帮助你构建和发布可靠的LLM应用。 提示 开发新应用时,我们建议从提示开始。提示的作用经常被低估和高估。低估是因为正确的提示技术,使用得当,可以取得非常好的效果。高估是因为即使基于提示的应用,也需要围绕提示进行大量工程工作以取得良好效果。 充分利用基本提示技术 一些提示技术在各种模型和任务中一贯有助于提高性能:n-shot提示+上下文学习、链式思维(CoT)以及提供相关资源。 通过n-shot提示进行上下文学习的理念是向LLM提供几个示例,展示任务并对齐输出和我们的期望。一些小建议: 在链式思维(CoT)提示中,我们鼓励LLM在返回最终答案之前解释其思考过程。可以将其视为提供给LLM的草图本,使其不必全在记忆中完成。原始方法是简单地将短语“让我们一步步思考”添加到指令中,但我们发现,通过添加一两句额外的句子使CoT更具体,通常可以显著减少幻觉率。例如,当要求LLM总结会议记录时,我们可以明确步骤,如: 请注意,最近一些人对这一技术的实际效果提出了质疑。此外,关于使用链式思维进行推理时具体发生了什么,也存在大量争论。不管怎样,当有可能时,这一技术值得尝试。 提供相关资源是一种强大的机制,可以扩展模型的知识库,减少幻觉,并增加用户的信任。通常通过检索增强生成(RAG)实现,向模型提供可以直接在响应中使用的文本片段是一种基本技术。在提供相关资源时,不仅仅是包括它们;还要告诉模型优先使用它们,直接引用它们,有时还要提到当资源不足时。这些有助于将代理响应“定位”到资源库。 结构化输入和输出 结构化输入和输出有助于模型更好地理解输入,并返回可以可靠集成到下游系统的输出。为输入添加序列化格式可以为模型提供更多的上下文关系线索、特定标记的附加元数据(如类型),或将请求与模型训练数据中的类似示例关联。 例如,许多互联网上关于编写SQL的问题都会先指定SQL模式。因此,你可能期望有效的文本到SQL提示应包括结构化模式定义;确实如此。 结构化输出也有类似的目的,但它还简化了与系统下游组件的集成。Instructor和Outlines在结构化输出方面表现良好。(如果你正在导入LLM API SDK,请使用Instructor;如果你正在导入Huggingface用于自托管模型,请使用Outlines。)结构化输入清晰表达任务,类似于训练数据的格式,增加了更好输出的可能性。 在使用结构化输入时,注意每个LLM家族有其自己的偏好。Claude偏好,而GPT偏好Markdown和JSON。使用XML时,你甚至可以通过提供标签来预填充Claude的响应,如下所示: 保持简洁的小提示 软件中的“神对象”是一个常见的反模式,同样适用于提示。 提示通常从简单开始:几句指令,加上几个示例,就可以开始了。但是,当我们试图提高性能并处理更多的边缘情况时,复杂性会逐渐增加。更多的指令。多步推理。几十个示例。不知不觉中,我们最初简单的提示变成了一个2000个标记的怪物。而且更糟糕的是,它在更常见和简单的输入上表现更差!GoDaddy分享了他们构建LLM的第一大教训,正是这个问题。 就像我们努力(艰难)保持系统和代码简单一样,我们也应该对提示保持简单。不要将所有任务放在一个提示中,而是将其分解成多个步骤。例如,对于会议记录摘要器,我们可以将其分解为: 结果是,我们将一个提示分解成多个简单、专注且易于理解的提示。通过分解,我们可以单独迭代和评估每个提示。 设计上下文标记 重新思考并挑战你关于需要多少上下文才能发送给代理的假设。像米开朗基罗一样,不要堆砌你的上下文雕塑——削减多余的材料,直到雕塑显现。RAG是一种汇集所有可能相关信息的流行方法,但你做了什么来提取必要的内容? 我们发现,将发送给模型的最终提示——包括所有上下文构建、元提示和RAG结果——放在一个空白页面上阅读,真的有助于重新思考你的上下文。我们发现冗余、自相矛盾的语言和糟糕的格式。 另一个关键优化是上下文的结构。你的文档袋表示对人类没有帮助,不要假设它对代理有用。仔细考虑如何结构化你的上下文,以突出其各部分之间的关系,并尽可能简化提取过程。 信息检索 / RAG 除了提示,另一种有效引导LL M的方法是提供知识作为提示的一部分。这使LLM能够在提供的上下文中进行在上下文学习。这被称为检索增强生成(RAG)。实践者发现,RAG在提供知识和改进输出方面有效,同时所需的精力和成本远低于微调。RAG的效果取决于检索到的文档的相关性、密度和详细程度。 RAG输出质量取决于检索到的文档质量,可以从几个方面考虑: 不要忘记关键词搜索;将其作为基线和混合搜索的一部分 在嵌入式RAG演示如此流行的情况下,很容易忽略或忘记信息检索领域的几十年研究和解决方案。 虽然嵌入无疑是强大的工具,但它们并不是万能的。首先,它们在捕捉高级语义相似性方面表现出色,但在更具体的基于关键词的查询(如用户搜索名字、首字母缩略词或ID)时可能表现较差。基于关键词的搜索(如BM25)就是专门为此设计的。并且经过多年的关键词搜索,用户可能已经习惯了它,如果未能返回他们期望检索到的文档,可能会感到沮丧。 矢量嵌入并没有神奇地解决搜索问题。事实上,繁重的工作在于你用语义相似性搜索重新排序之前的步骤。要在BM25或全文搜索基础上取得实质性改进是很难的。——Aravind Srinivas,Perplexity.ai CEO 我们一直在向客户和合作伙伴传达这一信息。使用简单嵌入的最近邻搜索会产生非常嘈杂的结果,你可能更适合从关键词搜索开始。——Beyang Liu,Sourcegraph CTO 其次,用关键词搜索更容易理解为什么某个文档会被检索到——我们可以查看与查询匹配的关键词。相比之下,基于嵌入的检索则不那么可解释。最后,感谢像Lucene和OpenSearch这样的系统经过几十年的优化和实战测试,关键词搜索通常在计算效率上更高。 在大多数情况下,混合搜索效果最好:关键词匹配用于显而易见的匹配,嵌入用于同义词、上位词和拼写错误,以及多模态(如图像和文本)。Shortwave分享了他们如何构建RAG管道,包括查询重写、关键词+嵌入检索和排名。 优先使用RAG而非微调以获取新知识 RAG和微调都可以用于将新信息纳入LLM,并提高特定任务的性能。那么,应该先尝试哪个呢? 最近的研究表明,RAG可能占有优势。一项研究比较了RAG和无监督微调(又称连续预训练),在MMLU子集和当前事件上进行评估。他们发现,RAG在处理训练中遇到的知识和完全新知识方面, consistently outperformed…
SpaceX 计划今年秋季推出手机用 Starlink 系统
SpaceX 正计划在今年秋季推出其用于手机的 Starlink 系统,目前正在等待美国联邦通信委员会(FCC)的批准。 该公司在一份关于委员会新规则的文件中透露了目标发布日期,该规则涉及为美国运营商提供卫星连接,也称为“空间补充覆盖”。 SpaceX 在文件中写道:“SpaceX 支持委员会最近发布的 SCS 命令中的几乎所有内容,并期待今年秋季在美国推出商用直接到蜂窝的服务。” 这份文件还透露了 SpaceX 对“直接到蜂窝”Starlink 系统的长期目标,该系统将向地面上的未改装智能手机传输互联网数据,使其成为为蜂窝信号盲区用户服务的一种有用方式。 SpaceX 写道:“尽管目前 SpaceX 打算通过其补充覆盖网络提供文本、语音和网页浏览服务,但未来的创新可能会提供更强大的补充覆盖服务和增强功能。” 这项改进的服务不会取代地面移动网络,但会在这些网络不存在的地方提供增强的连接来源。 然而,SpaceX 表示,FCC 目前为手机提供卫星连接的框架存在一个障碍。该公司的文件敦促委员会放宽蜂窝卫星的频率总限额,特别是“一刀切的带外功率密度总限额”。 相反,SpaceX 支持用更具体的“带特定限制”来替代一刀切的限制,以帮助公司改善即将推出的蜂窝 Starlink 系统的覆盖和可靠性。 公司写道:“相比之下,全面的带外限额将不幸地削弱在紧急情况下提供强大覆盖的目标。” 同样的限制也可能阻止 SpaceX 开发蜂窝 Starlink 技术的未来创新。 公司补充道:“即使运营商能够在 SCS 命令中的总 PFD 限制下提供强大覆盖,满足如此严格的限制也需要卫星运营商减少网络覆盖和容量,或者显著抑制其信号以满足限制。” SpaceX 和其合作伙伴 T-Mobile(首个采用蜂窝 Starlink 技术的美国运营商)之前曾向 FCC 表示,频率限制过于严格。但在三月,FCC 指出,包括 AT&T、Verizon 和 Dish Network 在内的竞争对手游说委员会维持这一限制,理由是需要防止潜在的无线电干扰。 SpaceX 提交了这份文件,因为众多团体正在就 FCC 关于为手机提供卫星连接的框架发表意见。这其中包括科学家们担心 SpaceX…
AI 正在攻克难题——赋予计算机嗅觉
百年前的呼吁,今天的回应:机器嗅觉的革命性进展 一百多年前,亚历山大·格雷厄姆·贝尔在《国家地理》杂志上向读者发出大胆而新颖的倡议——“创立一门新科学”。他指出,基于声音和光的科学已经存在,但还没有关于气味的科学。贝尔呼吁读者“测量气味”。 如今,大多数人的口袋里都有智能手机,它们基于声音和光的科学提供了令人印象深刻的内置功能:语音助手、面部识别和照片增强。而关于气味的科学尚未提供类似的技术,但这种情况正在改变,机器嗅觉(也称为“数字化气味”)的进展终于响应了贝尔的号召。 研究机器嗅觉面临着人类嗅觉复杂性的巨大挑战。人类视觉主要依赖于视网膜中的感受细胞——视杆细胞和三种视锥细胞,而嗅觉是通过大约400种鼻腔中的感受细胞来体验的。 机器嗅觉从检测和识别空气中的分子开始,这些传感器的作用类似于人类鼻子的受体。然而,要对人类有用,机器嗅觉需要更进一步。系统需要知道某种分子或一组分子对人类来说闻起来像什么。为此,机器嗅觉需要机器学习。 将机器学习应用于气味 机器学习,特别是一种称为深度学习的机器学习,是语音助手和面部识别应用取得显著进展的核心。同样,机器学习也是数字化气味的关键,因为它可以学习将气味化合物的分子结构映射到文本气味描述。机器学习模型学习人类用来描述特定气味化合物的词汇,例如“甜”和“甜点”,用于描述遇到香草醛时的体验。 然而,机器学习需要大型数据集。网络上有海量的音频、图像和视频内容,可用于训练识别声音和图像的人工智能系统。但机器嗅觉长期面临数据短缺的问题,部分原因是大多数人无法像描述视觉和听觉那样轻松且清晰地描述气味。没有大规模数据集,研究人员无法训练出真正强大的机器学习模型。 重要的里程碑 2015年,情况开始改变,研究人员发起了DREAM嗅觉预测挑战赛。比赛发布了由研究嗅觉的生物学家安德烈亚斯·凯勒和莱斯利·沃斯豪尔收集的数据,并邀请全球团队提交他们的机器学习模型。这些模型必须根据分子结构预测气味标签,如“甜”、“花”或“果”。 表现最佳的模型于2017年在《科学》杂志上发表。一种称为随机森林的经典机器学习技术获胜,这种技术结合了多个决策树流程图的输出。 机器学习研究者对将机器学习应用于化学和精神病学有着长期兴趣。DREAM挑战赛激起了兴趣,同时也感受到对嗅觉的个人连接。家庭根源可追溯到印度北部的香水之都卡瑙杰,父亲是一名化学家,职业生涯大部分时间都在分析地质样本。机器嗅觉因此提供了在香水、文化、化学和机器学习交汇处的不可抗拒的机会。 进展加速 DREAM挑战赛结束后,机器嗅觉的进展开始加速。COVID-19大流行期间,报告了许多嗅觉丧失(或嗅觉障碍)的病例。通常不太被重视的嗅觉因此引起了公众的关注。此外,一个名为Pyrfume的研究项目使更多、更大规模的数据集公开可用。 到2019年,最大的数据库从DREAM挑战赛中的不到500种分子增长到约5000种分子。由Alexander Wiltschko领导的Google Research团队终于将深度学习革命引入了机器嗅觉。他们的模型基于一种称为图神经网络的深度学习类型,在机器嗅觉领域建立了最先进的成果。Wiltschko现在是Osmo公司的创始人兼CEO,该公司的使命是“赋予计算机嗅觉”。 最近,Wiltschko和他的团队使用图神经网络创建了“主要气味图”,在这个图中,感知上相似的气味比不相似的气味更接近。这并不容易:分子结构的微小变化可能导致嗅觉感知的巨大变化。相反,具有非常不同分子结构的两个分子可能闻起来几乎一样。 前景光明 破解气味代码的这种进展不仅在智力上令人兴奋,而且还具有高度前景的应用,包括个性化香水和香料、更好的驱虫剂、新型化学传感器、早期疾病检测和更逼真的增强现实体验。机器嗅觉的未来充满光明,也将带来美好的气味体验。
Nvidia的AI芯片新纪元:Blackwell Ultra和Rubin平台引领未来
Nvidia公司市值接近3万亿美元,正逐步赶超苹果。在最近的台湾Computex展会上,CEO黄仁勋宣布,公司将每年发布全新的AI芯片系列,其中2025年将推出Blackwell Ultra芯片,次年将推出名为Rubin的新一代平台。 此时,AI芯片市场竞争愈发激烈。虽然Nvidia依然遥遥领先,但老牌厂商如AMD和Intel正投入大量资源开发竞争解决方案,同时也有一批雄心勃勃的初创企业试图分一杯羹。 近期即将推出的Blackwell Ultra芯片将在明年发布。虽然有关Blackwell Ultra的具体细节尚未披露,但已知其将在8个站点中配备12Hi内存堆栈。然而,Nvidia路线图的重头戏是计划于2026年发布的Rubin平台。这一代以天文学家Vera Rubin命名的AI芯片架构将是AI处理能力的重大飞跃。 尽管具体细节尚未透露,但Rubin平台核心的GPU据称将在AI应用中提供更强大的性能和功能。预计Rubin R100 GPU将采用4倍掩膜设计。此外,Nvidia还将推出代号为Vera的全新中央处理器(CPU)。这款基于Arm架构的CPU预计将比现有产品提供显著的性能提升,进一步增强Rubin平台的整体处理能力。而新的Vera Rubin加速板将结合Rubin GPU和Vera CPU,专为数据中心应用设计,形成强大的集成解决方案。 此外,早前宣布的Spectrum X网络产品和Nvidia推理微服务(NIM)现已全面上市。这些微服务通过简化底层技术,加快AI服务的部署速度,Nvidia将在部署后收取使用费。预计2027年推出的Rubin Ultra GPU将支持先进的HBM4堆栈,符合Nvidia每年发布新品的节奏。 黄仁勋在评论时提到,“我们正面临计算膨胀”,他指出数据处理需求的指数增长,认为传统计算方法已不够用。他还声称Nvidia的技术可将成本降低98%,能耗减少97%。未来,为支持软件开发人员,Nvidia将提供处理复杂任务的新工具和预训练AI模型,例如决定数据是本地处理还是通过数据中心处理。此外,公司还通过MGX计划推出新服务器计算机设计,加速惠普企业和戴尔科技等公司的产品上市。
Google 解释AI 概览:关于上周的一些情况
几周前的 Google I/O 大会上,宣布了将 AI 概览功能推广至全美用户的计划。 用户反馈显示,使用 AI 概览后,人们对搜索结果的满意度更高,提出的问题也更长、更复杂,因为他们知道 Google 可以提供帮助。AI 概览成为用户访问网页内容的起点,网页点击的质量更高——人们更有可能停留在页面上,因为相关信息和有用网页得到了更好的推荐。 上周,社交媒体上出现了一些奇怪和错误的概览(以及大量伪造的截图)。用户信任 Google 搜索提供准确信息,他们也从不避讳指出排名或其他搜索功能中的怪异或错误之处。对于自身和用户都抱有很高的标准,因此期望并感谢这些反馈,并认真对待。 由于 AI 概览受到了关注,这里将解释发生了什么以及采取的措施。 AI 概览的工作原理 多年来,搜索中构建了许多功能,让人们更快找到所需信息。AI 概览进一步帮助解决那些可能需要多次搜索或跟进的问题,同时突出提供链接以供深入了解。 AI 概览与聊天机器人和其他大型语言模型(LLM)产品的工作方式非常不同。它们不是简单生成基于训练数据的输出。虽然 AI 概览由定制的语言模型驱动,但该模型与核心网页排名系统集成,旨在执行传统的“搜索”任务,如从索引中识别相关的高质量结果。因此,AI 概览不仅提供文本输出,还包括相关链接供用户进一步探索。因为在搜索中准确性至关重要,AI 概览仅展示由顶级网页结果支持的信息。 这意味着 AI 概览通常不会像其他 LLM 产品那样“幻想”或捏造信息。当 AI 概览出错时,通常是由于其他原因:误解查询、误解网页上的语言细微差别或缺乏大量优质信息(这些也是其他搜索功能会遇到的挑战)。 这种方法非常有效。总体而言,测试表明,AI 概览的准确率与搜索中的另一项受欢迎功能——精选摘要——相当,后者也使用 AI 系统识别并显示带有网页内容链接的关键信息。 关于那些奇怪的结果 除了设计 AI 概览以优化准确性外,还在发布前对该功能进行了广泛测试。这包括严格的红队测试、对典型用户查询样本的评估以及对部分搜索流量的测试,以查看其表现如何。但没有什么能比得上数百万人使用该功能并进行许多新奇搜索的情况。还观察到一些无意义的新搜索,似乎旨在产生错误结果。 另外,网上还广泛分享了大量伪造的截图。这些伪造结果有些明显且愚蠢,有些则暗示返回了关于在车内放置狗、怀孕时吸烟和抑郁等话题的危险结果。但这些 AI 概览从未出现过。因此,建议遇到这些截图的任何人自行搜索以验证。 确实出现了一些奇怪、不准确或无用的 AI 概览。虽然这些通常是针对用户不常见的查询,但也突显了一些需要改进的具体领域。 已做出的改进 在改进搜索时,不仅仅是逐个“修复”查询,而是进行可以帮助广泛查询的更新,包括以前未见过的新查询。 通过过去几周的示例,确定了未能正确处理的模式,并对系统进行了十多项技术改进。以下是已采取的一些措施: 对于新闻和健康等话题,已经有强有力的保护措施。例如,目标是避免在涉及时效性和事实性重要的热点新闻话题中显示 AI 概览。在健康话题中,推出了额外的触发优化,以增强质量保护。…
Adversarial Nibbler挑战:与多元社区持续开展开放红队测试
Adversarial Nibbler:解锁生成式T2I模型的潜力与安全性 生成式文本到图像(T2I)模型拥有合成高质量图像的巨大潜力,但其创造性也可能带来有害内容。最近的数据中心挑战,如CATS4ML和Dynabench,已通过众包真实数据更全面地测试AI模型的安全性。此外,HuggingFace、NVIDIA和Microsoft等公司开展的红队测试,使得系统性探测和测试大型预训练模型以识别漏洞,进而防止潜在的有害输出成为可能。红队测试是负责任的机器学习开发的关键部分,有助于发现危害并促进缓解措施。然而,现有的红队测试通常在特定机构内私下进行,并且在确定适当的安全防护措施时可能不寻求社区输入。这可能导致红队测试忽略细微或不明显的危害。 T2I模型的安全性进展已经成功缓解了许多明显的故障模式,如用户明确描述有害图像的情况。然而,对付不太明显的对抗性攻击仍然是一个挑战。这些攻击被称为隐式对抗性,因为它们不包含现有安全过滤器可以检测到的显式对抗性攻击或触发器。这些情况包括用户试图欺骗模型生成有害图像或使用敏感身份术语以揭示模型的隐藏偏见。例如,“a person sleeping in a pool of red paint”替代了显式对抗性短语“dead”,用视觉上类似的描述“sleeping in a pool of red paint”来表达。并非所有隐式对抗性提示都表明用户有意生成有害图像,因此关注隐式对抗性可以解决善意用户可能遇到的潜在危害。 为了解决这些问题,Adversarial Nibbler挑战被宣布。这一挑战是与多家学术机构(如苏黎世大学、哈佛大学、卡内基梅隆大学、牛津大学)和工业合作伙伴(如Cohere)共同努力,由MLCommons、Kaggle和Hugging Face支持的项目。该挑战利用“Adversarial Nibbler:识别文本到图像生成中多样性危害的开放红队测试方法”中概述的红队测试方法,寻求社区输入并建立多样的隐式对抗性提示集,以捕捉标准测试中可能被忽视的长尾安全问题。虽然大多数数据中心基准和挑战都旨在审核单一模态下的显式对抗性模型弱点,Adversarial Nibbler则关注多模态上下文中的隐式对抗性,其中输入文本提示看起来是安全的,但生成的图像不安全。隐式对抗性提示为全面评估模型在有害图像生成或长尾问题中的鲁棒性提供了新途径。 Adversarial Nibbler红队测试 Adversarial Nibbler的红队测试提供了一个基于网页的用户界面,用于收集隐式对抗性提示并对T2I模型进行压力测试。任何有兴趣的人都可以通过注册挑战成为志愿者。注册后,参与者可以输入新的提示或查看和选择他们以前使用的提示。一旦输入提示,用户可以看到多达12个T2I模型生成的图像。如果用户在生成的图像中发现安全违规行为,他们可以选择并对提示和图像进行注释。在注释过程中,用户需要回答四个问题,例如他们在提示中使用的攻击模式以及图像中所代表的危害。完成后,用户可以点击“提交”按钮记录他们的发现。这个三步流程会重复进行,每个提示图像对都进行识别和记录。参与者如果对内容感到不适,可以随时停止参与。 持续的红队测试与未来发展 Adversarial Nibbler挑战旨在通过吸引广泛的研究社区帮助识别有害图像生产中的盲点。Adversarial Nibbler团队集合了一套公开可用的最先进的T2I模型(托管在Hugging Face),并吸引了地理上多样的人群以捕捉隐式提示。通过简单的用户界面来识别和注释危害,重点探索那些无法通过自动化测试方法轻易发现的长尾问题。Adversarial Nibbler鼓励志愿者提交提示,生成图像,并提供注释,描述识别出的危害。比赛结构通过公共的匿名排行榜激励提交。 在2023年7月1日至10月10日的首轮挑战中,收到了1500对提示-图像对的提交。然而,提交的地理多样性不足,超过70%的参与者来自北美和欧洲,亚洲和拉丁美洲的参与者很少,非洲的参与者则没有。为了解决这个问题,Adversarial Nibbler在2023年10月16日至2024年1月31日期间在撒哈拉以南非洲地区开展了第二轮比赛。通过在加纳和尼日利亚的开发者会议上组织活动、互动信息会和网络研讨会来吸引当地社区。参与者还可以表达对参加黑客马拉松的兴趣,并在办公时间提问。团队还在拉各斯组织了面对面的活动,以促进参与者之间的合作和想法交流。 这次有针对性的努力增加了该地区的覆盖,使数据得到了3000个文化相关的示例。约75%的参与者来自撒哈拉以南非洲,代表了14个国家。地理位置的变化反映在提示的语言和框架中。大约3%的提示使用了各种非洲语言,如约鲁巴语、伊博语、斯瓦希里语、英语俚语和豪萨语。此外,提示中更多地使用了非洲形容词,例如“Yoruba”(尼日利亚的一个民族)、“Igbo”(尼日利亚的一个民族)和“Ga”(加纳的一个民族)。第二轮比赛帮助识别和缓解了由撒哈拉以南非洲特定术语引发的危害。 安全感因文化背景而异。例如,一些参与者发现由英语俚语提示生成的猫眼图像在当地被认为是不安全的,因为猫与巫术有关,可能会吓到儿童或有迷信信仰的人。为了识别潜在漏洞,参与者还测试了用非洲语言表达的提示。 Adversarial Nibbler挑战代表了一种框架,使得主动、迭代的安全评估成为可能,并通过社区参与的方法促进文本到图像模型的负责任开发。团队还承诺建立持续收集示例的努力,以便随着时间的推移更新基准。 研究人员和开发者可以使用这些资源来审核和改进T2I模型的安全性和可靠性,并测试现有安全过滤器的充分性。Adversarial Nibbler挑战为不断发现“未知的未知”提供了宝贵的社区洞察。团队正在分析在挑战期间收集的数据,并计划进一步扩大这一举措,通过在撒哈拉以南非洲和南亚地区的进一步推广,以确保文化敏感的AI开发。 更多详情请访问Adversarial Nibbler网站或阅读相关论文。对于问题或合作,请联系团队:dataperf-adversarial-nibbler@googlegroups.com。
Computex 官宣NVIDIA NIM:AI开发者的神器,助你轻松构建生成式AI应用
今天在COMPUTEX大会上,NVIDIA宣布全球2800万开发者现在可以下载NVIDIA NIM™。这是一种推理微服务,提供优化容器中的模型,能在云端、数据中心或工作站上部署,让开发者能够轻松构建生成式AI应用,如协同助手、聊天机器人等,仅需几分钟而非几周。 如今的生成式AI应用越来越复杂,往往需要多个具有不同生成文本、图像、视频、语音等能力的模型。NVIDIA NIM大大提升了开发者的生产力,提供了一种简单、标准化的方式,将生成式AI添加到他们的应用中。 NIM还帮助企业最大化基础设施投资。例如,使用NIM运行Meta Llama 3-8B模型,可以在加速基础设施上生成多达3倍的生成式AI令牌,比不使用NIM效率高出许多。这让企业能在使用相同计算资源的情况下,生成更多响应。 近200家科技合作伙伴,包括Cadence、Cloudera、Cohesity、DataStax、NetApp、Scale AI和Synopsys,正在将NIM集成到他们的平台中,加速生成式AI在特定领域应用的部署,例如协同助手、代码助手和数字人类头像。Hugging Face也提供了NIM,起步于Meta Llama 3。 NVIDIA创始人兼CEO黄仁勋表示:“每个企业都希望在其运营中加入生成式AI,但并非每个企业都有专门的AI研究团队。NVIDIA NIM集成到各个平台中,开发者随时随地都能访问,使每个组织都能触及生成式AI。” 企业可以通过NVIDIA AI Enterprise软件平台,在生产中部署NIM AI应用。下个月起,NVIDIA开发者计划的成员可以免费访问NIM,在他们喜欢的基础设施上进行研究、开发和测试。 NIM微服务加速生成AI模型NIM容器预构建加速了GPU推理模型的部署,可以包含NVIDIA CUDA®软件、NVIDIA Triton Inference Server™和NVIDIA TensorRT™-LLM软件。 超过40个NVIDIA和社区模型可作为NIM端点在ai.nvidia.com上体验,包括Databricks DBRX、Google的开源模型Gemma、Meta Llama 3、Microsoft Phi-3、Mistral Large、Mixtral 8x22B和Snowflake Arctic。 开发者现在可以从Hugging Face AI平台访问NVIDIA NIM微服务的Meta Llama 3模型。使用Hugging Face推理端点,只需几次点击,就能在其首选云上轻松访问和运行Llama 3 NIM。 企业可以使用NIM运行生成文本、图像和视频、语音和数字人类的应用。使用NVIDIA BioNeMo™ NIM微服务进行数字生物学研究,研究人员可以构建新蛋白质结构,加速药物发现。 数十家医疗公司正在部署NIM,用于一系列应用,包括手术规划、数字助手、药物发现和临床试验优化。 有了新的NVIDIA ACE NIM微服务,开发者可以轻松构建和操作互动、逼真的数字人类应用,用于客户服务、远程医疗、教育、游戏和娱乐。 数百家AI生态系统合作伙伴嵌入NIM平台提供商包括Canonical、Red Hat、Nutanix和VMware(被博通收购),都在开放源码KServe或企业解决方案中支持NIM。AI应用公司Hippocratic AI、Glean、Kinetica和Redis也在部署NIM,推动生成式AI推理。 领先的AI工具和MLOps合作伙伴,包括Amazon SageMaker、Microsoft Azure AI、Dataiku、DataRobot、deepset、Domino…
NVIDIA发布重磅AI创新,黄仁勋在COMPUTEX大会预示计算未来
NVIDIA创始人兼CEO黄仁勋在台北举办的本周COMPUTEX科技大会前夕发表演讲,指出生成式AI正重塑各行各业,开辟新的创新和增长机会。 黄仁勋身穿标志性的黑色皮夹克,对超过6500名行业领袖、媒体、企业家、游戏玩家、创作者和AI爱好者说:“今天,我们正处在计算的重大转折点。AI和加速计算的交汇将重新定义未来。” 加速计算的未来 黄仁勋在演讲中强调,NVIDIA的加速平台已经全面投入生产,从搭载NVIDIA RTX功能的AI PC和消费设备到企业构建和部署的AI工厂,NVIDIA的全栈计算平台正在推动下一波技术进步。他表示:“计算的未来是加速的。通过我们在AI和加速计算方面的创新,我们正在突破可能性的边界,推动下一波技术进步。” 一年一节奏 黄仁勋还透露了新的半导体路线图,Rubin平台将继承即将推出的Blackwell平台,配备新的GPU、新的基于Arm的CPU Vera以及先进的网络技术NVLink 6、CX9 SuperNIC和X1600融合InfiniBand/Ethernet交换机。他解释说:“我们公司的节奏是一年一次。我们的基本理念很简单:建立整个数据中心规模,解耦并每年向您销售部件,并将一切推向技术极限。” 可持续的加速计算 黄仁勋在演讲中强调了加速计算的可持续性,他指出,GPU和CPU的结合可以在仅增加三倍功耗的情况下提供高达100倍的加速性能,实现比单独使用CPU高出25倍的每瓦性能。他说:“购买越多,节省越多”,强调这种方法显著的成本和能源节约。 行业内的合作 全球顶级计算机制造商,特别是来自全球IT中心台湾的公司,如ASRock Rack、ASUS、GIGABYTE、Ingrasys、Inventec、Pegatron、QCT、Supermicro、Wistron和Wiwynn等,已经采用了NVIDIA的GPU和网络解决方案,创建了云、现场和边缘AI系统。 未来的网络技术 在网络方面,黄仁勋公布了每年发布Spectrum-X产品的计划,以满足对高性能以太网网络的不断增长的需求。NVIDIA Spectrum-X是首个为AI设计的以太网结构,其网络性能比传统以太网结构高出1.6倍,加速了AI工作负载的处理、分析和执行。 AI开发者的新工具 借助NVIDIA NIM,全球2800万开发者现在可以轻松创建生成式AI应用程序。NIM——提供优化容器模型的推理微服务——可以部署在云、数据中心或工作站上。NIM还使企业能够最大限度地利用其基础设施投资,例如,在加速基础设施上运行Meta Llama 3-8B时,生成的AI令牌数量最多可增加3倍。 AI助手与机器人技术 NVIDIA的RTX AI PC通过RTX技术提供支持,旨在通过超过200款RTX AI笔记本电脑和500多款AI驱动的应用程序和游戏彻底改变用户体验。NVIDIA Isaac平台为开发人员提供了构建AI机器人的强大工具包,包括AMR、工业机械臂和类人机器人,使用如Jetson Orin和Thor等超级计算机。 黄仁勋总结道:“机器人技术已经到来。物理AI已经到来。这不是科幻小说,它正在台湾各地使用。这真的非常令人兴奋。” 全球电子巨头正在将NVIDIA的自主机器人技术集成到他们的工厂中,通过Omniverse进行仿真测试和验证这一新一波的物理世界AI应用。 黄仁勋的演讲以感谢台湾和NVIDIA在那里的众多合作伙伴结束。他说:“谢谢你们,我爱你们。”
Microsoft的Copilot现已登陆Telegram
Telegram Business: 迎战Meta,推出全新商务功能及广告收益分享 即时通讯应用Telegram正准备通过一系列面向企业的新功能和广告收益分享,迎战Meta旗下的WhatsApp和Messenger。官方宣布,新功能于本周末正式上线,Telegram Business引入了定制化启动页、设置营业时间、使用预设回复、问候和离开消息、聊天机器人、聊天标签等选项。 与此同时,Telegram公共频道的订阅者数量达到至少1000人的频道,现在可以从其频道中显示的广告中获得50%的收益。 这些功能的推出恰逢Telegram创始人Pavel Durov在接受《金融时报》采访时表示,他预计这款应用将在2025年实现盈利。Telegram目前拥有超过9亿用户,Telegram Business显然是推动盈利的一部分,为未来的IPO铺路,因为这项服务要求用户订阅付费的Premium版本才能访问。 Telegram Premium与增长 Telegram Premium是一个包含升级功能的捆绑包,每月收费4.99美元,适用于iOS和Android设备,并提供三个月、六个月或一年期的计划。(Premium还可以通过Android、桌面和Mac上的@PremiumBot应用内购买,以折扣价购买,因为Telegram不需要与应用商店分享佣金。) 截至2022年12月,Telegram Premium的订阅用户首次突破100万。2024年1月,Durov宣布Premium订阅用户已增长至500万,比前一个月增加了100万,表明订阅用户的增长正在加速。 Telegram Business可能会进一步推动Premium的增长,因为它提供了无需编程知识即可使用的工具和功能,适用于企业客户。 Telegram Business功能亮点 例如,企业可以选择在地图上显示其营业时间和位置,并为客户提供一个定制的启动页,在空白聊天页面上显示用户在开始对话之前看到的文本和贴纸。类似于WhatsApp的功能,Telegram Business将提供“快速回复”,即支持格式化、链接、媒体、贴纸和文件的预设消息快捷方式。 企业还可以为首次与公司互动的客户设置自定义的问候消息,并可以指定在一段时间后再次显示问候消息。通过离开消息功能,企业可以在休息或负责人度假期间管理其可用性。 此外,企业可以根据聊天文件夹使用彩色标签分类其聊天,例如配送、索赔、订单、VIP、反馈等。 企业还可以创建聊天链接,这些链接将即时打开Telegram聊天,并请求采取诸如追踪订单或预订桌位等行动。企业客户还可以添加Telegram机器人,包括其他工具或AI助手,以代替回答消息。 公司表示,未来更新中将推出更多Telegram Business功能。Durov本月早些时候已暗示了这些功能,Telegram计划为企业用户推出AI驱动的聊天机器人。 总体而言,这些功能可能会在Meta的Messenger、Instagram和WhatsApp等应用占据的商务通信市场引入竞争。即使是Apple也仅在该领域占据一小部分市场,其Apple Messages for Businesses被Shopify、Aramark、Four Seasons等公司使用。 尽管访问Telegram的新商业功能需要订阅Premium,但启用这些新选项并不需要额外费用。(可以在应用的设置 > Telegram Business下找到它们。) 除了通过Premium订阅盈利,公司还通过Telegram Ads广告盈利;最近宣布使用toncoin(TON区块链上的代币)进行广告收益分享。公司表示,周日已开始广告收益分享计划。 此前,Telegram曾尝试使用TON区块链拍卖用户名,并在美国以外的所有市场推出加密钱包。