OpenAI正面临资金短缺的传闻,但这并未阻止这家领先的生成式人工智能公司继续发布一系列新模型和更新。昨天,OpenAI悄悄地发布了一个网页,宣布推出一款新的大语言模型(LLM):GPT-4o Long Output。这是五月推出的GPT-4o模型的变体,但输出大小大幅增加:从最初的4,000个tokens扩展到64,000个tokens,增加了16倍。 为了回应客户对更长输出上下文的需求,OpenAI决定引入这种扩展的输出功能。一位OpenAI发言人向VentureBeat解释说:“我们听到了客户希望有更长输出上下文的反馈。我们一直在测试如何最好地服务于客户的需求。”Alpha测试阶段预计将持续几周,OpenAI将收集数据以评估扩展输出是否有效满足用户需求。 GPT-4o Long Output模型在处理要求详细和广泛输出的应用中具有特别的优势,如代码编辑和写作改进。通过提供更长的输出,GPT-4o模型可以提供更全面和细致的响应,从而显著提升这些用例的效果。 GPT-4o模型自发布以来,已经提供了最大128,000的上下文窗口——即模型在一次交互中可以处理的tokens总量,包括输入和输出tokens。对于GPT-4o Long Output,这一最大上下文窗口保持在128,000。但是,OpenAI能够将输出tokens从4,000增加到64,000,而总的上下文窗口仍保持在128,000。 这种扩展输出的能力让用户或开发者可以选择:是优先更长的LLM响应,还是保持更多的输入tokens。在所有情况下,用户或开发者都必须做出选择或权衡:他们是否愿意牺牲一些输入tokens来换取更长的输出?对于希望获得更长答案的用户,GPT-4o Long Output现在提供了这一选项。 新的GPT-4o Long Output模型的定价如下: 相比之下,常规GPT-4o的定价为每100万个输入tokens 5美元和每100万个输出tokens 15美元,而新的GPT-4o mini为每100万个输入tokens 0.15美元和每100万个输出tokens 0.60美元。可以看出,GPT-4o Long Output的定价相当激进,继续了OpenAI最近的主张,即希望使强大的AI对广大开发者用户群体变得负担得起且易于访问。 目前,这一实验性模型的访问权限仅限于少数可信的合作伙伴。发言人补充道:“我们正在与少量可信的合作伙伴进行几周的alpha测试,以查看更长的输出是否有助于他们的用例。”根据这一测试阶段的结果,OpenAI可能会考虑向更广泛的客户群体开放这一功能。 正在进行的alpha测试将提供有关扩展输出模型的实际应用和潜在好处的宝贵见解。如果初始合作伙伴的反馈积极,OpenAI可能会考虑更广泛地开放这一功能,使更多用户能够受益于增强的输出能力。显然,OpenAI希望通过GPT-4o Long Output模型,解决更多客户需求,并支持需要详细响应的应用。
发布Meta Segment Anything Model 2 (SAM 2):开启图像和视频分割的新时代
下载模型:https://github.com/facebookresearch/segment-anything-2 下载数据:https://ai.meta.com/datasets/segment-anything-video/ 试试:https://sam2.metademolab.com/ 下载文章:https://ai.meta.com/research/publications/sam-2-segment-anything-in-images-and-videos/ 继Meta Segment Anything Model (SAM) 在图像分割领域取得成功之后,Meta发布了SAM 2,这是一款用于图像和视频的实时可提示对象分割的统一模型,达到了业界最先进的性能。为了促进开放科学,Meta分享了SAM 2的代码和模型权重,并采用了宽松的Apache 2.0许可证。此外,Meta还发布了SA-V数据集,该数据集包含大约51,000个真实世界的视频和超过600,000个空间时间掩码。 SAM 2具备在任何视频或图像中分割任何对象的能力,即使是以前未见过的对象和视觉域,这使得其能够应用于各种无需定制适应的用例。SAM 2在图像分割精度上超过了之前的能力,并在视频分割性能上优于现有的工作,同时需要的交互时间减少了三倍。SAM 2的多种潜在应用包括与生成视频模型结合以创建新的视频效果,帮助建立更好的计算机视觉系统的快速注释工具,以及在科学研究中追踪显微镜拍摄的视频中的移动细胞。 为了保持开放科学的理念,Meta将SAM 2的研究与社区分享,使他们能够探索新的能力和用例。Meta分享的资源包括采用Apache 2.0许可证开源的SAM 2代码和权重,采用BSD-3许可证开源的SAM 2评估代码,以及SA-V数据集。SA-V数据集比现有最大的在线视频分割数据集大4.5倍,包含约51,000个真实世界视频和超过600,000个掩码。Meta还发布了一个基于网页的演示,允许实时交互分割短视频并应用视频效果。 在视频分割任务中,SAM 2能够在视频的任何帧中选择和细化对象。SAM 2的架构可以看作是SAM从图像领域到视频领域的推广,通过存储和使用以前处理过的视频信息,实现对对象的准确分割。SAM 2的流式架构使其能够实时处理任意长度的视频,对于数据注释和实际应用如机器人技术具有重要意义。 Meta通过SAM 2在循环中的交互式模型设置与人类注释员合作,收集了一个大而多样的视频分割数据集。注释员使用SAM 2互动注释视频中的掩码,然后用新注释的数据更新SAM 2。这个循环反复进行,多次迭代后,模型和数据集都得到了改进。与SAM相比,使用SAM 2进行注释的速度快了8.4倍,并显著快于将SAM与现成的跟踪器结合使用。 在研究中,SAM 2在17个零样本视频数据集上的互动视频分割表现显著优于以前的方法,同时需要的人工交互减少了约三倍。SAM 2在其23个数据集的零样本基准套件上优于SAM,同时速度快了六倍。在现有视频对象分割基准(如DAVIS、MOSE、LVOS、YouTube-VOS)上,SAM 2相较于之前的最先进模型表现更佳。SAM 2在循环中的视频分割注释速度比使用SAM逐帧注释快了8.4倍。 尽管SAM 2在分割图像和短视频中的对象表现出色,但在一些挑战性场景下仍有改进空间。比如,在剧烈的相机视角变化、长时间遮挡、拥挤场景或长视频中,SAM 2可能会失去对对象的跟踪。Meta通过设计交互式模型并允许在任何帧上进行手动干预,部分缓解了这一问题。 总之,Meta希望通过发布SAM 2和相关资源,推动开放科学的发展,促使AI社区共同探索新能力和应用场景,从而创造更多有益于社会和人类的技术。
苹果宣布其AI模型使用谷歌处理器进行预训练
苹果公司周一宣布,其AI系统Apple Intelligence的基础模型是在谷歌设计的处理器上进行预训练的,这表明科技巨头们正在寻找Nvidia之外的替代方案来训练最前沿的AI技术。 苹果在一篇刚刚发布的技术论文中详细描述了选择谷歌自主研发的张量处理单元(TPU)进行训练的过程。此外,苹果还在周一为部分设备发布了Apple Intelligence的预览版。 Nvidia昂贵的图形处理单元(GPU)主导了高端AI训练芯片市场,过去几年需求量非常大,难以在所需数量上采购。OpenAI、微软和Anthropic都在使用Nvidia的GPU进行模型训练,而包括谷歌、Meta、甲骨文和特斯拉在内的其他科技公司也在抢购这些GPU来构建其AI系统和产品。 Meta首席执行官马克·扎克伯格和Alphabet首席执行官桑达尔·皮查伊上周都表示,他们的公司以及行业内的其他公司可能在AI基础设施上投入过多,但承认不这样做的商业风险太高。 扎克伯格在与彭博社记者Emily Chang的播客中说:“落后的后果是你将错过未来10到15年内最重要的技术。” 苹果在其47页的论文中没有提到谷歌或Nvidia,但指出其Apple Foundation Model(AFM)和AFM服务器是在“云TPU集群”上训练的。这意味着苹果租用了云提供商的服务器来进行计算。 “该系统使我们能够高效且可扩展地训练AFM模型,包括AFM-on-device、AFM-server和更大的模型,”苹果在论文中表示。 苹果和谷歌的代表未回应置评请求。 苹果比许多同行更晚公开其AI计划,这些同行在OpenAI于2022年底推出ChatGPT后不久就大力拥抱生成式AI。周一,苹果推出了Apple Intelligence。该系统包括几个新功能,如Siri的全新外观、更好的自然语言处理和文本字段中的AI生成摘要。 在接下来的一年中,苹果计划推出基于生成式AI的功能,包括图像生成、表情符号生成以及能够访问用户个人信息并在应用内执行操作的增强版Siri。 在周一的论文中,苹果表示,AFM on-device是在一片由2048个TPU v5p芯片共同工作的“切片”上训练的。这是最先进的TPU,首次发布于去年12月。AFM-server是在8192个TPU v4芯片上训练的,这些芯片通过数据中心网络配置为八片共同工作。 谷歌官网显示,最新的TPU在提前预订三年时,每小时使用成本不到2美元。谷歌于2015年首次推出其TPU用于内部工作负载,并于2017年向公众开放使用。现在它们已成为最成熟的人工智能定制芯片之一。 尽管如此,谷歌仍是Nvidia的最大客户之一。它在训练AI系统时使用Nvidia的GPU和自己的TPU,还在其云平台上出售Nvidia技术的访问权限。 苹果此前表示,推理,即使用预训练的AI模型生成内容或进行预测,将部分在其数据中心的苹果自有芯片上进行。 这是苹果关于其AI系统的第二篇技术论文,第一篇较为通用的版本于今年6月发布。苹果当时表示,在开发AI模型时使用了TPU。 苹果定于周四收盘后公布季度财报。
Canva收购Leonardo.ai,增强生成式AI技术能力
Canva收购Leonardo.ai,扩展其生成式AI技术堆栈 Canva宣布收购生成式AI内容和研究初创公司Leonardo.ai,以扩大其AI技术堆栈的范围。尽管交易的财务条款未公开,但Canva联合创始人兼首席产品官Cameron Adams表示,这是一笔现金和股票混合的交易。Leonardo.ai的120名员工,包括高管团队,都会加入Canva。 “Leonardo将继续独立于Canva运营,专注于快速创新、研究和开发,现在有了Canva的资源支持,”Adams告诉TechCrunch。“我们将继续提供Leonardo的所有现有工具和解决方案。此次收购旨在帮助Leonardo开发其平台,并通过我们的投资,包括扩展其API业务和投资基础模型研发,深化其用户增长。” 总部位于悉尼的Leonardo.ai成立于2022年,最初专注于视频游戏资产创建——该初创公司的创始人是在一家视频游戏公司工作时相识的。后来,Leonardo.ai的团队决定扩展平台以满足更多场景需求,如为时尚、广告和建筑等行业创建和训练AI模型。 目前,Leonardo.ai提供协作工具和模型的私有云,包括视频生成器,以及访问API,让客户能够在Leonardo.ai的平台上构建自己的技术基础设施。 Leonardo.ai的创新特点 Leonardo.ai的团队表示,该平台通过为用户提供大量控制来与其他生成式AI艺术平台区分开来。例如,Leonardo.ai的Live Canvas功能允许用户输入文本提示,然后快速绘制他们想要的最终结果的草图。用户绘制时,Leonardo.ai会根据文本和草图提示实时生成一个逼真的图像。 虽然不清楚Leonardo.ai如何训练其内部生成模型,如其旗舰模型Phoenix,但这对于任何生成式AI服务来说都是一个重要问题,考虑到在未经许可的情况下训练模型会带来法律后果。Leonardo.ai的公关对此含糊其辞,仅表示模型是在“许可的、合成的和公开可用/开源数据”上训练的。 Canva本身在支持创作者采用生成式AI方面相对积极,承诺在未来几年内投入2亿美元,以支付那些同意使用其内容训练公司AI模型的创作者。 加大对AI的投资以推动增长 Leonardo.ai拥有超过1900万注册用户,其工具已用于创建超过十亿张图片。Adams表示,Leonardo.ai将帮助Canva的Magic Studio生成式AI套件做出贡献。该公司在被收购前已从包括Smash Capital、Blackbird、Side Stage Ventures、TIRTA Ventures、Gaorong Capital和Samsung Next在内的支持者那里筹集了超过3880万美元的资金。 “我们将寻求将Leonardo的技术整合到Magic Studio中,这让我们非常兴奋,”Adams说。“这可能包括使现有的Magic Studio工具更强大,或者在Canva中直接引入由Leonardo的模型提供支持的新生成式AI功能。目前还在早期阶段,我们将立即合作确定具体的实施方式,但我们非常期待扩展用户在Canva上使用AI的能力。” 自2022年12月以来,Canva一直在投资生成式AI工具,首先推出了写作助手Magic Write。为了准备IPO,Canva在最近几个月通过内部项目和收购加快了开发力度。2021年2月,Canva收购了Kaleido,该公司为图像和视频提供拖放背景移除服务。Adams表示,Kaleido为Canva最近的许多生成式AI努力奠定了基础。 其他收购 Leonardo.ai是Canva的第八次收购,也是今年的第二次收购,此次收购距离其以约3.8亿美元收购英国设计公司Affinity仅三个月。Canva还拥有演示初创公司Zeetings、免费图库网站Pixabay和Pexels以及捷克的产品模拟应用Smartmockups。 成立于2012年的Canva已经筹集了超过5.6亿美元(最近一次估值为260亿美元),年收入接近20亿美元。其全球每月活跃用户超过1.8亿。 “这是我们努力构建最强大的全功能视觉AI产品的一个重要但自然的下一步,”Adams说。“我们一直专注于构建一个包括生成式解决方案(如图像和设计生成)的AI驱动工作流。将这种Canva工作流与新的生成能力结合起来,将帮助我们继续将我们的AI产品与众不同,并为越来越多使用Canva的团队和企业提供新的可能性。”
苹果公司宣布推迟AI功能发布,延后至10月
苹果公司宣布其即将推出的人工智能(AI)功能将推迟发布,不会在新款iPhone和iPad软件更新的初期版本中包含这些功能。原计划与iOS 18和iPadOS 18在9月发布的Apple Intelligence功能,现在预计将于10月向客户推出。然而,苹果将通过iOS 18.1和iPadOS 18.1测试版向软件开发者提前提供这些AI功能。 据彭博社报道,推迟AI功能的决定是为了确保消费者发布的顺利进行,并解决技术稳定性方面的担忧。通过给予开发者更多时间进行测试和解决问题,苹果希望避免出现重大漏洞或故障。公司还计划在未来几年内通过多次更新iOS 18,逐步推出完整的Apple Intelligence功能。 Apple Intelligence包括多种功能,如通知优先级排序、网页和语音笔记摘要、写作工具、改进版的Siri以及与OpenAI的ChatGPT集成。然而,即使AI功能随iOS 18.1和iPadOS 18.1发布,部分功能(包括Siri的重大变化)仍将缺失。 推迟Apple Intelligence功能的发布,正值苹果公司努力在快速增长的AI领域中竞争之际。公司认为,新功能可能有助于推动即将推出的iPhone 16型号的销售,这些型号预计在设计上只有细微变化。通过软件相关的增强和更快的芯片,苹果希望借助新设备的AI功能吸引顾客。 PYMNTS报道称,科技巨头和初创公司在AI领域的重大进展和竞争正在加剧。微软的Bing正在推出生成式搜索功能,以与谷歌的AI驱动产品竞争。OpenAI也推出了名为SearchGPT的原型,旨在增强信息检索能力。AI驱动的配送机器人,如Vayu Robotics,正在通过承诺降低配送成本来重塑电商物流。此外,由AI先驱李飞飞创立的初创公司World Labs,在短短四个月内达到了10亿美元的独角兽估值,公司专注于教计算机理解3D世界。AI与边缘计算的整合也在加速发展,具有在零售和制造业中的潜在应用。 随着AI热潮的持续,监管机构也在迅速适应并解决潜在的反垄断问题。美国、欧盟和英国的竞争监管机构联手应对市场集中和反竞争行为的担忧,特别关注控制关键AI资源和审查科技巨头的投资。然而,Meta对欧盟严格的AI监管表示担忧,警告欧洲与世界其他地区之间可能出现“技术差距”。
AI工作流程设计的自动化优化:微软与斯坦福的新成果 – Trace
设计AI应用(如聊天机器人和编码助手)的计算工作流程非常复杂,因为需要管理许多异构参数,如提示和机器学习超参数。部署后的错误需要手动更新,增加了挑战性。该研究探讨了旨在自动化设计和更新这些工作流程的优化问题。由于其复杂性,涉及相互依赖的步骤和半黑盒操作,传统的优化技术(如贝叶斯优化和强化学习)往往效率不足。虽然提出了基于LLM的优化器以提高效率,但大多数仍依赖标量反馈,并处理仅包含单一组件的工作流程。 微软研究院和斯坦福大学的研究人员提出了一个名为Trace的框架,用于自动化设计和更新AI系统(如编码助手和机器人)。Trace将计算工作流程视为类似于神经网络的图结构,并使用Trace Oracle优化(OPTO)优化异构参数。Trace高效地将工作流程转换为OPTO实例,使通用优化器OptoPrime能够基于执行轨迹和反馈迭代更新参数。这种方法提高了跨多个领域的优化效率,在提示优化、超参数调整和机器人控制器设计等任务中表现优异,超过了专门优化器。 现有框架如LangChain、Semantic Kernels、AutoGen和DSPy主要通过标量反馈和黑盒搜索技术来组合和优化计算工作流程。而Trace不同的是,它使用执行追踪进行自动优化,将计算图泛化以适应各种工作流程。Trace的OPTO框架支持提示、超参数和代码的联合优化,提供丰富的反馈,并动态适应工作流程结构的变化。它将自动微分原则扩展到不可微工作流程,实现高效的自适应代理和通用优化,且在多个任务中超越了专门优化器。 OPTO构成了Trace的基础,定义了一个用于迭代优化的基于图的抽象。计算图是一个DAG,其中节点表示对象,边表示输入输出关系。在OPTO中,优化器选择参数,Trace Oracle返回包含计算图和输出输入的轨迹反馈。此反馈可以包括分数、梯度或自然语言提示。优化器使用这些反馈来迭代更新参数。与黑盒设置不同,执行轨迹提供了到输出的清晰路径,使参数更新更加高效。Trace利用OPTO通过抽象设计和领域特定组件来优化各种工作流程。 基于LLM的优化算法OptoPrime是为OPTO问题设计的。它利用LLM的编码和调试能力来处理执行轨迹子图。Trace反馈是一种伪算法,允许LLM建议参数更新。OptoPrime包括一个内存模块,用于跟踪过去的参数反馈对,增强鲁棒性。实验表明,OptoPrime在数值优化、交通控制、提示优化和长时间跨度机器人控制任务中的有效性。OptoPrime在利用执行轨迹信息和记忆方面表现出优异性能,优于其他优化器。 Trace将计算工作流程优化问题转化为OPTO问题,并通过OPTO优化器OptoPrime有效地展示了这一点。这标志着向新优化范式迈出了初步步骤,并具有多种未来方向。LLM推理的改进,如链式思维、少样本提示、工具使用和多代理工作流程,可能会改善或启发新的OPTO优化器。结合LLM和搜索算法与专用工具的混合工作流程可能会产生一个通用的OPTO优化器。特别是针对大规模图的计算传播器的专门化,以及开发能够进行反事实推理的优化器,可能会提高效率。非文本上下文和反馈也可能扩展Trace的适用性。 https://github.com/microsoft/Trace
探索10个流行嵌入库:AI文本嵌入的优势与局限
生成式AI的快速进步凸显了文本嵌入的重要性 文本嵌入将文本数据转化为密集向量表示,使模型能够高效处理文本、图像、音频等数据类型。各种嵌入库在这一领域中脱颖而出,每个都有其独特的优势和局限。以下是10个流行嵌入库的比较及其链接。 1. OpenAI Embeddings 优势: 局限: 2. HuggingFace Embeddings 优势: 局限: 3. Gensim Word Embeddings 优势: 局限: 4. Facebook Embeddings 优势: 局限: 5. AllenNLP Embeddings 优势: 局限: 6. MultiLingual BERT 适用于多语言数据集,嵌入维度为768,模型大小为1.04GB。 7. RoBERTa (2022) 适用于通用文本处理,嵌入维度为768,模型大小为476MB。 8. MPNet V2 使用Siamese架构,专为文本相似性任务设计,嵌入维度为768,模型大小为420MB。 9. Scibert Science-Vocabulary Uncased 专为科学文本预训练,嵌入维度为768,模型大小为442MB。 10. DistilBERT Base Uncased BERT的小型快速版本,嵌入维度为768,模型大小为268MB。 比较分析 选择嵌入库主要取决于具体的用例、计算需求和定制需求。OpenAI嵌入适合高级NLP任务和零样本学习场景,但需要大量计算能力,训练后灵活性有限。HuggingFace嵌入提供多功能且定期更新的模型,适用于文本、图像和多模态数据,易于集成和定制,但某些功能可能需要用户身份验证。Gensim Word Embeddings专注于文本,是NLP任务中需要定制训练的良好选择,但不支持非文本数据,模型选择较少。Facebook Embeddings提供强大的多语言文本嵌入和定制训练支持,适合大规模NLP应用,但设置和集成复杂。AllenNLP…
极客时间:使用开源RouteLLM 集成多模型Nvidia NIM的经济高效方案?
在过去的几次极客时间中,探讨了Nvidia NIMS和Microsoft Autogen。MS Autogen能够利用各种本地和在线模型的能力令人着迷。而降低推理成本的挑战也同样引人入胜。今天,将玩一个名为RouteLLM的开源库,它承诺通过高效管理和集成不同的AI模型来解决这些问题。 安装RouteLLM首先,需要在机器上安装RouteLLM:(https://github.com/lm-sys/RouteLLM) 设置环境然后,必须使用Nvidia NIM和OpenAI的API密钥来设置环境。在“examples”文件夹下创建一个文件run_route_llm.py。 代码片段如下: 需要分别登录NIM和OpenAI账户生成API密钥并复制过来。 初始化控制器接下来,从RouteLLM包中初始化控制器。控制器负责管理不同AI模型之间的通信并处理路由逻辑。将NIM上的llama-3.1设置为弱模型,而gpt-4则为强模型。初始化控制器的代码如下: 创建聊天完成控制器初始化后,可以创建聊天完成。发送用户消息并接收模型的响应。代码片段如下: 观察RouteLLM有效地管理了Nvidia NIM和OpenAI模型之间的路由。通过将较不复杂的查询路由到较弱的模型(llama 3.1),而将较复杂的查询路由到较强的模型(gpt-4),RouteLLM提供了一种潜在的成本优化策略。 阈值校准RouteLLM中的阈值校准涉及设置阈值以管理路由查询的成本质量权衡。校准过程使用查询样本来确定适当的阈值,以将特定百分比的查询路由到较强的模型。默认情况下,校准使用公共的Chatbot Arena数据集,例如,要使用mf路由器将50%的查询路由到较强的模型,可以使用以下命令: 对于mf的50.0%强模型调用,阈值=0.11593。这表示为mf路由器设置的阈值,以便大约50%的调用路由到较强的模型router-mf-0.11593。可以根据路由器和权衡设置不同的阈值。 结论RouteLLM为管理多个AI模型提供了一种解决方案,优化了性能和成本。将RouteLLM集成到工作流程中可以显著增强AI能力。有很多用例,其中之一是添加校准阈值和在资源受限设备(如物联网设备)上将查询路由到本地或在线模型的能力。这增加了灵活性,特别有用。 请随意探索RouteLLM GitHub仓库,并尝试使用自己的模型。如果有任何问题或想分享经验,请在下方留言。 玩得开心!
Nvidia推出AI Foundry服务:助力企业定制大语言模型,抢占企业AI市场
Nvidia悄然推出AI Foundry服务:助力企业打造定制化大语言模型 周二,Nvidia低调发布了其新的AI Foundry服务,旨在帮助企业创建和部署适应其特定需求的定制化大语言模型。这一举措表明Nvidia正努力在迅速增长的企业AI市场中占据更大的份额。 AI Foundry服务:Nvidia硬件、软件工具和专业知识的结合AI Foundry结合了Nvidia的硬件、软件工具和专业知识,使公司能够开发定制版本的热门开源模型,如Meta最近发布的Llama 3.1。随着企业越来越希望利用生成式AI的力量,同时保持对其数据和应用的控制,这项服务应运而生。 生成式AI的力量:AI如何改变工作和生活Nvidia的AI软件副总裁Kari Briski在接受VentureBeat电话采访时表示:“这是我们一直期待的时刻。企业争先恐后地了解生成式AI。但同样重要的是:开源模型的可用性。” 定制化推动精度提升:Nvidia的AI Foundry如何提高模型性能Nvidia的新产品旨在简化为特定业务用例调整这些开源模型的复杂过程。公司声称,通过定制化,模型性能显著提高。“我们发现,通过简单地定制模型,准确性几乎提高了十个百分点,”Briski解释道。 AI Foundry服务提供访问大量预训练模型、高性能计算资源(通过Nvidia的DGX Cloud)以及用于模型定制和评估的NeMo工具包。Nvidia的AI专家指导也是服务的一部分。 Briski说:“我们提供基础设施和工具,帮助其他公司开发和定制AI模型。企业带来他们的数据,我们有与许多云合作伙伴共同提供容量的DGX Cloud。” NIM:Nvidia独特的AI模型部署方法除了AI Foundry,Nvidia还推出了NIM(Nvidia推理微服务),将定制化模型打包成容器化、API可访问的格式,便于部署。这一发展标志着公司的重要里程碑。“NIM是一个模型,一个定制化模型和一个通过标准API访问的容器,”Briski说。“这是我们多年工作和研究的成果。” 行业分析师认为,此举是Nvidia扩展AI产品组合的战略性扩展,有可能开辟除其核心GPU业务以外的新收入来源。公司正将自己定位为全栈AI解决方案提供商,而不仅仅是硬件制造商。 企业AI采用:Nvidia对定制模型的战略赌注Nvidia的公告时机尤为重要,正值Meta发布Llama 3.1之际,并在AI安全和治理日益受到关注的背景下。通过提供一项允许公司创建和控制自己的AI模型的服务,Nvidia可能正在利用那些希望享受先进AI带来的好处但又不愿承担使用公共通用模型风险的企业市场。 然而,广泛定制AI模型部署的长期影响尚不清楚。潜在挑战包括各行业间AI能力的碎片化以及维持AI安全和伦理一致性标准的难度。 随着AI领域的竞争加剧,Nvidia的AI Foundry代表了对企业AI采用未来的重大赌注。这场赌博的成功将在很大程度上取决于企业如何有效利用这些定制模型,在各自行业中推动现实世界的价值和创新。
谷歌DeepMind的AlphaProof和AlphaGeometry 2:AI系统在国际数学奥林匹克竞赛中取得突破
周四,谷歌DeepMind宣布其AI系统AlphaProof和AlphaGeometry 2在今年的国际数学奥林匹克竞赛(IMO)中解决了六个问题中的四个,获得了相当于银牌的分数。谷歌称,这是AI首次在这一著名数学竞赛中达到这样的水平——但和AI领域的其他声明一样,这一成就也并非完全没有争议。 深入了解 谷歌表示,AlphaProof使用强化学习来在一种叫做Lean的形式化语言中证明数学命题。该系统通过生成和验证数百万个证明来训练自己,逐步解决更复杂的问题。与此同时,AlphaGeometry 2被描述为谷歌之前几何求解AI模型的升级版,现在由基于Gemini的语言模型提供支持,并在大量数据上进行训练。 据谷歌称,著名数学家蒂莫西·高尔斯爵士和约瑟夫·迈尔斯博士使用IMO的官方规则对AI模型的解答进行评分。公司报告称,其综合系统在42个可能得分中获得了28分,距离29分的金牌门槛仅差一点。这包括在比赛中最难的一个问题上取得的满分,谷歌声称今年只有五名人类选手解决了这个问题。 一场与众不同的数学竞赛 自1959年以来,每年举办的IMO让顶尖的高中数学家们面对代数、组合学、几何和数论中极其困难的问题。IMO问题的表现已成为评估AI系统数学推理能力的公认基准。 谷歌声称,AlphaProof解决了两个代数问题和一个数论问题,而AlphaGeometry 2则解决了几何问题。AI模型未能解决两个组合学问题。公司声称其系统在几分钟内解决了一个问题,而其他问题则花费了长达三天的时间。 谷歌表示,他们首先将IMO问题翻译成AI模型可以处理的形式化数学语言。这一步与正式比赛不同,后者要求人类选手在两次4.5小时的比赛中直接处理问题陈述。 谷歌报告称,在今年的比赛之前,AlphaGeometry 2能够解决过去25年历史IMO几何问题的83%,高于其前身的53%的成功率。公司称,新系统在收到形式化版本后,在19秒内解决了今年的几何问题。 局限性 尽管谷歌声称取得了突破,但蒂莫西·高尔斯爵士在X上的一个帖子中提供了更为细致的看法。虽然他承认这一成就“远超以往的自动定理证明器所能达到的水平”,但也指出了几个重要的限制条件。 “主要的限制是程序需要比人类选手更长的时间——有些问题超过60小时——当然处理速度也比人类大脑快得多,”高尔斯写道。“如果人类选手被允许每个问题有这么长的时间,他们的得分无疑会更高。” 高尔斯还指出,在AI模型开始工作之前,问题是由人类手动翻译成Lean的形式化语言的。他强调,尽管AI执行了核心的数学推理,但这一“自动形式化”步骤是由人类完成的。 关于对数学研究的更广泛影响,高尔斯表示不确定。“我们是否接近数学家变得多余的地步?很难说。我猜我们还需要一个或两个突破,”他写道。他认为系统的长处理时间表明它尚未“解决数学问题”,但也承认“当它运行时显然有些有趣的事情在发生。” 即便有这些限制,高尔斯推测这样的AI系统可能会成为有价值的研究工具。“我们可能接近拥有一个程序,它可以让数学家回答一系列广泛的问题,只要这些问题不是太难——类似于人类在几小时内可以解决的问题。即使它本身不能解决开放问题,这也将是一个非常有用的研究工具。”