自从发布以来,微软的Copilot已经证明自己是ChatGPT的有力竞争者,甚至偶尔还超越了OpenAI的产品。然而,随着ChatGPT的不断升级,Copilot逐渐落后——直到现在。 在周一举行的“Microsoft 365 Copilot: Wave 2”线上发布会上,微软展示了即将为企业和个人用户推出的多项Copilot人工智能助手升级。 这次升级相当令人印象深刻,包括与Microsoft 365应用的进一步集成,以及为团队、群组或家庭提供的协作AI使用方式。此次发布的一个亮点功能是“Copilot Pages”。 Copilot Pages 当用户使用企业账户登录Copilot时,会发现一个新选项,可以在“工作”与“Web”标签之间切换。其中的“工作”标签,微软称之为BizChat,这是一种可以从Microsoft 365应用中的工作数据中提取答案的工作流程。现在,BizChat增加了一个全新的“Pages”功能。 通过Pages,用户可以将Copilot从企业数据中提取的洞见进行编辑,添加到Page页面中,并与团队分享进行协作。Page类似于普通的可编辑文档,支持分享和共同编辑链接。这个功能突显了多用户协作AI的趋势,类似于You.com的协作AI助手以及Salesforce的Agentforce套件。 从今天起,Pages将逐步向Microsoft 365 Copilot用户开放,并将在未来几周内向使用Microsoft Entra账号登录的免费用户提供。 Microsoft 365应用中的Copilot 微软Copilot的一大优势就是能够直接帮助用户使用Microsoft 365应用,这些应用已经成为许多人工作流程中的核心部分。随着Wave 2的推出,微软根据用户反馈,进一步提升了Copilot在这些应用中的功能,并改进了用户体验。 首先,Excel中的Copilot已经全面开放,支持公式、数据可视化和条件格式等功能。此外,微软宣布Excel中的Python功能进入公开预览阶段,用户现在可以通过自然语言在Excel中进行Python操作,无需编写代码即可完成高级分析,比如预测和风险评估。 与此同时,PowerPoint中的Narrative Builder也已经全面推出,该功能可以快速生成演示文稿的初稿。只需输入主题,Builder就会自动生成大纲。 Teams中的Copilot 在Teams中,Copilot现在能够总结会议内容和聊天记录。用户可以通过询问Copilot了解错过的会议内容,它会同时提供会议中的重要内容和聊天中的信息。此功能将于下月全面开放。 Outlook中的Copilot也有新功能——“优先处理我的收件箱”,该功能会分析收件箱,标记出最重要的邮件并提供摘要,并解释为何这些邮件被优先处理。未来,用户甚至可以教Copilot根据特定话题或关键词优先处理邮件。 此外,Copilot在Word中的功能也有显著提升,现在用户可以直接在文档中与Copilot实时协作,编辑各个部分。同时,OneDrive中的Copilot能够帮助用户快速找到文件,提供摘要甚至进行文件对比。 Copilot Agents 微软还推出了Copilot Agents,即可以根据用户需求执行特定任务的AI助手。这些助手可以根据需求完全自主工作,或者作为简单的“提示-回应”助手。用户可以使用Copilot Studio中的Agent Builder来创建这些AI助手,应用于BizChat或SharePoint中。 这些Copilot Agents和Agent Builder现已对用户全面开放,SharePoint中的Agent功能则将在10月初进入公开预览阶段。 Copilot使用最新的LLM模型 最后,微软确认Copilot现在已经集成了最新的GPT-4o模型,这使得Copilot的响应速度比之前快了两倍。微软还表示,将继续为Copilot引入最新的AI模型,包括最近发布的OpenAI o1,它是目前OpenAI最先进的推理模型。 这些升级表明,微软正在全力推动Copilot的进化,以在与ChatGPT的竞争中保持优势。
AWS 收购芯片设计公司Annapurna Labs后
近年来,诸如AMD和Nvidia等知名处理器制造商,尤其是那些面向云端AI的公司,纷纷表现出希望控制更多计算业务的迹象,通过收购软件、互联技术和服务器制造商来掌握“全栈”控制权,从而在满足客户需求的设计上获得优势。 亚马逊网络服务(AWS)早在2015年就通过收购芯片设计公司Annapurna Labs,率先进行垂直整合。AWS技术负责人Ali Saidi和Annapurna Labs工程总监Rami Sinno在IEEE Spectrum的采访中,分享了垂直整合设计的优势,并展示了位于德州奥斯汀的硬件测试实验室。 垂直整合的工程师需求Rami Sinno表示,在垂直整合公司工作的芯片设计工程师需要具备不同的技能。例如,传统信号完整性工程师通常专注于信号分析和实验室测量,而AWS希望这些工程师还能编写代码,分析系统级工作负载下的信号影响。这种灵活的思维方式有助于团队在全栈开发中取得更大成果。 Graviton系列处理器的演变Ali Saidi解释了Graviton系列的演变过程。Graviton 1主要是AWS验证Arm架构能否在其云服务中提供相同体验的试验品,而Graviton 2则成为首款面向通用工作负载的市场领先产品。随着客户的需求多样化,AWS不断改进处理器性能,例如增加处理复杂数学运算和媒体编码的能力。 AWS的芯片设计有何不同AWS在芯片设计上的一大优势在于硬件和软件团队的紧密协作,从开发初期就开始共同工作,使得在芯片投产时,软件几乎已经完成。这种快速迭代的方式使得AWS能够在设计过程中显著提高效率,缩短开发周期。 云端设计加速AWS不仅是云服务提供商,还在云上设计芯片。通过动态调整电子设计自动化(EDA)所需的服务器资源,AWS能够在项目后期大规模加速迭代,从而缩短设计周期。这使得AWS能够更快地推出产品,满足数据中心级别的部署需求。 亚马逊电商的贡献作为AWS的主要客户之一,Amazon.com在2023年的Prime Day中使用了超过25万个Graviton处理器,支持其网站和相关服务,显示出AWS处理器在大规模商业应用中的显著成效。 实验室的独特优势Sinno提到,Annapurna Labs的实验室紧邻硬件和软件开发团队,这种共址模式极大地加快了AI芯片和服务器的测试与交付速度,确保在设计和测试中可以快速修复问题,满足云规模部署的需求。AWS的垂直整合还允许工程师在问题出现时迅速修复,从而提升系统的稳定性和效率。 总体而言,AWS通过垂直整合在硬件和软件设计、开发、测试等多个环节上取得了显著优势,确保其产品能够快速响应市场需求,并在云计算和AI领域占据领先地位。
谷歌在在线展示广告技术上的垄断,Meta无法有效竞争
据报道,Meta Platforms Inc.(前身为Facebook)于2018年与谷歌达成了一项协议,此前公司内部已得出结论,认为由于谷歌在在线展示广告技术上的垄断,Meta无法有效竞争。前Facebook广告技术负责人布莱恩·博兰德(Brian Boland)在美国司法部的反垄断审判中作证,称Facebook最初计划在网站展示广告市场与谷歌直接竞争,然而,到了2017年,Facebook认识到与谷歌的竞争将会面临巨大挑战,原因在于谷歌的广告工具给予自己明显优势。 Facebook曾通过“Facebook Audience Network”努力允许广告商在Facebook和Instagram等社交平台上投放广告,并通过该网络在网站和应用中购买广告。然而,博兰德表示,谷歌的广告工具通过在线广告拍卖中的“最后一看”机制让其能在其他竞标者出价后再决定是否购买广告。这种做法被博兰德形容为谷歌能优先挑选最好的“苹果”,而其他人只能接受剩下的“残次品”。 经过六个月的谈判,Facebook与谷歌于2018年签署了内部称为“Jedi Blue”的协议。该协议使Facebook在通过谷歌的广告交换平台竞标时获得了优待。该协议得到了两家公司最高层的批准,包括Facebook首席执行官马克·扎克伯格和谷歌首席执行官桑达尔·皮查伊亲自签字。 虽然在法庭上并未披露这份协议的具体内容,但相关文件显示,谷歌提出取消“最后一看”优势,前提是Facebook需支付15%的广告媒体费用。多州总检察长曾在2020年起诉谷歌垄断广告技术市场,指控该协议违反反垄断法,认为谷歌向Facebook提供这一协议是为了阻止其采用一种名为“header bidding”的新技术,该技术可能削弱谷歌的垄断地位。 尽管如此,纽约一位法官驳回了这些指控,认为公司达成协议并无不合理或可疑之处。而欧洲反垄断执法机构在调查后,于2022年3月关闭了相关调查,未采取任何行动。 司法部去年起诉谷歌垄断广告技术市场时,并未指控该协议具有反竞争性,而是强调即便像Meta这样的科技巨头也无法与谷歌竞争。
OpenAI计划在明年调整其复杂的非营利企业结构
据《财富》杂志报道,OpenAI首席执行官Sam Altman在公司的每周会议上透露,OpenAI计划在明年调整其复杂的非营利企业结构。Altman表示,OpenAI将逐步摆脱由非营利实体控制的模式,转型为更传统的盈利性组织。不过,Altman并未详细说明如何实现这一目标,也没有明确说明公司未来的具体企业结构。发言人则向《财富》表示,OpenAI仍然专注于“构建对所有人有益的人工智能”,并强调非营利性质依然是其使命的核心,未来将继续保留这一部分。 OpenAI于2015年成立时是一个完全依赖捐赠资金的非营利组织。公司在介绍其结构的页面上提到,多年来总共仅筹集了1.305亿美元的捐款,而这显然不足以支撑其在计算能力和顶尖人才上的高昂成本。因此,OpenAI在非营利组织的基础上设立了一个盈利性子公司来解决资金短缺问题。据《财富》解释,目前OpenAI的非营利实体控制着其盈利部门,而该盈利部门则通过一个控股公司接收包括微软在内的企业投资。 在这种结构下,OpenAI的利润分配设有上限,即分配给投资者的利润(包括微软在内)有限制,超出这一上限的利润将归入其非营利部门。根据《信息》杂志6月份的报道,OpenAI的收入呈现爆发式增长,特别是由于订阅版ChatGPT的推出,其年化收入在今年上半年翻倍。 这种复杂的企业结构也导致了2023年Altman被OpenAI非营利董事会罢免,理由是董事会“对其继续领导OpenAI的能力失去信心”。不过,仅五天后,该董事会被解散并重组,Altman也重新担任了CEO职务。
Google提出 Speculative RAG:通过草稿机制增强检索增强生成
近年来,大型语言模型(LLMs)逐渐被用于为用户提供问答服务。然而,尽管应用广泛,LLMs在面对知识密集型问题时,常常会出现事实性错误,甚至生成虚构内容(即无法验证的描述)。特别是当问题需要最新信息或涉及较为冷门的事实时,LLMs的表现尤为不理想。例如,当用户询问“最新款谷歌Pixel手机的功能有哪些?”时,LLMs可能会给出过时或不准确的信息。 为了应对这些问题,检索增强生成(RAG)应运而生,成为一种有望改善这一现状的解决方案。RAG通过利用外部知识库检索相关文档,并将检索到的信息融入生成的内容中,从而有效减少了知识密集型任务中的事实错误。然而,处理较长文档时,复杂的推理任务可能导致显著的延迟。尽管一些研究已探索延长LLMs上下文长度的路径,但如何在延长的上下文中实现扎实的推理仍是一个尚未解决的挑战。因此,在RAG系统中,如何在效率与效果之间找到平衡已成为一个核心研究焦点。 在《Speculative RAG: 通过草稿机制增强检索增强生成》一文中 (https://arxiv.org/pdf/2407.08223),研究者提出了一种新框架,通过引入一个更小的专用RAG起草模块,来分担主要模型的计算负担。该模块经过针对RAG任务的微调,旨在作为现有通用模型的高效且稳健的RAG组件。 Speculative RAG采用了草稿生成的方法,与推测解码类似。推测解码通过使用较小的模型同时快速生成多个候选内容,再与基础模型并行验证,从而加速了自回归模型的推理过程。研究表明,Speculative RAG在多个基准测试中均表现出了显著的精度提升和延迟减少。 Speculative RAG的工作原理 Speculative RAG包含两个核心部分:(1)专用的RAG起草器,(2)通用的RAG验证器。首先,基础模型的检索模块从知识库中检索相关文档。然后,Speculative RAG将计算负担分配给专用的RAG起草器,这是一种专门用于处理检索文档的小型模型,主要负责基于文档快速生成回答和推理内容。这样,通用验证器只需关注验证这些草稿答案的准确性,而无需逐一深入审查冗余的文档。 例如,在回答“谁在1980年电影《九到五》中饰演Doralee Rhodes?”时,检索模块会从知识库中获取多个相关文档。接着,Speculative RAG起草器会根据不同的文档子集并行生成多个草稿答案。由于检索的文档可能包含关于1980年电影和2010年音乐剧《九到五》的信息,通用RAG验证器会计算每个草稿的生成概率,并根据准确性赋予其信心分数。最终,验证器选出与1980年电影相关的草稿作为最终答案。 实验结果 Speculative RAG在多个公共RAG基准测试中展现了其高效性和准确性。研究人员使用Mistral-7B模型作为专用起草器,并通过Open Instruct数据集和Contriever-MS MARCO等文档对其进行微调。此外,Mixtral-8x7B模型作为通用验证器,不需要进一步训练。在TriviaQA、MuSiQue、PubHealth和ARC-Challenge数据集上,Speculative RAG的表现均优于标准RAG系统。在PubHealth数据集上,Speculative RAG的准确率比最佳基线系统Mixtral-Instruct-8x7B高出12.97%。 延迟的显著改善 由于RAG系统需要处理大量检索文档,延迟是一个关键挑战。在实验中,Speculative RAG通过并行草稿生成,大幅减少了延迟时间。例如,在PubHealth数据集上,Speculative RAG的延迟比标准RAG系统减少了51%。 总结 Speculative RAG通过将RAG任务分解为起草和验证两步,显著提升了生成内容的质量和速度。它利用专用起草器生成多个候选答案,再由通用模型进行验证,最终实现了精度提升高达12.97%,并将延迟减少了51%。Speculative RAG为通过任务分解提高RAG性能提供了新的思路。
AI辅助癌症诊断取得了显著进展
在过去的一年里,AI辅助癌症诊断取得了显著进展,越来越多的医生开始测试、使用并将AI助手融入日常医疗实践中。 皮肤癌领域也不例外,未来AI诊断工具有望在这一领域广泛应用。那么,AI在皮肤癌诊断中的作用是什么呢?2024年,斯坦福医学院的研究人员进行了一项研究,比较了医生在有和没有深度学习AI辅助的情况下诊断皮肤癌的表现。在实验环境中,未使用AI辅助的医生平均敏感度为74.8%,而使用AI辅助的医生敏感度达到了81.1%。 有趣的是,AI对各个层次的医疗专业人员都有帮助,其中非皮肤科医生的提升最为显著。 AI如何推动行为改变 癌症在年轻人中呈上升趋势。根据《英国医学杂志肿瘤学》的一项研究,全球50岁以下癌症确诊人数在过去三十年里增加了近80%。在过去十年里,黑色素瘤皮肤癌的发病率增加了近四成(38%),西班牙的发病率在此期间也稳步上升了2.4%。 早期发现皮肤癌治疗相对简单,预后非常乐观。但由于忙碌的生活和其他琐事,越来越少的人去检查,导致诊断和治疗延误,严重影响了生存率。很多人即使发现问题,也往往会等到与医生交谈。根据Bupa最新的“对数字医疗的态度”研究,仅有9%的人会立即去找专业人士检查他们担心的痣。 然而,同样的研究表明,如果人们可以通过AI驱动的手机应用在自己方便的时间检查痣,这一比例会增加到33%。这表明新兴技术能够显著推动医疗行为的积极改变,并改善潜在严重疾病的临床结果。 Bupa推出居家皮肤科检测工具 Bupa看到了AI的广泛应用前景,正积极探索其在提升患者护理、提高运营效率以及帮助客户过上更健康生活中的作用。Bupa深知,客户不仅希望在生病时得到帮助,更希望在日常生活中得到持续的健康支持。 因此,Bupa推出了Blua,一项在200多个国家可用的数字医疗服务。Blua提供三大创新医疗服务,极大提升了便利性和可及性。这包括虚拟咨询服务,让客户可以随时随地与健康专家沟通;数字健康管理计划,帮助客户主动管理健康;以及远程医疗服务,如药物配送和居家监测设备。 在西班牙,Blua还提供居家皮肤科评估服务。客户如果对皮肤病变感到担忧,可以用智能手机拍摄高分辨率照片并上传至Blua。通过AI技术,这些照片会与数据库中的数百万张皮肤病变图像进行比对,以检查是否有恶性迹象。 该工具的算法可以识别302种不同的皮肤病理。如果AI工具检测到有问题,系统会提醒客户预约医生进行进一步检查,以便采取预防措施。 医疗的未来在于早期发现 数字医疗和AI将共同发挥关键作用,消除阻碍人们及时检查健康问题的障碍,推动能够拯救生命的积极行为改变。这就是为什么Blua在当今快节奏的世界中尤为重要。通过虚拟咨询和居家检测,这些技术赋予人们优先关注健康的能力,而无需牺牲宝贵时间。
GeekOut time: Exploring Complex SQL Queries with Natural Language Using Text2SQL.ai and the Chinook Database
The world of databases is becoming more accessible thanks to tools that convert natural language into SQL. One such tool is Text2SQL.ai, which simplifies querying databases by allowing users to input queries in plain English and automatically generating the corresponding SQL commands. This can be particularly helpful for users who may not be familiar with…
OpenAI o1模型系列 vs GPT
如果从OpenAI的新o1模型系列中得到一个重要启示的话——允许我在这里表现一下热情——那就是一个新的范式正在诞生。一个关于推理的新范式,一个关于扩展的新范式,一个关于AI的新范式。 ChatGPT和GPT-4将继续存在,但它们再也不会是OpenAI的“宠儿”。我们正在进入一个新的阶段,一个新的时代。公司的资源和努力将主要集中在探索、扩展和成熟这个新的范式上,这个范式更像是一个GPT-3时刻(“等等,AI怎么能做到这些?”),而不是ChatGPT时刻(“所有人都受邀参加派对!”)。 为了全面解读这个转变,我们需要很多答案: 但我们不要操之过急,这些都是困难的问题,也是有趣的问题。首先,我想回顾一下OpenAI的公告:o1-preview和o1-mini。我将为你总结这些新内容,它们的技能、基准表现,以及我收集到的许多正面和负面示例。(这些模型在ChatGPT网站上对所有Plus和Team用户开放,o1-preview每周限制30条消息,o1-mini限制50条消息,所以快去使用吧。记住:保持提示简单。) 然后,我会探讨这个新范式的含义以及我认为即将发生的事情。我将用我的想法和评论来点缀整个讨论,既支持也反对OpenAI对这个新范式的叙述。 这是篇很长的文章,但它涵盖了未来几年将会产生巨大影响的许多事情(提前道歉,我有很多脚注,但那是你会找到“真知灼见”的地方,我把它们从正文中剥离出来,免得有些人不在乎细节)。 OpenAI o1模型系列 vs GPT 理解新事物的最好方法是将它与现有的最接近的相对物进行比较。对于o1来说,这个相对物就是GPT。o1与GPT的不同之处可以通过这个图表最好地展示出来: 首先,模型通过从互联网上的大量数据中进行训练(预训练)。然后,它经过微调以对齐行为、提高性能(后训练)。最后,用户使用它进行推理,如在网站上向ChatGPT提问(推理)。 在o1之前,大多数计算资源都用于让模型吞噬大量数据(“越大越好”的范式)。GPT-2有15亿参数,GPT-3有1750亿参数,而GPT-4有1.76万亿参数。在四年内增长了三个数量级。GPT-4需要更多的计算资源,因为它更大,这也使它“更聪明”。然而,AI公司逐渐意识到,他们还需要在后训练上投入更多资源,以改善模型的行为。 推理(Inference)是一个完全不同的层面。首先,2亿人每周都在使用你的AI模型,这成本很高。你只需训练一次模型,但用户会数百万甚至数十亿次地使用它。其次,在技术上存在一些难题,它之前无法让模型根据查询的复杂程度动态分配计算资源。ChatGPT无论是回答“2加2等于几”还是“解决黎曼假设”,所用的计算资源几乎是一样的。(当然,它在后者上会失败,甚至在前者上也可能出错)。换句话说,无论问题多么复杂,聊天机器人都会立即开始回答。回答得越快越好。 但人类并不是这样工作的,所以研究人员意识到,他们需要找到一种方法,让模型在推理阶段能够分配更多资源去“思考”复杂的查询。这就是o1模型所做的事情。通过一种强化学习机制(稍后会详细说明),它学会了推理,能够花费更多资源去为需要这种方式的问题提供慢而深思熟虑的答案。这也是人类的思考方式——对于简单的问题,我们反应迅速;对于复杂的问题,我们花费更多时间。 尽管这并非完美的类比,但说这些新一代的模型能够像人类一样实时推理,并非完全不合理。 这就是为什么OpenAI称这个新阶段为“推理范式”,而之前的阶段则被称为“预训练范式”。(我不确定这些标签会不会被长期使用,但目前我会遵循它们)。 o1的基准性能表现 为了连接o1的表现与上面的讨论,我将分享OpenAI在评估博客中给出的最重要的图表: 左边的图表显示了在训练时性能随着计算资源增加而提升的情况。可以看到,随着计算资源的增多,性能呈线性增长。这代表了旧的“预训练范式”:你训练得越多,模型表现越好。 右边的图表显示了推理阶段性能随着计算资源增加而提升的情况。令人震惊的是,这里的性能提升幅度与左图中的相似,甚至更大。这表明,给模型更多计算资源用于推理,它的表现会显著提升。 简而言之,通过增加数据量来提高训练时的性能可以在推理阶段通过给模型更多时间思考来换取相似的提升。不仅如此,推理阶段通过增加计算资源来提升性能的效果,甚至比训练时增加计算资源的效果还要显著。这意味着新范式让AI模型能够解决更复杂的问题,而且它们不需要再变大来变得更“聪明”——你只需给它们更多时间思考就足够了。 我们可以在将新模型与GPT-4o进行对比时清楚看到这一点。例如,o1(正式版尚未发布)和o1-preview在一些基准测试上的表现都优于GPT-4o,尤其是在推理能力较强的小型模型(如o1-mini)上,表现尤为突出。 o1模型的实际应用表现 OpenAI分享了一些在数学竞赛、编程竞赛和科学问题上的表现数据。比如,o1在美国数学邀请赛(AIME)中的排名接近全美前500名,在编程竞赛Codeforces中处于89%的得分率,还在物理、化学和生物等领域超过了人类博士级别的准确率。 这些结果都非常令人印象深刻。无论是数学、编程,还是科学领域,o1在所有这些基准测试中都大幅领先于GPT-4o及其他现有的大型语言模型。 不仅如此,一些研究人员和测试者也对o1-preview给出了正面评价。例如,研究员Colin Fraser(以对AI公司持怀疑态度而闻名)表示,他对o1-preview比预期更为满意;教授Ethan Mollick帮助o1-preview解决了一个难题,表明它在解决复杂问题上表现出色。 尽管如此,o1-preview并不是完美的模型。正如OpenAI CEO Sam Altman指出的那样,o1仍然存在许多局限性,特别是在一些简单任务上可能会犯错,比如回答草莓中有几个字母“R”这种问题时,它并非每次都能答对。 o1的推理机制 那么,o1到底是如何进行推理的呢?OpenAI解决了两个技术挑战: 换句话说,o1模型结合了OpenAI的GPT模型的语言能力和DeepMind的AlphaGo系列中的强化学习机制,形成了一种全新的AI推理范式。这种推理能力是通过链式思维(Chain of Thought)来实现的,模型可以逐步解决问题,分解复杂步骤,并在犯错时进行自我纠正。 尽管我们目前对o1的具体实现细节还知之甚少,但可以肯定的是,OpenAI已经开启了一个新的AI推理时代。 总结 o1系列模型标志着AI领域进入了推理范式的新时代。通过强化学习和链式思维机制,o1能够在推理阶段花费更多时间和计算资源来解决复杂问题,并显著提升了模型的性能。虽然它在某些简单任务上仍然存在瑕疵,但总体而言,它在数学、科学和编程等领域的表现令人瞩目,并为AI的未来发展打开了新的大门。 随着OpenAI继续完善这一新范式,未来的AI模型将在解决复杂问题、进行深度推理方面有更多的潜力。虽然这一新技术目前还处于预览阶段,但其未来发展值得期待。
再看OpenAI发布的两款重要的新预览模型:o1-preview和o1-mini
OpenAI今天发布了两款新的预览模型:o1-preview和o1-mini(尽管名字有“mini”,它也是预览版),此前传闻代号为“strawberry”。这些模型不仅仅是GPT-4o的升级版,它们在成本和性能上做出了重大权衡,以提升“推理”能力。 专为链式思维训练 OpenAI的官方说明总结得很好:“我们开发了一系列新的AI模型,这些模型在回答前会花更多时间思考。”这种思维方式类似于“链式思维”(chain of thought)的模式——即逐步思考的技巧,社区从2022年5月的论文《大型语言模型是零样本推理者》中开始探索。 OpenAI在《学习使用LLM推理》文章中解释了这些新模型的训练方式: 这意味着新模型在处理复杂提示时表现更好,尤其是当任务需要反复思考和调整策略时。 API文档中的细节 从API文档中可以发现一些有趣的细节和权衡: 此外,文档建议在使用检索增强生成(RAG)时,尽量减少额外的上下文信息,以防止模型过度复杂化响应。 隐藏的推理令牌 推理令牌在API中不可见,尽管用户为其付费。OpenAI解释称,隐藏这些令牌有助于模型遵循安全规则,并且防止竞争对手复制他们在推理方面的研究成果。 实例 在链式思维部分,OpenAI提供了一些实例,例如生成Bash脚本、解决填字游戏以及计算复杂化学溶液的pH值。这些例子展示了模型如何在ChatGPT界面中展示推理步骤,但并不包括原始推理令牌,而是使用了更加易懂的方式进行概括。 目前,社区还在寻找GPT-4o无法解决但o1-preview表现优异的提示示例。不过,当找到合适的提示时,o1的表现让人感到非常惊艳。 未来展望 这些新模型的最佳应用场景仍需时间探索。预计大部分应用仍将使用GPT-4o,但新模型让我们看到了LLM在解决复杂任务方面的新可能性。未来,其他AI实验室也可能开发类似的模型,专门用于链式思维推理。
Google推出Data Commons解决AI“幻觉”
Google推出的DataGemma模型填补了大型语言模型(Large Language Models, LLMs)与现实世界数据之间的鸿沟,通过利用Data Commons知识图谱来提升LLM回应的真实性与可信度。 虽然LLM革新了人们与信息互动的方式,但确保它们的回应基于可验证的事实仍是一个重大挑战。现实世界中的知识往往分散在多个来源中,每个来源都有不同的数据格式、模式和API,这使得访问和整合变得困难。缺乏这种事实基础会导致模型“幻觉”——即生成错误或误导性信息。打造负责任且值得信赖的AI系统是Google研究的核心目标,解决LLM中的幻觉问题对于实现这一目标至关重要。 Google今天发布了DataGemma,这是一组实验性的开源模型,旨在通过将LLM与Google Data Commons庞大的现实世界统计数据结合来应对幻觉问题。Data Commons已具备自然语言界面,DataGemma正是利用这一现有接口,以自然语言作为“API”,让用户可以直接问诸如“加州的就业行业有哪些?”或“有哪些国家的森林面积在增加?”这样的问题,而无需编写传统的数据库查询语句。借助Data Commons,Google克服了不同数据模式和API带来的复杂性,实际上提供了一个统一的“外部数据源API”。 Data Commons:事实性AI的基础 Data Commons是Google公开的知识图谱,包含全球超过2500亿个数据点,涵盖数十万个统计变量。这些数据来自联合国、世界卫生组织、卫生部、统计局等可信机构,涉及经济、气候变化、健康和人口等多个领域。这一庞大的数据仓库不断扩展其全球覆盖范围,为构建更加可靠和有依据的AI提供了坚实的基础。 DataGemma将LLM与现实世界数据相连接 Gemma系列是轻量级的开源模型家族,基于与Google Gemini模型相同的研究和技术构建。DataGemma通过利用Data Commons中的知识扩展了Gemma家族的能力,从而增强了LLM的事实性与推理能力。通过创新的数据检索技术,DataGemma帮助LLM从可信机构获取数据(包括政府、国际组织和非政府组织),减少幻觉的风险,提升模型输出的可信度。 与传统方法不同,使用DataGemma不需要掌握底层数据集的具体模式或API。它通过Data Commons的自然语言接口直接发出问题,而关键在于训练LLM知道何时提问。为此,Google使用了两种不同的方法:检索交错生成(RIG)和检索增强生成(RAG)。 检索交错生成(RIG) 这种方法对Gemma 2模型进行微调,使其在生成回应时能识别出其中的统计数据,并通过调用Data Commons进行验证。相当于模型对自己的回答进行“复查”。 RIG的工作流程如下: RIG方法的优势在于不改变用户的查询,能在各种情境下有效运作,但LLM并不会保留来自Data Commons的更新数据,导致后续的推理或查询无法反映新信息。 检索增强生成(RAG) RAG方法在LLM生成文本之前,首先从Data Commons检索相关信息,为其回应提供事实基础。然而,由于广泛查询返回的数据可能包含大量跨多个年份的数据表,因此RAG需要利用Gemini 1.5 Pro模型的长上下文窗口,来处理如此大量的数据输入。 RAG的工作流程如下: RAG的优点在于随着LLM模型的进化,其生成的响应也会更加准确。缺点是修改用户的提示词可能会导致使用体验不够直观,且效果取决于查询Data Commons的质量。 参与构建有据可依的AI未来 虽然DataGemma是向前迈出的重要一步,Google认识到这一领域仍处于早期阶段。Google邀请研究人员、开发者以及对负责任AI感兴趣的各方一起探索DataGemma,共同推动这项技术的发展。通过将LLM与Data Commons中的现实世界数据结合,未来的AI不仅会更加智能,还会建立在事实和证据的基础之上。 对于想要深入了解DataGemma研究背景的人员,可以参考Google的研究论文。此外,Google希望研究人员能够超越Data Commons的具体实现,扩展这项技术至其他知识图谱格式。 准备好开始了吗?可以从Hugging Face或Kaggle下载DataGemma模型(RIG、RAG),并通过Google提供的快速入门笔记本探索它的功能。https://huggingface.co/collections/google/datagemma-release-66df7636084d2b150a4e6643