丰田汽车的研究部门和现代汽车旗下的波士顿动力公司正在联手,加快具备人工智能的类人机器人研发。这次合作将结合丰田研究所的大规模行为模型学习技术与波士顿动力的人形机器人Atlas的优势,旨在推动AI机器人在实际应用场景中的发展,尤其是在人与机器互动领域。 丰田研究所在机器人AI学习方面取得了突破,而现代自2020年收购的波士顿动力公司也因其机器狗和用于仓库补货的移动机械臂在商业领域取得成功。此次合作被认为将对特斯拉的Optimus机器人等智能机器人项目形成挑战,特别是在全球多家类人机器人初创公司吸引了数十亿美元投资的背景下。 丰田和波士顿动力的合作将专注于基础研究,目标是未来实现商业化,但双方高管并未透露项目的具体时间表或预算。丰田首席科学家Gill Pratt表示,这类技术为未来提供了巨大的潜力,并指出他们在生成式AI方面的研究能极大地补充波士顿动力的机器人技术。Pratt还表示,目标之一是最终将机器人引入工厂生产线和家庭中的老年护理场景。 汽车制造商一直处于自动化生产线的前沿,旨在减少劳动成本并提高工人的安全性。据国际机器人联合会数据显示,2023年全球约有四分之一的新安装机器人用于汽车制造业,这使得汽车行业成为全球机器人部署最多的领域之一。 波士顿动力首席技术官Aaron Saunders强调,波士顿动力机器人的灵活性与丰田行为模型的结合,将成为区分他们与其他智能机器人研发公司的一大优势。他表示,这种合作将为实现大规模推出类人机器人奠定基础。
Author: aitrendtrackers@rengongzhineng.io
光子计算初创公司Lightmatter近期筹集了4亿美元,旨在突破现代数据中心的瓶颈
光子计算初创公司Lightmatter近期筹集了4亿美元,旨在突破现代数据中心的瓶颈。这家公司开发的光学互连层能够让数百个GPU同步工作,大幅简化了AI模型训练和运行的复杂任务,降低了成本。 随着AI的快速发展,对计算资源的需求也在急剧增加,数据中心行业因此蓬勃发展。然而,增加成千上万的GPU并不是解决问题的简单方式。高性能计算领域的专家们早就明白了这一点:如果超级计算机的节点在一半时间里都在等待数据,那么这些节点的速度再快也没有用。 真正将成堆的CPU和GPU整合成一个巨大机器的关键,是互连层的速度——互连层越快,数据中心的速度也就越快。Lightmatter自2018年以来一直致力于开发光子芯片,目前看来,他们的互连层在速度上远远领先于其他竞争者。 Lightmatter的创始人兼CEO尼克·哈里斯(Nick Harris)在接受TechCrunch采访时提到,“如果超大规模企业想要构建拥有百万节点的计算机,他们不能依赖传统的Cisco交换机。一旦超出机架范围,互连密度就会骤降,效率如同在用‘杯子和绳子’通话。” 目前的行业尖端技术是Nvidia的NVLink平台,尤其是NVL72,能将72个Nvidia Blackwell单元连接在一起,最高支持1.4 exaFLOPs(FP4精度下)。然而,这些计算能力依赖的7 terabit网络速度仍是一个限制因素。 哈里斯指出,“对于百万GPU来说,需要多个交换层,而这会导致巨大的延迟。”电到光、光到电的转换过程不仅耗能巨大,还极大增加了时间成本,特别是在更大的集群中。 Lightmatter的创新在于其大量使用光纤。通过纯光学接口,每根光纤可支持1.6 terabit的带宽,每个芯片最多能支持256根光纤连接。相比之下,72个GPU用7 terabit的带宽显得相形见绌。 “光子技术的到来比人们预期的要快得多,虽然大家一直在为此努力,但我们已经实现了。”哈里斯表示,经过七年的艰苦奋斗,他们的光子互连技术现已达到30 terabit的速度,并且设计了一种特殊的机架,能让1024个GPU同步工作。更令人期待的是,100 terabit的速度也已在开发中。 市场对这种技术的需求非常庞大,从微软、亚马逊到xAI和OpenAI等,所有大型数据中心公司都对计算资源表现出无尽的渴望。虽然哈里斯没有透露具体客户,但他指出,很多超大规模企业已经成为他们的客户。 此次Lightmatter的D轮融资让公司估值达到了44亿美元,使其成为全球最大的光子技术公司。哈里斯表示,未来他们还计划开发新型芯片基板,以便通过光子技术实现更精密的网络任务。他还预测,未来十年内,芯片间的互连将成为推动摩尔定律的关键力量。 Lightmatter的技术无疑正站在未来计算技术的前沿,准备在接下来的技术变革中引领潮流。
人工智能 (AI) 是否可能仅依赖另一个 AI 生成的数据进行训练
人工智能 (AI) 是否可能仅依赖另一个 AI 生成的数据进行训练?这听起来似乎是个异想天开的想法,但这一概念其实已经存在了一段时间。随着真实数据变得越来越难以获取,这一思路逐渐获得了更多关注。 例如,Anthropic 使用了一部分合成数据来训练其旗舰模型 Claude 3.5 Sonnet;Meta 利用 AI 生成的数据微调了其 Llama 3.1 模型;据称,OpenAI 也正在从其“推理”模型 o1 中获取合成训练数据,为即将推出的 Orion 模型做准备。 那么,为什么 AI 需要数据?它需要什么样的数据?这些数据真的可以被合成数据替代吗? 标注的重要性 AI 系统本质上是统计机器。通过大量样本的训练,它们学习这些样本中的模式,以进行预测。例如,它可以学会“to whom”在邮件中通常会出现在“it may concern”之前。 标注通常是这些样本中数据的含义或组成部分,它们是关键的指导信息,帮助模型区分事物、地点和概念。 举个例子,一个照片分类模型如果被展示了大量标有“厨房”标签的厨房照片,它会逐渐将“厨房”与厨房的一般特征(如冰箱和台面)联系起来。训练完成后,即使给它一张未曾见过的厨房照片,它也应该能够识别出来。当然,如果这些厨房照片被错误标注为“牛”,那么模型将会将它们识别为牛,这也突显了良好标注的重要性。 随着 AI 的需求不断增长,为其开发提供标注数据的需求也在迅速扩大。据 Dimension Market Research 估计,数据标注市场目前价值约为 8.382 亿美元,预计在未来十年内将达到 103.4 亿美元。虽然没有精确的从业人数统计,但一篇 2022 年的论文估计,全球有“数百万人”参与数据标注工作。 数据资源逐渐枯竭 寻找人类生成的标注替代方案不仅有其人道主义原因,还有一些实际的原因。 首先,人类的标注速度有限,而且标注者的偏见可能会反映在他们的标注中,进而影响训练的模型。此外,标注者可能会犯错或被标注指令所困扰。而且,雇佣人类进行标注的成本较高。 实际上,数据本身的成本也相当昂贵。例如,Shutterstock 向 AI 供应商收取数千万美元的费用,以让他们访问其数据存档;而 Reddit 则通过向 Google、OpenAI…
谷歌将支持在美国建设七座小型核电反应堆
谷歌将支持在美国建设七座小型核电反应堆,这是一项开创性的协议,旨在满足该科技公司日益增长的电力需求,以支持其人工智能的发展,并推动美国核电复兴。 根据协议条款,谷歌承诺购买由核能初创公司Kairos Power建设的七座反应堆所产生的电力。该协议旨在到本世纪末增加500兆瓦的核电供应。双方在周一表示,这一项目标志着美国小型模块化核反应堆商业建设的首次推进。许多人认为这种技术是未来国内核电产业的发展方向,可能通过建设小型反应堆来实现更快、更经济的建设,而不是建造庞大的定制电厂。 谷歌能源与气候高级总监Michael Terrell表示:“最终目标是实现全天候的碳中和能源。我们认为,为了实现全天候清洁能源的目标,必须使用能够补充风能、太阳能和锂离子储能的技术。” 背景 核电行业的前景正日益与大型科技公司挂钩。美国部分地区的电力需求多年后首次上升,主要是由建设更多用于人工智能的数据中心的需求驱动的。这促使科技行业寻求大量能源。 上个月,Constellation Energy与微软达成协议,重启宾夕法尼亚州三里岛未受损的反应堆——三里岛是美国最严重核电事故的发生地。今年早些时候,亚马逊还在宾夕法尼亚州的另一座核电站购买了一个数据中心。 Kairos在新墨西哥州阿尔伯克基设有一个制造开发设施,正在建造非核反应堆原型。Kairos为谷歌建造的500兆瓦发电设施大约可以为一个中等城市或一个AI数据中心园区提供足够的电力。 该协议回答了长期困扰小型反应堆设计的关键问题:谁愿意为首次建造项目支付更高的价格?谁会订购足够多的反应堆以启动生产线?这一概念仍有待证明,但理论上通过工厂批量生产相同设备,成本会逐步降低。 细节 Kairos计划在2030年至2035年之间交付这些反应堆。虽然没有披露财务条款,但双方签订了类似于企业买家与风能和太阳能开发商之间使用的购电协议。 项目地点尚未确定,可能会在多个地点建设反应堆。谷歌可能会在靠近Kairos反应堆的地区拥有数据中心,但尚未确定这些数据中心是否会直接从核电站获得电力,还是通过电网供电。谷歌可能会将核电的增加计入其碳减排承诺中。 在阿尔伯克基的工厂,工程师们正在开发一种Kairos设计的反应堆泵系统,该系统使用氟化物熔盐作为冷却剂,而不是传统反应堆中使用的水。谷歌的反应堆装置将包括一个50兆瓦的单体反应堆,随后建设的三个电厂将各包含两个75兆瓦的反应堆。相比之下,传统核电站的反应堆通常具有大约1000兆瓦的功率。 Kairos需要通过美国核管理委员会的复杂审批,但已经获得在田纳西州建设演示反应堆的许可,该反应堆可能在2027年开始运行。 Kairos在新墨西哥州阿尔伯克基设有制造开发设施,正在建造测试装置。这些装置不含核燃料成分,主要用于测试系统、组件和供应链,充当未来全尺寸工厂的练习。 Kairos首席执行官兼联合创始人Mike Laufer表示,演示项目和阿尔伯克基工厂帮助公司避免了传统核电行业常见的成本飙升问题。 大局观 目前美国近20%的电力来自核电站,但由于高成本和长周期,新项目的进展陷入停滞。 今年春天,乔治亚州Vogtle核电站的两个新反应堆中的第二个完成建设。在此之前,田纳西河谷管理局于2016年和1996年分别完成了美国最新的核电反应堆建设。 科技公司如谷歌自2010年起开始与可再生能源开发商签署购电协议,这一举措帮助降低了这些技术的成本。核电倡导者认为,稳定的客户需求也有望随着时间的推移降低该行业的成本。 短期内,分析人士预计更多的天然气发电厂将加入,以满足美国对数据中心、新制造业、重工业和交通运输的巨大能源需求。
OpenAI 公布了其新 o1 模型家族的元提示(meta-prompt)
OpenAI 公布了其新 o1 模型家族的元提示(meta-prompt)。通过详细说明其提示系统的工作原理,OpenAI 帮助开发者改进和微调其产品与其日益增长的应用和网站生态系统的互动。 元提示(提示优化器)和系统提示(模型调节器)在后台运行,发出详细的指令,规定 AI 在整个互动过程中应如何表现。当用户发起对话时,元提示已经设定好了舞台,指导 AI 如何理解任务的主要目标,如何组织输出内容。这包括诸如保留用户原始内容、在必要时提供简明的改进,以及确保 AI 在得出结论之前遵循明确的推理步骤等细节。 OpenAI 在其官方平台指南中表示:“元提示指示模型根据任务描述创建一个好的提示,或改进现有的提示。” 这为最大限度发挥其模型的潜力提供了大量技术和相关信息,包括提示示例、提高准确性的技巧以及详细的提示工程指南。 这一发布紧随 OpenAI 主要竞争对手 Anthropic 之后。Anthropic 由前 OpenAI 员工创立,最近公开了其聊天机器人 Claude 的系统提示。我们在 Claude 提示发布时撰写了更详细的分析。 AI 的两种方式 深入研究这两款 AI 的核心,你会发现它们的工作机制截然不同,每个提示都能揭示这两家公司对产品的不同设想。总体而言,OpenAI 将 ChatGPT 概念化为一个强大的计算工具,而 Anthropic 则将 Claude 设想为一个友好且富有人情味的助手。 两者的比较: 总体方法 OpenAI 的提示更像是一本高性能机器的技术手册,重点在于效率、准确性和以最少的麻烦完成任务。其 AI 旨在作为一种工具,专注于提供结果,而不是参与闲聊。 相反,Anthropic 打造的 Claude 更像是一个知识渊博的朋友。其元提示勾勒出了一个具有独特个性、怪癖甚至幽默感的 AI。很明显,Anthropic 目标是创造一个可以进行有意义对话的 AI,而不仅仅是输出信息。 为什么这很重要:如果你想完成任务并继续下一个日程,OpenAI 似乎有更好的提示。 如果你想与模型互动,或与其共同改进结果,Claude…
H100 GPU投资泡沫:供大于求下的市场转变与租赁的明智选择
不要购买H100s。市场已经从供应短缺(每小时8美元)转变为供大于求(每小时2美元),主要原因是预留计算资源的转售、开放模型的微调,以及新基础模型公司的减少。因此,租赁H100会更加划算。 AI竞赛的简史 ChatGPT于2022年11月发布,基于A100系列构建。H100s于2023年3月面世。投资者和创业者的想法很简单:与A100相比,H100的性能提升了3倍,而价格却仅为A100的2倍。 如果你能快速部署H100,你也许能建立更大、更好的模型,甚至超越OpenAI,达到通用人工智能的水平——前提是你有足够的资本与他们竞争。 因此,数百亿美元被投资到富含GPU的AI初创公司中,希望推动这场新的技术革命。结果是…… H100需求的突然激增 市场价格迅速飙升,H100的初始租赁价格大约为每小时4.70美元,后来上涨到每小时超过8美元。许多初创公司的创始人急于训练他们的模型,以向投资者证明他们值得获得下一轮1亿美元的融资。 Nvidia在2023年的投资者演示中,向其投资者和数据中心客户推销了这个市场机会,预计H100的租赁价格可以达到每小时4美元。 对于GPU农场来说,这似乎是“免费”的钱。如果你能让那些初创公司以每小时4.70美元甚至更高的价格租用H100 GPU,回本周期不到1.5年。之后,每年每块GPU都能带来超过10万美元的现金流。 6000亿美元的投资后…… 2023年的大部分时间,H100的价格似乎会一直保持在每小时4.70美元以上,除非你愿意提前支付大额预付款。 但到了2024年初,H100的价格已经降到大约每小时2.85美元。而随着更多供应商上线,我开始收到类似这样的邮件: 在2024年8月,如果你愿意在短时间内拍卖一部分H100时间(几天到几周),你可以以每小时1到2美元的价格找到H100 GPU。 我们正在见证H100价格每年下跌40%以上,特别是对于小型集群。Nvidia预计的4美元每小时的市场前景在不到1.5年内就已经瓦解。 新H100服务器的投资回报率 一个H100 SXM GPU的平均设置、维护和运营成本(即大部分资本支出)超过5万美元,不包括电力和冷却的运营支出。如果按5年的GPU寿命计算,目前的市场投资回报率如何? 对于按需租赁,价格超过每小时2.85美元可以击败股市的年化收益率。如果低于这个价格,投资回报率将低于股市。如果降到每小时1.65美元以下,投资将出现亏损。 长期预订租赁(3年以上) 很多基础设施提供商并不天真,他们在2023年AI热潮时推销3-5年的预订合同,以锁定利润。今天,价格在2.85美元以上的长期合同依然存在。 当模型创作者完成训练后,他们通常会转售集群中的计算能力,部分收回成本。这使得市场上出现了大量的计算资源转售,从而加剧了H100的经济压力。 开源模型的崛起和市场的变化 随着开源权重模型(如LLaMA3)的兴起,市场上对AI推理和微调的需求不断增加。很多企业现在发现,与其从头训练大模型,还不如微调现有的开源模型,这大大减少了H100的需求。 微调模型所需的计算资源远远少于从头训练,因此导致对大型集群的需求下降。加上大量企业选择微调开源模型,投资者对新基础模型公司的兴趣也在减少。 目前,全世界正在创建基础模型的团队不到50个,H100的需求已经显著减少。 过剩的计算资源 许多公司预订了大量H100集群用于训练模型,但后来发现微调现有模型更划算。这些未使用的计算资源现在通过“计算转售商”流入市场,如Runpod、Vast.ai等,这进一步推动了H100的价格下跌。 GPU的替代方案 在推理方面,L40S、AMD的MX300和Intel的Gaudi 3等GPU提供了价格更低的替代方案。虽然这些替代方案在大规模集群训练方面尚不成熟,但它们在小型集群微调和推理方面已经表现出色。 结论:不要购买全新的H100 除非你能获得折扣的H100,或者你有巨大的集群需求,否则投资新的H100硬件很可能会导致亏损。与其投资H100,不如选择其他投资机会,或者直接投资股票市场。
GenAI对数据工程开发的影响
过去两年,生成式AI(GenAI)的发展如火如荼。最初,有人把它和NFT一样看作昙花一现的潮流。但两年后,大部分人已经意识到,这不仅仅是个潮流,而是彻底改变工作方式的转折点,推动我们朝着更快速、更灵活的方向迈进。这些变化值得庆祝,而不是担心! GenAI对数据管道开发的影响 GenAI在数据管道的开发中带来了显著的变化,尤其是自动生成样板代码的功能,让数据工程师能够专注于业务逻辑。例如,通过简单的提示,GenAI就能实现多个质量检查并执行写入-审核-发布的流程,极大简化了复杂流程。 开发时,如果写的代码超过五行但少于两百行,GenAI是非常合适的工具。对于小于五行的代码,自己写可能更快;而对于超过两百行的代码,使用GenAI可能引入更多的调试工作。 此外,GenAI在数据建模、质量检查和文档生成等方面表现出色。比如给定数据管道代码和业务背景,GenAI可以帮助生成高效的数据质量检查建议和文档样板,大大减少重复劳动。 GenAI对数据管道维护的影响 数据工程师经常面临维护数据管道的挑战,尤其是半夜被叫起来解决管道故障的情况。研究表明,97%的数据工程师曾经历过职业倦怠,其中主要原因之一就是数据管道的维护。 未来,LLMs(大语言模型)有望大幅减少这些故障。比如,GenAI可以根据历史数据自动识别和过滤误报的数据质量问题,大幅减少工程师深夜被叫醒的概率。此外,像内存不足这种常见问题,LLMs也能够自动检测并调整内存设置或执行自适应查询,极大降低维护成本。 GenAI将如何推动数据工程师职业发展的两大方向 生成式AI将使工程师能在更短时间内完成更多工作,从而减少公司对数据工程师数量的需求。未来,数据工程师的角色将逐渐融合为两大方向: 数据工程师如何为未来做好准备 对数据工程师来说,GenAI带来的变化应被视为积极的转变。使用LLMs可以让日常工作更加轻松,减少维护负担,避免职业倦怠。因此,数据工程师应当: 未来,数据工程师将更具广泛性和深度,能够更轻松地处理复杂的AI驱动任务。那些顺应变化并提升技能的工程师将在这个AI时代中大放异彩。
OpenAI发布了一项实验性框架“Swarm”
OpenAI最近发布了一项实验性框架“Swarm” https://github.com/openai/swarm ,旨在协调多个AI代理的网络协作。这一出人意料的发布在行业领袖和AI伦理学家中引发了热烈讨论,尤其是关于企业自动化的未来,尽管OpenAI强调Swarm并不是正式产品。 Swarm为开发者提供了一个创建互联AI网络的蓝图,这些AI可以自主沟通、协作,并处理复杂任务。虽然多代理系统的概念并不新鲜,但Swarm让这一技术更易于让更多开发者接触和使用,成为开发AI生态系统的一大进步。 Swarm框架在商业领域的潜在应用极为广泛。一家公司可以利用Swarm启发的技术,创建专为不同部门定制的AI代理网络。这些代理或许能合作分析市场趋势、调整营销策略、寻找销售线索,甚至提供客户支持,几乎不需要人工干预。 这种自动化程度将对企业运作方式产生根本性改变。AI代理有可能接管目前由人类监督的任务,从而提高效率,让员工专注于更具战略性的工作。不过,这也引发了关于工作性质变化以及在人机协作环境中人类决策作用的讨论。 伦理挑战:AI网络的安全、偏见和工作替代问题 Swarm的发布再次点燃了关于高级AI系统伦理问题的辩论。安全专家强调,必须制定强有力的保障措施,以防止自主代理网络被滥用或发生故障。同时,偏见和公平性问题也不容忽视,因为这些AI网络做出的决定将对个人和社会产生重大影响。 工作替代的阴影增加了这一话题的复杂性。虽然Swarm等技术可能会创造新的就业类别,但也加剧了人们对白领自动化加速的担忧。企业和政策制定者需要充分考虑AI技术普及对社会的广泛影响。 一些开发者已经开始探索Swarm的潜力。例如,开源项目“OpenAI代理群项目:分层自主代理群(HOS)”展示了一个可能的实现方式,包括具有不同角色和职责的AI代理层级。这一早期实验虽然充满前景,但也暴露了创建AI系统治理结构的挑战。 从实验到企业:AI协作和决策的未来 OpenAI明确指出了Swarm的局限性。公司研究员Shyamal Anadkat在推特上表示:“Swarm并不是OpenAI的正式产品。把它当作一本食谱,它是用于构建简单代理的实验代码,并不适合用于生产环境,我们也不会维护它。” 这一声明降低了市场预期,提醒人们多代理AI的发展还处于早期阶段。然而,Swarm作为一个概念框架的重要性并未因此减弱。它为开发者和企业提供了一个关于未来AI生态系统可能结构的清晰愿景。 对于企业决策者来说,Swarm是推动前瞻性思考的催化剂。虽然尚未准备好立即应用,但它预示了AI技术发展的方向。那些现在就开始探索这些概念的公司,无论是考虑其潜在的好处还是挑战,未来将更具适应性。 Swarm的发布也凸显了跨学科协作的重要性。技术专家、伦理学家、政策制定者和商业领袖必须共同努力,确保多代理AI系统的发展符合社会的价值观和需求。 随着AI讨论的焦点越来越集中于这些互联系统,Swarm为未来几年企业和社会将面对的问题提供了一个宝贵的预览。科技界也在密切关注开发者如何基于Swarm的理念继续创新,以及OpenAI和其他领先AI公司将如何引领这一变革性技术的发展方向。
Adobe推出内容凭证新工具,助力数字创作者保护作品权益
随着AI技术的飞速发展,相关法规却无法跟上,数字艺术家们如今几乎没有办法确保自己的作品不会被输入到某个数据集,最终让图像生成器模仿他们的风格。Adobe对此提出了应对方案,计划推出一款新工具,帮助创作者数字签署他们的图片、视频和音频文件,并有望控制这些作品的使用方式。 Adobe的新工具预计将在明年初推出,创作者可以为自己的作品附加“内容凭证”,类似于一张包含归属信息和生成式AI训练使用偏好的“营养标签”。这个凭证系统是Adobe领导的内容真实性倡议(Content Authenticity Initiative,简称CAI)的一部分,旨在为数字媒体标记来源,建立行业标准。随着AI生成的逼真图像泛滥,线上真实性逐渐被侵蚀,该项目的意义尤为重大。 CAI高级主管Andy Parsons在接受采访时表示:“我们经常看到关于版权诉讼的新闻,以及生成式AI模型无视所有权和补偿,在网络上肆意抓取内容的现象。这是我们社区的真实担忧。在相关版权法和法院判决明确保护之前,我们认为现在及未来,确保创作者能表达他们的使用偏好是非常重要的。” 合作是关键:CAI的很多举措需要跨行业的协同配合。比如,AI公司需要承诺尊重艺术家的创作偏好。Parsons透露,数据治理平台Spawning AI已经表示支持,其他公司如Stability AI和Hugging Face也是合作伙伴。此外,还有许多相关讨论进入了后期阶段。 Parsons还指出,这并不是一场艰难的谈判,因为双方并非在签订商业合同。他解释道:“创作者生态系统对此有需求,某些创作者的选择性退出并不会对商业模型的质量产生重大影响,我们认为AI公司应当予以尊重。” 为了增强内容凭证的可见性,CAI还计划与浏览器公司展开合作,微软是该组织的数千名成员之一,谷歌也曾与其合作。目前,Adobe推出了一个浏览器扩展,允许用户在尚未显示这些标签的网站和社交媒体平台上查看内容凭证。 至于有人可能会通过删除凭证标签或截图的方式盗用内容,Parsons表示,这并不像想象中那么简单。Adobe开发的技术结合了“水印、指纹技术和安全元数据”等多种最佳实践,确保这些凭证数据难以被篡改。即使是通过截图或拍照的方式,数据依然能够保留。 CAI成立于2019年,随着深度伪造技术的威胁日益严重,该项目的会员规模不断扩大。CAI及其相关标准组织——内容来源与权限联盟(C2PA)吸引了包括微软、谷歌、Adobe等科技巨头,BBC、纽约时报、美国新闻社等媒体机构,以及徕卡、佳能、尼康等相机制造商的加入。
Apple研究人员发文质疑AI的“推理”能力
机器学习模型到底是如何工作的?它们是否真的像人类理解的那样“思考”或“推理”?这个问题不仅是实践层面的,更是哲学层面的。最近的一篇论文引发了广泛讨论,答案似乎是——至少目前来说,答案很可能是否定的。 苹果公司的AI研究团队发布了一篇名为《理解大型语言模型在数学推理中的局限性》的论文 (https://arxiv.org/pdf/2410.05229),该论文引发了广泛讨论。尽管涉及的符号学习和模式再现等概念较为复杂,但论文的核心观点非常容易理解。 假设提出一个简单的数学问题: “奥利弗星期五摘了44个猕猴桃,星期六摘了58个,星期天摘了相当于星期五两倍的猕猴桃。奥利弗总共有多少个猕猴桃?” 显而易见,答案是44 + 58 + (44 * 2) = 190。虽然大型语言模型在算术方面并不完美,但它们通常可以正确回答这类问题。然而,如果加上一些随机的无关信息,比如: “奥利弗星期五摘了44个猕猴桃,星期六摘了58个,星期天摘了相当于星期五两倍的猕猴桃,但其中有5个稍微小了一些。奥利弗总共有多少个猕猴桃?” 这实际上还是同一个数学问题,小猕猴桃依然是猕猴桃,小学生都能理解这一点。然而,最先进的语言模型却容易被这种额外的细节搞糊涂。以GPT-o1-mini的回答为例: “……星期天有5个猕猴桃比平均值小,我们需要从星期天的总数中减去它们:88(星期天的猕猴桃) – 5(小猕猴桃)= 83个猕猴桃。” 这个例子仅是几百个经过轻微修改的问题中的一个,但大多数类似的问题都会导致模型的成功率大幅下降。 为什么会这样? 为什么一个能够正确解决问题的模型会因为无关的细节而迷失?研究人员认为,这种可靠的失败模式表明模型实际上并没有真正理解问题。虽然它们的训练数据允许它们在某些情况下给出正确答案,但一旦需要进行真正的“推理”,例如是否需要考虑小猕猴桃的数量,模型便会给出奇怪且不直观的结果。 研究人员在论文中指出: “我们研究了这些模型在数学推理中的脆弱性,并展示了它们的表现随着问题中条款数量的增加而显著恶化。我们推测这种下降是因为当前的大型语言模型不具备真正的逻辑推理能力,它们只是试图重现在训练数据中观察到的推理步骤。” 这种观察与人们常归因于语言模型的特性相一致。比如,当“我爱你”之后常跟着“我也爱你”时,语言模型可以轻松重复这些句子——但它并不是真的“爱”你。同样,虽然它可以遵循它见过的复杂推理链,但当出现稍微偏离的情况时,它的表现就会崩溃,表明它并不是在真正推理,而是在复制它观察到的模式。 一位OpenAI研究员在对该论文表示肯定的同时提出异议,认为通过提示工程可以解决这些失败案例中的错误。然而,论文作者Farajtabar指出,虽然更好的提示设计可能会对简单偏差有效,但模型可能需要成倍增加的上下文数据来应对复杂的干扰——这些干扰对于一个孩子来说几乎是微不足道的。 这是否意味着LLM无法推理? 答案并不明朗。也许当前的大型语言模型并不能“推理”,但它们是否永远无法推理?没人知道。这些概念尚未完全定义,而问题出现在AI研究的最前沿,技术状态几乎每天都在变化。也许LLM“推理”的方式是我们尚未识别或控制的。 这个问题为未来的研究开辟了一个充满可能性的前沿领域,但也提醒我们,面对AI产品的宣传时要谨慎。AI究竟能做到宣传中所说的那些事吗?如果能,它是如何做到的?随着AI成为日常软件工具,这类问题已经不仅仅是学术讨论,而是关乎实际应用的现实问题。