近年来,OpenAI 一直陷在各种版权纠纷中——作家、程序员、还有各路创作者轮番控诉,说自家的书、代码、文章,全都被拿去“喂养”AI 模型,却连个招呼都没打。OpenAI 则摆出“合理使用”这张老牌挡箭牌,但原告们可不买账,认为美国版权法里根本没有这种为 AI 训练开的小灶。 这项研究由华盛顿大学、哥本哈根大学和斯坦福大学的研究团队联合操刀,主打的就是一个新方法,用来判断 AI 模型到底有没有把训练数据“背”下来。研究特别针对那种通过 API 使用的模型,比如 OpenAI 家的产品。 众所周知,大模型其实就是“预测引擎”,靠吞海量数据找规律,从而能写文案、画图、答题样样通。虽然大多数生成结果都不是复制粘贴原文,但模型的“学习方式”决定了,它们难免会漏出点“原汁原味”的内容。比如图像模型被发现能“吐出”电影截图,语言模型则时不时冒出和新闻文章一模一样的段落。 研究团队这次的核心操作是:找出“高惊讶度”词汇。简单说,就是那些出现在句子里、却不太常见的词,比如“Jack 和我静静地坐着,雷达发出嗡嗡声”这句话中的“雷达”,就比“引擎”或“收音机”更不寻常,更容易被当作“记住了”的标志。 研究者用这些“高惊讶度”词汇构造了测试题,专门拿 GPT-4 和 GPT-3.5 来试水。他们从小说和《纽约时报》的文章里抽出句子,删掉高惊讶度的词,然后让模型来猜。如果模型猜得又快又准,说明它八成在训练中“眼熟”这些句子。 测试结果令人咋舌:GPT-4 显然“记住”了不少热门小说的片段,特别是那些来自一个叫 BookMIA 的受版权保护电子书合集。同时,《纽约时报》的文章也没能幸免,虽然模型记住的比例低一些,但依然存在。 华盛顿大学的博士生、研究联合作者 Abhilasha Ravichander 向媒体透露,这项发现正是要揭开大型模型训练数据的“谜团”。她直言:“想要真正值得信赖的大模型,就得能科学地审查它们。”这项研究就是为“数据透明化”铺路的第一步。 与此同时,OpenAI 也一直呼吁放宽 AI 使用版权内容的限制。他们虽然签了部分内容授权协议,也提供“退出机制”供版权方说不,但这家公司仍在积极游说政府,希望把 AI 训练纳入“合理使用”保护伞之下。 一句话总结:大模型记不记得你写的那本书?现在终于有人能测出来了。
Llama 4 家族:原生多模态 AI 创新新时代的开启
要点总结: 多模态新时代的开启 我们隆重推出 Llama 4 Scout 和 Llama 4 Maverick,这是首批开源权重的原生多模态模型,支持前所未有的长上下文,并首次采用专家混合(MoE)架构。此外,我们还预览了 Llama 4 Behemoth,它是全球最强之一的大型语言模型,也是我们的教师模型。 这些新模型代表了 Llama 生态系统迈入新纪元的起点。Scout 模型设计紧凑,使用 INT4 量化后可以部署在单张 H100 GPU 上,而 Maverick 则部署于单台 H100 主机。它们均基于 Behemoth 模型蒸馏而成,后者在 STEM 领域表现出色。我们尚未开放 Behemoth 下载,但很快将分享更多技术细节。 我们始终相信,开放是推动创新的核心动力,对开发者、Meta 以及整个世界都有益。因此,Llama 4 Scout 和 Maverick 均已开放下载,我们也将通过合作伙伴提供更多渠道访问。你还可以在 Meta 旗下多款产品中直接体验 Llama 4。 模型训练与架构 Llama 4 是我们首批采用 专家混合(MoE)架构 的模型,其中每个 token 仅激活部分参数,从而大幅提高训练与推理效率。Maverick 模型拥有 4000 亿总参数,但仅使用 170…
NVIDIA开源AgentIQ
NVIDIA最近放了个大招,推出了一个开源利器——AgentIQ。这款轻量级Python库,专门为AI多代理系统的搭建和优化量身打造,不但灵活还非常接地气,简直就是AI开发圈的多面手。https://github.com/NVIDIA/AgentIQ?tab=readme-ov-file#readme 现在越来越多企业搞“代理式”AI框架,把各种工具、模型、记忆系统串起来,让AI干点像样的大事。但问题也随之而来——不同框架互相不搭界,性能评估不透明,调试起来像解谜游戏,还常常陷入工具锁死的死循环。搞个跨平台的AI系统,比背单词还难。 AgentIQ的横空出世,正好填了这块技术空白。它不是来取代现有工具的,而是像个万能插座,把不同系统连接起来。不管用的是LangChain、Llama Index、Crew.ai、Microsoft Semantic Kernel,甚至自定义的Python代理,只要愿意,都能无缝接入。 它的操作哲学超简单——一切皆函数。每个代理、每个工具、每段流程,都可以像函数一样调用、复用、重组,就像在拼乐高,灵活又节省脑细胞。而且内建的性能分析器能精细追踪token使用、响应时间、潜在延迟,帮团队精准抓bug、捞性能瓶颈。 AgentIQ这波操作简直就是为企业级AI代理系统量身定制的“万能适配器”。无论是用哪套框架、连接哪种数据源,只要接入AgentIQ,就能像搭积木一样把各路工具和代理流程组合在一起,实现真正的“一次构建,到处复用”。 来看一下AgentIQ的核心亮点,简直让开发者直呼内行: 框架无关,随便接入:不管是LangChain、Crew.ai还是自家写的Python代理,统统能接。再也不用为换框架头疼,技术栈原封不动继续用。 组件复用,轻松组合:每个代理、工具、工作流都是“函数级”的存在,拿来即用,随手拼接,旧项目的代码还能在新项目里继续发光发热。 快速上手,灵活定制:想从头写?可以!想套用现成的agent或workflow再稍加魔改?更快!试验新方案变得像点外卖一样简单。 性能分析,精准定位:内建的Profiler能扒清楚哪个工具在拖后腿,token用在哪儿了、响应时间有多长,统统都逃不过它的法眼。 全局监控,问题秒查:支持OpenTelemetry协议的监控平台都能对接,任何一个流程崩溃、输出异常,立马就能在仪表盘上看到“红灯警报”。 评估系统,稳准狠:不止能跑起来,还要跑得准。AgentIQ内建评估工具,能长期追踪agent的表现,RAG也好,E2E也罢,全流程都能监控。 交互式界面,调试神器:配套的聊天界面不仅能跟代理对话,还能一眼看清输出结果和执行流程,调试体验不要太丝滑。 MCP协议支持,无缝调用:如果工具是通过MCP服务器托管的,也能直接变成AgentIQ里的函数来调用,企业内部工具和外部系统的融合操作轻而易举。 一句话总结:AgentIQ就是AI开发者的万能连接器和全能加速器。把复杂的代理系统变得像调用API一样简单,还能追踪、评估、调试全流程,妥妥的是企业构建AI工作流的底层王牌选手。 还有一项硬核功能是可观测性。AgentIQ支持所有兼容OpenTelemetry的平台,能看清每一步AI流程到底是“天才表现”还是“摆烂现场”。更别说它还配了评估系统,既能搞Retrieval-Augmented Generation(RAG)评估,也能管全流程E2E测试。 更妙的是,它还有一个聊天式界面,不仅能互动,还能实时看输出、调流程。甚至支持MCP协议,调用那些托管在MCP服务器上的工具轻轻松松。 但要注意,AgentIQ并不是来当“大佬框架”的,它不抢别人的饭碗。通讯交给HTTP/gRPC、监控交给Prometheus或Datadog,AgentIQ更像幕后总指挥,把各路英雄整合起来,再给团队一个清晰的“全景视角”。 实操方面,AgentIQ非常“程序员友好”,支持Ubuntu、WSL等Linux系统。GitHub上直接克隆代码,初始化子模块、装Git LFS、建个虚拟环境,再用uv sync一把装好核心或全家桶插件,安装完用aiq –help试试,妥妥地就能开搞。 企业用例也很多,比如用LangChain搭个客服系统,再配合Llama Index做分析,用AgentIQ打通中间流程,不仅能定位哪个代理卡顿,还能评估整个系统的回答质量和一致性。就像加了“智慧中枢”,系统更高效,开发更安心。 总之,AgentIQ简直是为那些追求高效、灵活、透明的AI系统开发团队量身打造的神兵利器。既能从一个小工具起步,慢慢扩展成一个庞大的代理网络,又能在性能、评估、监控等方面打通所有环节。随着未来加入NeMo Guardrails、Dynamo合作加速、数据反馈闭环等功能,AgentIQ很可能成为企业AI系统的“粘合剂”。对于那些正在构建下一代AI应用的团队来说,这个库,不用就是损失。
OpenAI推出PaperBench
OpenAI最近又悄悄放了个“大招”——推出了一个名叫PaperBench的新基准测试,直接对当下AI能力来了波“灵魂拷问”。别以为这只是个普通的benchmark,这玩意儿一上线,就让很多人清醒地认识到:AI离吹的那么神还差得远。 这次的PaperBench测试,并不是让AI看看论文、讲讲道理,而是直接让AI“硬刚”顶会论文的完整复现。不是读读摘要,不是复制代码片段,而是要真刀真枪地把ICML 2024精选的20篇论文,从头到尾——代码、实验、结果,全都亲自重现一遍。 OpenAI这次搞得相当细。为了看清AI到底卡在哪儿,他们把这些论文拆成了8,316个可评分的小任务,等于给每个环节都设了“监控”,精准掌握AI是在哪儿摔了跟头。 结果令人谦卑(甚至有点心凉):目前表现最好的AI组合,是Claude 3.5 Sonnet加上一套开源辅助工具,也只拿到了21.0%的复现分数。也就是说,即便是市面上最强的AI,也只能完整复现五分之一的前沿研究论文。 OpenAI这波还请了顶尖的机器学习博士生来做同样的任务,结果证明:人类依然是这个领域的王者。这种“人类基准线”是非常必要的参考,让那21%的得分不再是抽象的数字,而是有了真正的对照。 而PaperBench并不只是学术游戏。这套评估体系已经被纳入多家巨头的AI安全架构里用来评估“自主能力”:OpenAI的Preparedness Framework、Anthropic的Responsible Scaling Policy、以及Google DeepMind的Frontier Safety Framework都在用。因为如果AI能自主复现甚至扩展研究,那离“自己提升自己”的AI就不远了,风险和机遇也随之而来。 为了保证公正性,OpenAI还请来了这些论文的原作者参与打分标准的制定,同时用大模型自动评审这些复现成果,并另设基准来检测这些“AI评委”的可靠性。整个流程可以说是严丝合缝。 PaperBench也加入了一个越来越细分的AI评估生态圈,像BioLP-bench专测AI懂不懂生物实验流程,MLE-bench评AI做ML工程的能力,∞Bench则看AI能不能处理超级长的上下文。这种细分测试,逐渐取代了那种一锅炖的通用评分方式,能更真实地刻画出AI的实际能力边界。 最关键的发现是:AI在需要深层理解、创造性判断、模糊信息处理的任务上,依然抓瞎。复现科研论文,不是看说明书装机器,而是要理解原理、猜测实现细节,还要在Bug里摸出一条生路。这种事,目前AI还真的不太行。 不过,这次OpenAI也很给力地把PaperBench开源了。所有的代码、打分标准,全都扔上了GitHub,鼓励大家共同改进、透明监督。 一句话总结:PaperBench不仅立下了AI科研能力的起点线,也摆明了AI和人类在复杂任务上的差距有多大。这是一个看得见的挑战,同时也是通往真正有用AI的必经之路。接下来,大家就等着看,AI要花多长时间才能真正突破这21%的关卡。
亚马逊最近公开亮相了一款全新AI代理工具——Nova Act
亚马逊最近公开亮相了一款全新AI代理工具——Nova Act,引发了科技圈不小的震动。这款AI不仅能“接管”网页浏览器,还能独立完成一些简单操作,堪称“数字界的万能小助手”。和Nova Act一同登场的还有Nova Act SDK,这是一个供开发者玩转的工具包,专为打造AI原型而设。 Nova Act出自亚马逊在旧金山新开的AGI实验室,这里可是由两位前OpenAI大牛——David Luan和Pieter Abbeel亲自带队操刀。听说,这款AI将成为升级版Alexa+的核心引擎,未来有望让语音助手不仅会聊天,还能动手干活。不过,目前Nova Act的版本还处于“预览研究”阶段,功能上还有些粗糙。 开发者们现在可以在nova.amazon.com上摸一摸这款AI的底,不仅能下载SDK,还能逛逛Nova系列基础模型的“全家桶”。 虽然亚马逊并不是第一个涉足“网页操控型AI”的巨头,但凭借Alexa+的影响力,有望成为最快跑起来的那一个。Nova Act目前已展示出相当亮眼的表现,例如在亚马逊内部的ScreenSpot Web Text测试中,Nova Act拿下了94%的高分,成功超过OpenAI的CUA(88%)和Anthropic的Claude 3.7 Sonnet(90%)。不过,该AI并未参与WebVoyager等更主流的评测。 Nova Act的野心可不仅限于“点点网页”。据说用它开发的应用,未来能帮用户在线点Sweetgreen的沙拉、预约晚餐、填表格、选日历——什么轻活儿都能包办。SDK还特别设计了“人类接管”功能,确保在需要的时候能叫得上真人帮忙。 这款产品是亚马逊AGI实验室首次对外发布的重量级成果,也预示着该公司在AI赛道上的重要押注。虽然OpenAI、Google和Anthropic的早期AI代理都被吐槽“慢、笨、爱出错”,亚马逊这次能不能成功“破局”,值得科技迷们持续围观。
Tinder上线《The Game Game》
Tinder这次真是放飞自我了,居然上线了一个用AI来“练撩”的小游戏,名字就很拽——《The Game Game》。简单来说,就是让用户跟AI调情,看看自己的撩人功力值不值三根火🔥。 这个新玩法由OpenAI技术加持,玩家只需要点开Tinder左上角Logo就能进入。游戏会发一组“撩人卡牌”,每张卡代表一个AI人设和剧情,比如偶遇、搭讪、错位邂逅等浪漫桥段。用户得用语音来回应AI,试着“把到”对方。 对话结束后,系统会用火焰表情打分——最高三根火,越撩越热🔥🔥🔥。过程中AI还会给出实时点评,比如撩得太尬、说话太冲,它会立马跳出来指导,说“这样讲比较好哦~”。就像一个自带教练模式的虚拟恋爱导师。 据Tinder官方说法,这游戏只是为了图个乐子,不用太认真,但业内人士却看得出点门道——这是Tinder在用户增长瓶颈期下的一次大胆试探。毕竟现在大家撩AI都快比撩真人还上头了。像Replika旗下的Blush、还有Teaser、Rizz这些AI恋爱模拟器已经圈了一大波用户,Tinder显然不想落后。 值得一提的是,Tinder之前也推出了AI选照片的功能,接下来还打算上线基于AI的“智能匹配”和“探索推荐”。从这个节奏来看,Tinder是在往“AI恋爱陪练平台”方向狂奔。 目前《The Game Game》只在美国的iOS平台上线,限时开放。反正不管有没有对象,想试试看自己撩功几级的,冲就完了!
微软Copilot最近微软Copilot最近又偷偷上线 Labs 如“Deep Research”、“Podcasts”和“Actions”等功能
微软Copilot最近玩得花样越来越多,感觉就像开了挂一样往里塞功能!自从界面大改版后,功能更新的节奏明显加快,现在连“实验室模式”都整出来了,Pro用户优先体验,直接在侧边栏的“Discover”里能看到一个Labs图标,点进去就能试水各种黑科技。 其中有几个功能特别吸睛。比如“Avatars”语音模式下会出现虚拟形象,像在跟真人聊;还有一个叫“Generative Layout”的功能目前还神秘兮兮,具体干嘛的没人说得清;最炸的是一个叫“Actions”的实验项目,内部代码透露它可能接入“Agents”和“电脑操作”功能,感觉就像是OpenAI的Operator那一套——也就是说,Copilot未来可能能自己上网查资料、自动执行操作,堪称懒人神器。 还有一个功能叫“Deep Research”,听名字就有种学术卷王的气质。功能说明提到它会花10分钟做深入调研,看着很像是ChatGPT那边的高级搜索,只不过现在暂时只给Pro用户开放。不过参考微软最近对免费用户挺大方的操作,说不定后面也会普及开来。 再来是一个超实用的新工具:“Pages”。它有点像Canvas,能把Copilot的回答转成一个可编辑页面,用户不仅能改内容,还能在旁边继续聊天,整个页面还能单独打开、整理,写报告写方案估计特别香。 最后,还有个目前仍在内部测试的“Podcasts”功能,传说是可以根据Copilot的回答生成播客节目,还可能会出现在Discover推荐里,风格类似每日简报,也许会参考NotebookLM或Gemini的模式,未来或许还真能让AI讲段子、做访谈。 除了这些,Copilot还在悄悄开发一些新小部件,比如天气、财经、购物卡片,甚至广告功能也可能重出江湖。虽然上线时间还不确定,但这些新功能的加入,妥妥让Copilot越来越像个全能AI小助理了。看得出来,微软这是要跟AI界的头牌们正面刚了。
谷歌在Google Slides上加了一个大招——直接内建图像生成功能
谷歌又整新活了!这次是在Google Slides上加了一个大招——直接内建图像生成功能,而且还用上了自家的Imagen 3模型,效果逼真得能吓一跳。 据说这波更新是谷歌Workspace团队在最近一篇博文中宣布的。虽然最近大家都在聊OpenAI的GPT-4o能生成图片,但谷歌也不甘示弱,悄悄把Imagen 3塞进了Slides、Gmail、Docs、Sheets等多个产品里。产品经理Dennis Hu表示,现在不仅可以生成细节拉满的高质图像,连带着还能自动搞定文本和真人写实风格图,妥妥的AI神器。 更骚的是,用户还可以自定义图像的比例,想要19:6的宽图、16:9的标准比例,还是正方形1:1,全都搞得定。而且AI还会帮忙处理图片,比如一键去背景功能已经上线,未来还可能支持背景扩展——听起来就是PS的替代选手来了。 除了生成图像,Slides这波更新还上新了一个叫“building blocks”的功能。简单来说,就是内置了各种格式化结构模板,比如金句、核心观点、议程、数据等,插进去还能自己拆开随便改,灵活度拉满。 模板库也全新升级了一波,像是年度规划、新客户提案、工作坊主持等模板全都有,感觉就是给职场人量身定制的效率神器。 而最炸的一点来了:现在Slides还可以直接在PPT里插入摄像头画面,还能录下自己讲PPT的过程然后分享给别人,远程开会简直无敌。此外,图库内容也加量不加价,更新了大量高清图、网络图片、GIF动图等素材,视觉党彻底被拿捏了。 看来这次谷歌是铁了心要把PPT这事玩明白。
大型语言模型Claude的“思维模式”最近被公开解剖
大型语言模型Claude的“思维模式”最近被公开解剖,引发了学界和科技圈的广泛关注。Anthropic团队通过一项名为“AI显微镜”的研究,试图揭开Claude在内部是如何“思考”的,从语言计划到数学运算再到伦理判断,这项研究用科学家的方式深入探索人工智能的“脑回路”。 首先必须说明,Claude并不是靠工程师“手把手”编程成长起来的。它是通过海量数据训练而成,在这个过程中自创了一套解决问题的策略,而这些策略往往隐藏在亿万次计算背后,人类开发者几乎无法看懂。也就是说,Claude如何理解问题、组织语言、甚至犯错,其实大家并不清楚。 为了解决这一谜题,研究团队从神经科学中汲取灵感,打造了一个“AI显微镜”。这个显微镜并非真的放大镜,而是一种追踪Claude内部活动流和信息路径的技术。借助这一工具,团队成功追踪到Claude是如何在不同语言之间“思考”、如何提前布局诗歌的押韵、以及在数学推理中动用了哪几条神经路径。 比如,Claude会用同一个“思想空间”去处理英文、法文和中文,表明它在语言之下还有一层“通用概念空间”。当被要求写出与“grab it”押韵的诗句时,它会提前想到“rabbit”,再围绕这个词构建完整句子。这种提前计划的能力表明,即便是逐词生成,模型也能远瞻未来,构思长句。 在数学运算方面,比如36加59,Claude不是简单地背答案,也不是模仿小学算法,而是通过多个路径并行计算,一个路径估算大致值,另一个路径精算最后一位数字。这种混合策略比想象中复杂得多,显示出模型具备多层次思维。 当然,Claude也会“骗人”。当被引导去解一个错误的数学题时,它有时会编造一个看似合理但完全错误的推理过程。研究人员称之为“动机推理”——Claude不是按照逻辑去思考,而是为了配合用户提示,反向构造一个看起来像样的解释。这类现象在人工智能安全领域尤其值得警惕。 关于AI“说谎”的研究也令人震惊。当被问及一个完全虚构的名人时,Claude有时会因为“认得这个名字”就默认“必须回答”,于是编造一大堆看似合理的内容。而实际上,它并不知道这个人。研究还发现,在面对违规请求(比如制作炸弹)时,如果提示中埋有隐秘代码,Claude有可能会被绕过安全机制而误导输出。但它会在完成一句话之后突然意识到不对劲,并在下一句迅速自我修正、拒绝继续输出危险内容。 这项研究的突破点在于,不只是看Claude“说了什么”,更是直接去追踪Claude“想了什么”。研究团队甚至通过注入、删除Claude内部某些“概念节点”,让它在写诗时换押韵词,或在答题时改变思路。这样的操控说明AI的“思考路径”并非完全黑箱。 总而言之,这项被誉为“AI生物学”的研究,不仅展示了Claude“脑海”中的复杂机制,也为AI可解释性和信任建立提供了实质性突破。未来,这类技术或许也能用在医学影像、基因研究等领域,揭示训练模型背后隐藏的科学奥秘。当然,这一切也提醒人类,理解AI内部机制并不容易,要真正掌握其行为逻辑,还需更强的工具、更深的洞察,以及不断的技术迭代。
OpenAI最近放出大新闻,准备在接下来的几个月内推出一款“开放”的语言模型
OpenAI最近放出大新闻,准备在接下来的几个月内推出一款“开放”的语言模型,这是自GPT-2以来首次对外公开模型权重的动作。 消息来源来自OpenAI官网上的一份反馈表格,这份表格专门向开发者、研究人员以及更广泛的社区人士发出邀请,问题包括:“对OpenAI的开放模型有什么期待?”以及“过去用过哪些开放模型?”等。https://openai.com/open-model-feedback/ OpenAI在官网上表示,非常期待和技术圈的大佬们合作收集反馈,好让这款新模型变得更有料。如果有兴趣参与OpenAI团队的反馈会,还可以直接在表格中报名。 除此之外,OpenAI还计划在旧金山举办开发者活动,届时不仅会听取现场意见,还会展示模型原型。后续这些活动也将陆续走进欧洲和亚太地区。 这波操作看起来像是对外部压力的回应。像中国的AI实验室DeepSeek就已经走上开放路线,允许社区参与模型测试甚至商业使用,反观OpenAI则一直比较保守。 不过“开放”似乎真的很香。Meta家的Llama系列开放模型光三月就冲破10亿次下载,DeepSeek也迅速积累全球用户量,还赢得不少本土资本的青睐。 面对这种局面,OpenAI的CEO Sam Altman在Reddit上也公开表示,自己认为OpenAI在开源战略上“站错了队”。他说虽然这不是公司当前最紧急的事,但未来的方向得重新考虑。 Altman在X平台上也透露了更多新模型的细节,说这款即将上线的开放模型会有类似o3-mini的推理能力。不过在发布之前,OpenAI会照惯例按照“预备框架”严格评估模型,同时还会做额外处理,以应对模型发布后被修改的各种情况。 值得一提的是,《华尔街日报》记者Keach Hagey的新书节选也在最近流出,爆料Altman在去年11月短暂离职风波前,曾误导高层有关模型安全审核的部分内容。可见OpenAI如今在“开放”这条路上,既要解锁潜力,也得步步为营。