Meta近期在人工智能领域的野心不断扩展,从分子研究到虚拟化身均有涉足,但其前行之路也伴随着技术挑战与法律风险。 据知情人士透露,Meta已推迟原定于2025年春季发布的新一代Llama模型“Behemoth”。该模型原计划于4月推出,后延期至6月,而如今则再次推迟至秋季。此次延迟的主要原因在于内部工程师对模型训练结果表示失望。尽管Meta方面宣称“Behemoth”在多个基准测试中优于OpenAI与谷歌的同类产品,但公司内部对于其是否真正较Llama 2带来实质性改进存在持续争议。一些内部人员指出,在实际应用环境中,“Behemoth”的性能提升并不显著。 此项延期也引发了外界对Meta 2025年高达650亿美元的预计资本支出(CapEx)的进一步关注。更严重的是,在14位最初开发Llama模型的研究人员中,已有11人离职,这对Meta的技术公信力造成了不小的打击。 尽管在大语言模型领域遇挫,Meta在科学AI方面则动作频频。公司近日正式发布了“Open Molecules 2025”(OMol25)https://huggingface.co/facebook/OMol25 ,这是一个规模庞大的开放数据集,涵盖超过一亿条量子化学计算结果。据介绍,生成这一数据集共耗费60多亿计算小时,内容涵盖生物分子、有机物、金属配合物,并包含电子自旋、电荷状态、构象等丰富信息,旨在支持AI驱动的药物开发与材料科学研究。 与此同时,Meta还发布了UMA模型(Universal Molecular Architecture),这是一款基于图神经网络(GNN)的预测模型,采用线性专家混合架构(Mixture of Linear Experts)。据称,UMA在分子属性预测方面兼具高速度与高准确率,并在多个专业领域的基准测试中超越了现有专用模型。 此外,Meta还推出了一项名为“Adjoint Sampling”的新型生成方法。该方法以扩散建模为核心,可在样本数量极少的情况下探索分子构象空间,为分子模拟与结构生成提供了新的路径。 Meta官方账号“AI at Meta”于5月14日通过社交媒体宣布了这些发布内容,并强调其在分子属性预测、语言处理和神经科学等领域具有变革意义。值得一提的是,所有相关工具与模型均已通过Hugging Face与GitHub向研究社区开源。 尽管Meta目前在大型语言模型方面面临不小压力,其在科学研究领域的布局则显示出公司试图在AI应用中找到更多差异化与长期价值。这种策略能否成功扭转技术口碑并增强投资者信心,仍有待时间验证。
OpenAI于2025年5月16日(星期五)宣布推出其迄今为止最强大的AI编码代理——Codex的研究预览版
该工具由codex-1模型驱动,这是基于OpenAI最新的o3人工智能推理模型,专为软件工程任务优化。根据OpenAI的说法,codex-1生成的代码比o3更加简洁清晰,遵循指令的准确性更高,并能够通过迭代方式不断测试代码直至通过所有测试。 Codex运行于一个隔离的云端虚拟计算机中。通过与GitHub连接,Codex的工作环境可预先加载用户的代码仓库。OpenAI表示,该AI编码代理可以在1到30分钟内完成编写简单功能、修复bug、回答有关代码库的问题以及运行测试等多项任务。 据OpenAI介绍,Codex具备同时处理多个软件工程任务的能力。在运行期间,用户仍可继续使用本地计算机和浏览器,Codex不会进行干预或限制。 Codex自当天起向ChatGPT Pro、企业版和团队版用户陆续开放。OpenAI表示,初期用户将享有“慷慨的使用额度”,但在未来数周内,该公司将对Codex设定速率限制,用户随后可选择购买额外额度以继续使用此工具。据OpenAI一位发言人透露,该公司还计划在不久后将Codex的使用权限扩展至ChatGPT Plus和Edu用户。 软件工程专用的AI工具——通常被称为“vibe coders”——近年来人气飙升。谷歌与微软的CEO曾表示,各自公司中大约有30%的代码已由AI生成。今年2月,Anthropic推出了名为Claude Code的代理式编码工具;而在4月,谷歌则升级了其AI助手Gemini Code Assist,增强了其代理能力。 随着AI编码市场热度持续上升,相关企业亦迅速成长。知名AI编码工具Cursor在2025年4月的年化营收已达到约3亿美元,目前正以90亿美元估值筹集新一轮资金。 OpenAI显然也希望在这一市场分得一杯羹。根据消息,该公司已达成协议,以30亿美元收购另一家热门AI编码平台Windsurf的开发商。同时,Codex的推出也标志着OpenAI正在全力构建其自身的AI编程工具矩阵。 获得Codex访问权限的用户可在ChatGPT的侧边栏中找到该工具,并通过输入提示词并点击“Code”按钮分配编码任务,亦可提出代码相关问题并点击“Ask”按钮进行咨询。提示栏下方将显示已指派的任务及其执行进度,便于用户跟踪管理。 在Codex发布前的一次简报会上,OpenAI代理研究部门负责人Josh Tobin向媒体表示,该公司最终希望AI编码代理能够成为“虚拟团队成员”,自主完成那些需人工工程师花费数小时乃至数天的任务。据透露,OpenAI已在内部使用Codex来处理重复性任务、搭建新功能框架以及起草文档。 OpenAI产品负责人Alexander Embiricos表示,公司为o3模型所做的大量安全性工作同样适用于Codex。根据OpenAI官方博客的介绍,Codex将坚决拒绝开发“恶意软件”的请求。此外,该工具在“空气隔离”环境中运行,无法访问互联网或外部API,从而在降低其潜在危险性的同时,也限制了其部分功能的广泛性。 需要注意的是,与其他生成式AI系统一样,AI编码代理目前仍容易出错。微软近期一项研究发现,即使是行业领先的模型,如Claude 3.7 Sonnet和o3-mini,在调试代码方面也表现不够稳定。然而,这种问题并未削弱投资者对该类工具的热情。 OpenAI还对其近期推出的开源终端工具Codex CLI进行了升级,默认集成了专为软件工程优化的o4-mini模型。该模型现已成为Codex CLI的默认模型,并通过OpenAI的API对外开放,定价为每100万个输入tokens收取1.5美元、每100万个输出tokens收取6美元(相当于大约75万字,超过整部《魔戒》三部曲的总字数)。 Codex的发布进一步表明,OpenAI正积极将ChatGPT拓展为一个包含多项产品的综合性平台,而不仅仅是一个聊天机器人。在过去一年中,该公司已陆续为订阅用户开放了AI视频平台Sora、研究助手Deep Research以及网页浏览代理Operator等优先使用权。 这一系列新产品的推出可能促使更多用户订阅ChatGPT服务,尤其是在Codex方面,也有望通过设定额度限制并提供额外购买选项,推动用户增加在OpenAI平台上的支出。
在浏览器中,二进制格式比JSON更优秀
一位开发者在其近期的性能基准测试回顾中指出,早前在对比 JSON.parse 与 binaryEncoding.parse 的过程中存在关键错误。他原本直接对比从字符串中解析JSON数据与从缓冲区中解析二进制数据的性能,然而这种对比方式忽略了多个影响因素,因此无法反映真实差距。 首先,缓冲区解码为字符串本身就非常昂贵。相比之下,JSON在此流程中直接跳过了该步骤,但事实上,无论如何,浏览器在接收字节数据时必须在某个阶段完成解码。 其次,JSON格式的消息比二进制格式要大得多。这意味着浏览器中涉及该消息的其他处理流程(例如网络传输代码)也将耗费更多资源,尤其是内存拷贝等操作。仅仅比较反序列化时间,并不能全面反映JSON带来的性能成本。 作者通过图表展示了在不同编码方案下的未压缩消息体积以及从服务器读取消息体的耗时情况,指出JSON在解码开始前就已处于巨大劣势。其原因不仅在于消息体本身更大,还在于需要先将其解码为字符串,之后才能反序列化。 为纠正这一偏差,作者采用了端到端的延迟衡量方式:从发送请求到客户端处理完成的整个过程,并从中扣除纯服务器端耗时,以提取出客户端的真实耗时数据。 关于压缩 虽然压缩确实在网络传输上基本消除了各类编码方案之间的大小差异,但浏览器在接收到压缩数据后仍需解压并处理完整字节流。因此,作者强调其测量方式可以更全面地捕捉这一额外的开销。 Schema与Schema-less编码 部分编码格式如Protobuf具备Schema机制,能在反序列化阶段自动进行数据验证。而JSON等无Schema格式则需手动实现这一功能。虽然在测试中,是否具备Schema对性能影响不大,但这类编码格式能“免费”提供更高的数据安全性,依旧值得强调。 惰性解码与类型支持差异 作者指出,Flatbuffers与Cap’n Proto等库采用了惰性解码策略,只有在真正访问属性时才会进行解码。与其将Flatbuffers的“deserialize”方法直接对比JSON.parse并不公平,因为后者会立即分配并构建实际的值。 另外,不同编码方案对数据类型的支持差异也影响了测试结果。例如,Bebop原生支持Date类型,而JSON则需先转为字符串或数字再手动还原。在本次测试中,作者特别设计了统一的输出对象——“Plain Old JavaScript Object”,其中强制将日期类型和惰性字段完全物化,以确保各编码方案在同等条件下对比。 浏览器端性能改进趋势 虽然支持快速二进制编码的浏览器API早在2020年前就已存在,但直到最近两年才得到更广泛应用。多个编码库也在此期间获得了重大性能提升: Bebop Bebop于2020年推出,与Protobuf类似,具备良好工具支持与性能表现,且原生支持Date类型,专为浏览器高性能场景而设计。然而,其社区影响力较小,官方网站目前已跳转至“text-os.com”,令人对其未来发展感到担忧。 Avro(通过avsc库) 截至2025年4月,avsc库在浏览器端仍使用性能极差的Buffer polyfill,导致反序列化极慢。但作者指出,其主分支最新版本已改用原生Uint8Array,显著提升了性能,使其成为本次测试中最具性能优势的选项之一。 Protobuf(protobuf.js) 默认配置下,protobuf.js在反序列化方面表现不佳,问题在于其字符串解码算法效率不高。作者对其源码进行了修改并提交了pull request。同时他也测试了其他Protobuf实现,如protobuf-es(性能差)与pbf(性能佳但缺乏灵活性)。 其他库测试 JSON的非性能问题 作者指出,即便不谈性能,JSON本身也存在诸多缺陷: 他分享了一段亲身经历:某次项目中,为避免BigInt精度问题,团队以字符串保存数字,他错误地将数字500与字符串”500″相加,最终导致广告系统向客户请求了第500,500条广告,而非预期的第1000条,造成了实际损失。 作者补充道,如今多数开发者已使用TypeScript以避免此类问题,但JSON并未提供任何结构性保护,反而加大了错误风险。开发者仍需借助zod等额外库实现验证。 服务端性能表现 在Rust服务器上的测试表明,JSON的序列化速度也落后于其他格式。 总结与未来计划 综上,作者认为Bebop、Avro和Protobuf在将服务器端消息发送至浏览器的场景下,都能在性能上优于JSON。目前Avro仍待新版本正式发布,而Protobuf也有待其PR被接受。
OpenAI已正式将其最新的人工智能模型——GPT-4.1与GPT-4.1 mini——向ChatGPT用户全面开放
据报道,OpenAI已正式将其最新的人工智能模型——GPT-4.1与GPT-4.1 mini——向ChatGPT用户全面开放,并首次将这两款模型的使用范围拓展到公司API之外。 这一更新意味着,原本仅限开发者通过编程接口调用的GPT-4.1系列模型,如今普通用户也可在ChatGPT平台内直接使用。OpenAI在其官方X账号上宣布,GPT-4.1模型在代码生成与复杂任务指令执行方面表现尤为突出,被视为o3模型的理想替代方案,尤其适合对技术性能和可靠性有较高要求的用户。 目前,GPT-4.1系列模型正在逐步向ChatGPT Plus、Pro以及Team订阅用户开放,用户可通过“更多模型”菜单进行选择。OpenAI也证实,企业用户与教育机构用户将在未来数周内获得访问权限。 与此同时,免费层用户也将迎来重大更新。OpenAI表示,将很快为该用户群体提供GPT-4.1 mini模型,并以此替换现有的GPT-4o mini版本。尽管GPT-4.1 mini模型体积较小,但其在智能评估中的表现甚至优于GPT-4o,并具备更高的响应速度和更低的使用成本。根据OpenAI提供的数据,GPT-4.1 mini在延迟方面仅为GPT-4o的一半,成本则降低了83%。 OpenAI称,GPT-4.1是AI性能的一次重大飞跃。在内部评估中,GPT-4.1在SWE-bench Verified软件工程基准测试中得分为54.6%,展现出强大的编程能力;在MultiChallenge复杂任务基准测试中得分38.3%;在Video-MME多模态长上下文理解任务中得分72%,体现出其在理解和处理多模态长文本方面的优异能力。 此外,GPT-4.1系列模型还具备显著的技术优势——其上下文窗口扩展至100万tokens,使得用户可在单次对话中处理和引用大量信息,极大提升了工作流程效率与交互深度。 这一系列模型的推出,不仅进一步提升了ChatGPT平台的整体性能与可用性,也标志着OpenAI正逐步实现其AI服务的普惠化目标,使更多用户在日常学习、开发与研究中受益。
Google DeepMind 推出AlphaEvolve
Google DeepMind研究员Matej Balog解释称:“AlphaEvolve是一款由Gemini驱动的AI编码代理,它能够在计算和数学领域中实现新的发现。这一系统能够发掘出具有显著复杂度的算法,代码行数达到数百行,逻辑结构精妙,远远超越了简单函数的范畴。” https://docs.google.com/forms/d/e/1FAIpQLSfaLUgKtUOJWdQtyLNAYb3KAkABAlKDmZoIqPbHtwmy3YXlCg/viewform AlphaEvolve在Google此前FunSearch工作的基础上进行了巨大扩展,其核心能力不再局限于生成单一函数,而是能够进化出完整的代码库。这一进步标志着人工智能在开发用于科学难题与日常计算问题的复杂算法方面迈出了重大一步。 据悉,AlphaEvolve已经在Google内部低调运行超过一年,所取得的成果已然显著。其中一项算法已被应用于Google的大型集群管理系统Borg,作为调度启发式策略使用。该算法能够持续回收全球约0.7%的计算资源,这一效率提升在Google这一规模的企业中极为惊人。 这一算法的创新点在于精准解决了“资源搁浅”问题,即某些机器耗尽了某种资源(如内存),而仍有其他资源(如CPU)处于空闲状态。AlphaEvolve给出的解决方案尤为宝贵,因为其输出的代码结构简单、可读性高,便于工程师解读、调试与部署。 AlphaEvolve的应用范围并未止步于数据中心。在Google的硬件设计中,它还重写了一个关键的算术电路部分,成功移除了一些不必要的比特位,从而优化了Tensor Processing Units(TPUs)的设计。经过TPU设计团队验证,其修改方案在确保正确性的同时已被采纳,并将应用于即将推出的新芯片设计中。 更令人瞩目的是,AlphaEvolve甚至优化了支撑自身运行的底层系统。该系统改进了一项用于训练Gemini模型的矩阵乘法内核,在这一操作上实现了23%的加速,并将整体训练时间缩短了1%。考虑到AI模型训练通常需要巨大的计算资源,这一效率提升转化为显著的能源与资源节约。 DeepMind的另一位研究员Alexander Novikov在接受采访时指出:“我们努力识别那些能够加速并产生最大影响的关键组件。我们成功将一个核心内核的运行时间优化了23%,最终为整个Gemini训练卡节省了1%的整体训练时间。” AlphaEvolve不仅提升了现有系统性能,还攻克了困扰人类多年的数学难题。该系统设计出一种新的基于梯度的优化流程,进而发现了多种全新的矩阵乘法算法。其中一项成果打破了长达56年的数学记录。 Balog提到:“让我们感到惊讶的是,AlphaEvolve虽然是一项更通用的技术,但其表现甚至超过了之前专门用于矩阵乘法的AlphaTensor。在4×4矩阵的乘法问题上,AlphaEvolve找到了一个新算法,首次在该场景中超越了Strassen在1969年提出的算法。” 具体来说,AlphaEvolve实现了两个4×4复数矩阵只需进行48次标量乘法的计算方式,而此前的记录为49次。这项发现是自Volker Strassen划时代的研究以来,学界首次在这一问题上取得突破。根据相关研究论文,AlphaEvolve改进了14种矩阵乘法算法的最优状态。 其数学探索远不止于矩阵乘法。在对50多个分析学、几何学、组合数学与数论领域的公开问题进行测试时,AlphaEvolve在约75%的案例中达到了当前最优解,在大约20%的案例中则超越了已有最佳方案。 其中一项突破发生在“接触数问题”中。该几何难题旨在确定在不重叠的条件下,最多有多少个单位球可以同时接触一个中心球体。在11维空间中,AlphaEvolve找到了一个包含593个球体的排列,打破了此前592的世界纪录。 AlphaEvolve之所以与其他AI编程系统不同,源于其进化式方法。该系统结合了Gemini Flash(用于快速处理)与Gemini Pro(用于深度思考),对现有代码提出变更建议。所有修改都通过自动评估系统进行评分,表现最好的算法将指导下一轮进化。 这一过程不只是从训练数据中生成代码。AlphaEvolve能够主动探索解空间,发现全新路径,并通过自动化评估流程不断优化,从而创造出人类前所未见的解决方案。 Novikov解释道:“我们的方法中一个关键思想是专注于那些具有明确评估标准的问题。对于任何一个提出的解决方案或代码段,系统都能自动验证其有效性并衡量其质量。这样就能建立起快速且可靠的反馈循环,以推动系统进步。” 这种方法的优势在于其适应性强,只要问题具备清晰的评估标准,无论是数据中心的能源效率还是数学证明的优雅性,系统都能发挥作用。 目前,AlphaEvolve主要应用于Google基础设施与数学研究领域,但其潜力远不止于此。Google DeepMind预计,该系统还将在材料科学、药物研发等需依赖复杂算法的领域中发挥巨大价值。 Novikov表示:“最佳的人机协作不仅可以攻克开放的科学难题,也能够在Google规模下实现落地应用。”这突显了系统在研究与实际之间架起的桥梁。 Google DeepMind目前正与People + AI Research团队合作开发用户界面,并计划向部分学术研究人员开放早期访问权限。同时,公司也在探索该系统更广泛的开放路径。 Balog指出,AlphaEvolve的灵活性是其一大优势。他回忆道:“至少在我过去从事机器学习研究时,很少能见到一个科研工具在开发初期就能实现如此规模的现实影响。这确实很不寻常。” 随着大型语言模型的不断进化,AlphaEvolve的能力也将同步增长。从Google服务器内部启动,优化支撑其自身运行的硬件与软件,如今已迈向那些数十年甚至数百年来困扰人类智慧的问题,AlphaEvolve展现了AI本身的进化潜力。
Airbnb宣布正式进军“服务与体验”领域,并计划在未来进一步强化平台的社交与人工智能功能
Airbnb于2025年5月13日宣布将平台扩展至“服务与体验”领域,标志着这家原本以短租起家的科技公司,正在大步迈向更广泛的生活方式平台定位。根据公司发布的最新应用程序更新,用户现在不仅可以预订住宿,还可单独或配套预订一系列服务,例如按摩、理发、私人厨师烹饪,甚至是参与本地文化活动。此举旨在将Airbnb从单一的住宿平台转变为全面的旅游与生活服务平台。 这一战略并非首次尝试。早在2023年,Airbnb曾推出“体验”功能,后因专注于优化住宿业务而暂停。如今,平台再次发力,希望用户不仅仅是计划旅行,而是围绕目的地探索更丰富的活动内容。Airbnb首席执行官Brian Chesky在公司2025年第一季度财报会议中指出,过去一年内该服务在全球被超过15亿台设备访问,但大量用户访问后并未完成住宿预订,说明平台具备未被完全释放的潜力。 此次新增的服务类别共计10种,包括私人厨师、餐饮、预制餐点、摄影、按摩、水疗、私人训练、美甲美发与化妆等,将首先在全球八个国家的100座城市上线。此外,Airbnb还将推出涵盖19个类别、分布在1000座城市的“体验”项目,例如文化和博物馆参观、户外活动、水上与野生动植物探险、美食导览、烹饪课程、艺术工作坊、购物活动、健身、健康与美容等。这些体验大多数需用户亲赴场地参与,而非仅限于入住地点周边。 值得注意的是,Airbnb还推出名为“Airbnb Originals”的独家体验项目,联合名人和专业人士打造如:与法国知名面包师Raphaelle Elbaz在French Bastards烘焙坊一起制作甜点,或在里约热内卢Leblon海滩与奥运选手Carolina Solberg一起打沙滩排球。这些内容将成为用户感受当地文化和生活方式的独特途径。 Airbnb产品营销副总裁Judson Coplan表示:“这些服务与体验项目是让人们以本地人的方式探索城市的方式,是对住宿产品的自然延伸。”他指出,Airbnb长期以来提供独特的住宿选择,现在新服务也将秉持相同理念,让用户在原有基础上获得更多旅行灵感,甚至激发他们探索自己的居住城市。 在收益模式方面,Airbnb将对服务项目收取15%的平台费用,对体验类项目则收取20%。平台表示,供应方需通过严格的认证与质量审核,包括经验、在线口碑、教育背景及必要的执业许可证,而用户在预订时将看到统一显示的总价。 此次更新还包括Airbnb应用程序的全面改版,针对游客与房东均有优化。游客端新增“住宿”、“服务”与“体验”三个浏览与预订类目,若用户已有预订行程,系统会自动推荐相关的体验与服务。房东端则新增日历与管理工具,以便同步处理住宿与新增项目。 未来,Airbnb还将进一步引入社交功能。目前App已支持多人协作的行程讨论,后续计划开放参与同一体验活动用户之间的群组聊天,方便分享照片、视频与建议。平台希望此举能加深用户之间的连接,从而进一步激发旅行欲望与平台粘性。为保障用户安全,Airbnb也正在开发一系列隐私保护措施。 这一社交方向延续了去年推出的更新档案功能,用户现在可展示居住地、所说语言等个人信息。Coplan指出,完整用户档案数量因此增长了15倍,“这反映出旅行其实关乎人与人的连接,无论是房东、同行者,还是路途中邂逅的人。” 在AI方面,Airbnb正通过人工智能推动客户服务能力升级。Chesky此前表示,公司现已上线AI客服助手,能直接在聊天界面内提供解答,避免过去那种跳转至帮助文档的体验。该助手目前对美国境内的英语用户开放,预计月底前全面铺开,并于年底扩展至更多国家与语言。未来,该助手将支持更高层次的个性化回应与快捷操作按钮,例如一键取消预订。 此次更新涵盖Airbnb网站及iOS与Android应用程序,已于全球范围内陆续推送上线。此举标志着Airbnb从住宿平台向全面AI赋能的旅行生活服务平台迈出重要一步
OpenAI希望成为用户核心的AI订阅服务
OpenAI首席执行官Sam Altman日前在由风投公司红杉资本主办的“AI Ascent 2025”活动中表示,公司目前并无完整的“总体规划”,但确实希望构建一种类似操作系统订阅的AI平台。这一平台将配备SDKs、APIs以及各种“表层界面”(surfaces),最终目标是打造能够吸收个人一生经验的定制化AI模型。 Altman在问答环节回应观众提问时表示,OpenAI希望成为用户核心的AI订阅服务。他指出,部分体验会类似现在在ChatGPT内的使用方式,但更多内容将体现在不断进化的智能模型上。这些模型将运行在“未来的设备”与“类似操作系统的界面”之上,预示着一个全新AI生态的雏形。 尽管构想宏大,Altman承认目前尚未明确实现这一目标的技术形式。他坦言:“我们尚未真正搞清楚……API、SDK或其他什么形式才是我们平台的最终形态。”不过,他也对现场观众表示乐观,“这可能需要我们尝试几次,但最终会实现。” Altman还提到,无论OpenAI最终打造出什么样的产品,他都希望这一平台能带来“令人难以置信的财富创造”。因为“还有大量值得构建的东西”将围绕这一AI核心展开。 在现场讨论中,有观众询问OpenAI是否计划推出定制化AI模型。对此,Altman描绘了一个近乎“理想柏拉图式”的愿景——构建一个拥有万亿级上下文容量的推理模型,能够整合用户一生中所有的对话记录、阅读的书籍、查看的电子邮件、浏览过的内容,以及其他来源的数据。他设想,这类模型能够持续动态地更新用户“人生上下文”,使AI具备前所未有的个性化智能。 对于公众可能对此隐私层面产生的担忧,Altman回应称,目前OpenAI尚不具备开发此类模型的能力,但他补充说:“任何低于这个愿景的实现,都是一种妥协。” 该构想目前依然处于愿景阶段。面对有关OpenAI是否已规划好资金用途的提问时,Altman回答道:“我们只是打算努力构建出优秀的模型并推出优质产品,目前没有更大的计划。”他认为,宏大的蓝图通常行不通,企业家应该从复杂问题“倒推解决方案”,而不是试图一次性规划未来。 现阶段,OpenAI的重点仍然放在“建设大量AI基础设施”与“持续优化模型能力”上。Altman同时表示,公司也希望打造一个完整的、直面终端用户的消费级产品栈,包括所有相关模块。他直言,目前尚未决定下一年将开发哪些产品,因为“我们引以为傲的就是灵活应变,随世界而调整战术。” 他总结道:“我们可能连明年要开发的产品现在都还没开始思考。”在AI领域飞速发展的背景下,这一策略或许正是OpenAI不断占据领先地位的关键之一。 如今,世界领先的AI企业,似乎正一边探索一边前行——也正是这个时代最真实的写照。
Gemini无处不在-的战略布局
在2025年Google I/O开发者大会即将召开之际,这家科技巨头提前预告了“Gemini无处不在”的战略布局。Google年度重磅发布会将于5月20日至21日举行,届时首席执行官Sundar Pichai与DeepMind联合创始人Demis Hassabis将共同主持演讲。根据目前披露的内容,Gemini将全面融入Google核心产品与服务:为搜索引擎提供支持,集成于Chrome浏览器,嵌入Android XR系统,并将在Waymo自动驾驶汽车中进行现场演示。 在I/O大会前夕,Google通过YouTube频道放出一段预热视频,重点介绍了即将推出的面向开发者的AI智能体。该系统具备文档处理、故障检测和任务跟踪等功能,且支持通过XR头显进行语音交互。外界预计,开发者将可实现免手操作的编程体验,而Google将在下周的主舞台上带来更深入的演示展示。 Gemini的应用场景已从智能手表拓展至汽车挡风玻璃。Google宣布,Gemini将全面取代Google Assistant,应用于Wear OS智能手表、Android Auto车载系统、Google TV及XR平台。在智能手表中,它可用作提醒设定和快速回复工具;在汽车中,Gemini支持路线规划、内容摘要及行车过程中的追问对话;而在Google TV中,则能够协助用户选择电影、解说历史背景如古罗马文明等。目前,该AI处理仍依赖云端,但Google已与汽车制造商展开合作,计划将其转移至本地硬件运行。 在搜索功能方面,Google开始测试一项名为“AI模式”(AI Mode)的新功能,取代经典的“手气不错”(I’m Feeling Lucky)按钮。该模式旨在推广生成式答案与预测式搜索体验。此外,还将推出一款能在软件构建过程中主动标记Bug与安全问题的AI代理工具,以进一步推动AI辅助开发流程的常态化。 在视觉购物体验方面,Google借助Veo AI技术为在线购物注入3D体验。用户上传三张图片,即可生成可旋转的产品视图,适用于从沙发到运动鞋的多种商品。与此同时,Google还计划推出一款类似Pinterest的灵感保存工具,用于收藏家居与时尚内容,并以此构建一个紧贴广告变现策略的商业搜索平台。 此外,Google也在加码投资AI生态建设。其“AI未来基金”(AI Futures Fund)现已启动,面向初创企业提供DeepMind研究资源、Cloud云服务积分与资金支持,无固定申请截止日期,只看项目成长表现。首批参与企业包括Viggle与Toonsutra。该计划是Google更广泛AI投资组合的一部分,其他相关举措还包括由Google.org主导的2000万美元公益项目和全球AI机会基金(Global AI Opportunity Fund)中的1.2亿美元投入。
OpenAI发布HealthBench:推动医疗人工智能模型评估迈向临床真实世界
2025年5月12日,OpenAI正式发布一项全新的医疗人工智能评估基准:HealthBench (https://github.com/openai/simple-evals),该项目旨在评估大型语言模型(LLMs)在真实医疗环境中的性能表现。相较于此前以考试题型或结构化问题为主的医学基准,HealthBench的独特之处在于其构建方式更贴近现实使用场景,强调多轮对话、临床语境、多语言支持与医生专家参与的评分标准。这一基准标志着医疗AI评估方法的根本性转变,或将为医疗辅助决策系统和健康信息平台的开发提供更加稳健的测试框架。 医疗AI的评估为何需要更新? 长期以来,用于评估医疗AI的基准多集中在标准化考试(如USMLE)或单轮问答任务上。然而,这些方法无法真实反映用户与AI系统之间的复杂互动流程,特别是在实际应用中用户常以自然语言提出不清晰、带有情感或背景模糊的问题。OpenAI指出,如果评估模型仅仅依赖单一问答或静态题库,其结果并不足以反映模型在现实健康咨询中的可靠性、准确性和适应能力。 因此,HealthBench在构建过程中广泛采集真实多轮医疗对话,并引入医生主导的评分机制,模拟模型在诊所、远程咨询、医疗助手等情境下的真实任务表现。 HealthBench的五大核心组成 推动开放研究与协作 为了促进医疗人工智能研究的可重复性与开放性,OpenAI已将HealthBench的全部数据、评分系统与测试接口开放至GitHub(开源地址已附在官方公告中)。研究人员和开发者可以使用这一平台: 同时,HealthBench也支持未来新模型的持续评估更新,有望成为医疗AI领域的长期标准之一。 医疗AI的未来:潜力与责任并存 OpenAI在公告中特别指出,尽管当前模型已在多个医疗任务中表现接近专业水准,但真正进入临床应用仍需解决三个关键问题: 总结 HealthBench 的发布,不仅是AI模型评估方法的一次飞跃,更是OpenAI在推动“安全、有益人工智能”愿景中的又一实际步骤。通过将模型放置在真实世界的医疗对话环境中,并由全球医生集体制定标准,OpenAI 希望打造一个更加现实、透明和可持续的医疗AI评估框架。 未来,随着AI系统在医疗领域的进一步拓展,HealthBench将成为衡量“AI是否真正对人类健康有益”的重要参考尺度。
Gemini 2.5 推动视频理解进入新时代
Google 近期发布了两款全新 Gemini 模型:Gemini 2.5 Pro Preview(5月6日)和 Gemini 2.5 Flash(4月17日)。这两款模型标志着视频理解技术的一次重大飞跃。Gemini 2.5 Pro 在多个关键视频理解基准测试中取得了最先进的性能(SOTA),在相同测试条件下(使用相同的提示词和视频帧)超越了包括 GPT-4.1 在内的近期模型。 此外,该模型在一些高难度任务上(例如 YouCook2 的密集字幕生成、QVHighlights 的关键时刻检索)表现可媲美专业微调模型。而对于对成本敏感的应用,Gemini 2.5 Flash 则提供了极具竞争力的替代方案。 Gemini 2.5 的技术突破 Gemini 2.5 是首个能够原生结合音频、视觉、代码与其他数据格式的多模态模型,开启了全新的视频+代码处理能力。 应用实例一:将视频转化为交互式应用 Gemini 2.5 Pro 解锁了视频到交互式应用的全新可能。在 Google AI Studio 中,Video to Learning App 启动项目展示了如何使视频学习更具效果与互动性。 使用流程如下: 在教育与互动内容生成领域,Gemini 2.5 Flash 也展现出强大能力。 应用实例二:p5.js 动画自动生成 Gemini 2.5 Pro 还能从视频中自动提取信息并生成动画,例如: 应用实例三:视频中“关键时刻”的检索与描述 在处理长视频(如 Google…