Mistral AI正式推出Magistral系列,这是该公司迄今为止最具推理能力的大语言模型(LLM)套件,标志着LLM能力发展的重要跃迁。该系列包括两个版本:Magistral Small,一个拥有240亿参数、遵循Apache 2.0许可证的开源模型;以及Magistral Medium,一个专为企业级应用设计的专有版本。此次发布强化了Mistral在全球AI版图中的地位,重点聚焦“推理时间”性能优化这一LLM设计的前沿方向。 Magistral系列体现了从“参数规模优先”到“结构化推理优先”的根本性转变。无论是开源版本Magistral Small,还是企业部署向的Magistral Medium,两者均采用链式思维(Chain-of-Thought, CoT)微调技术,支持逐步生成中间推理步骤。这一策略大幅提升了模型在多步推理任务中的准确性、可解释性和稳健性,尤其适用于数学运算、法律分析及科学问题求解等场景。 Magistral Small在语言能力方面也表现突出,原生支持包括法语、西班牙语、阿拉伯语和简体中文在内的多种语言。相较于其他以英语为中心的大语言模型,该模型展现出更强的全球适应性,使其在多语言、跨文化应用中具备天然优势。 在部署策略上,Mistral采取“开源+专有”的双轨发布路径:Magistral Small完全开放,遵循Apache 2.0许可证,已在Hugging Face平台上线,适用于研究、定制和商业化部署;而Magistral Medium则聚焦企业级场景,通过Mistral的云平台和API进行部署,具备更强的吞吐能力和实时响应表现,专为延迟敏感型生产环境而设计。 性能方面,根据Mistral内部评估,Magistral Medium在AIME2024基准测试中准确率达到73.6%,通过多数投票策略进一步提升至90%;Magistral Small表现也不俗,准确率达70.7%,多数投票后上升至83.3%。这些成绩已使Magistral系列跻身于当今前沿LLM之列,具备与GPT-4、Claude 3等顶级模型抗衡的实力。 Magistral Medium在吞吐与响应速度上的表现也十分亮眼,其推理速度可达每秒1000个token,适用于高并发、大规模企业系统。这一性能提升得益于Mistral自研的强化学习(RL)微调流程以及高效的解码策略。与市面上大多采用通用RLHF模板的模型不同,Magistral采用自定义的“推理语言对齐”(Reasoning Language Alignment)机制,以显式方式引导推理路径生成,确保输出逻辑一致性。这一机制也与Mistral基础模型系列的指令微调、代码理解和函数调用原语保持兼容,提升了整体系统的可扩展性。 此次发布也在行业中产生深远影响。凭借强大的推理能力和多语言支持,Magistral系列特别适合部署于对解释性与可追溯性要求极高的领域,如医疗保健、金融服务与法律科技等受监管行业。在这些领域,系统的稳定性、可控性与准确性是业务决策中不可或缺的要素。Magistral通过结构化推理方式,能有效降低“黑箱输出”风险,为关键行业提供透明且可验证的AI解决方案。 值得注意的是,Mistral并未简单追求参数膨胀,而是从“推理时间效率”出发设计模型,使其在无需依赖超大算力资源的情况下依然具备强大能力,顺应当前全球范围内对“高效低耗”模型日益增长的需求。 从战略角度来看,Magistral的“双版本”路径也体现出Mistral对生态构建与市场覆盖的深度思考。一方面,通过Magistral Small激发研究界与开发社区的参与与创新;另一方面,通过Magistral Medium提供企业级服务能力与商业化落地保障。这种模式类似于基础软件平台的双重路径,比如Linux内核与企业版Red Hat系统的并行演进模式,极大提高了平台的适应力与延续性。 随着Magistral系列即将在MMLU、GSM8K、Big-Bench-Hard等标准公开基准上亮相,其实际竞争力将在更广泛环境中得到全面验证。目前已公布的内部评测数据令人期待,而后续的公开对比将成为其市场接受度与技术定位的重要参考。 展望未来,Magistral不仅是一款新型语言模型,更代表Mistral AI在AI全球格局中的一次战略发声。它在技术维度上强调“推理质量”,在市场维度上体现“开放与闭源并重”,在产品维度上主打“高效可控”,在行业维度上推进“跨语境落地”。在“推理成为AI核心差异化要素”的背景下,Magistral提供了一种极具现实可行性的替代方案。 Magistral系列的推出,不仅是Mistral迈向AI领导力的一次突破,也是欧洲AI技术在全球科技格局中的一次集体进击。它象征着大语言模型进入新阶段的开始——推理为王,效率为本,多语共存,开放共赢。
2025年改变AI驱动软件开发的15款主流“Vibe Coding”工具
随着以AI为核心的开发模式彻底重塑软件构建方式,“Vibe Coding”(氛围编程)这一颠覆性理念迅速兴起。在这一新范式中,开发者只需“说出想法”,智能代理便能完成构建工作。“Vibe Coding”一词由前特斯拉AI负责人Andrej Karpathy提出,象征着从传统代码密集型工作流向自然语言驱动的软件原型设计的转变。 以下是15款在2025年广受信赖、支持“Vibe Coding”工作流的工具清单: 1. Cursor 一款原生AI集成开发环境(IDE),具备“多代理提示”和迭代开发能力。其标志性功能“Agent Mode”结合了GPT-4o与Claude 3,支持整项目级别的代码生成,适合复杂开发任务。 2. Replit 基于浏览器的IDE,内嵌Replit AI Agent,可通过自然语言快速生成代码。特别适合Web应用快速原型开发和无需环境配置的共享。 3. Claude Code(Anthropic) 终端风格界面,允许用户与AI对话完成代码构建与编辑。具备项目记忆功能,支持多步骤自然语言编程操作,适合持续性开发任务。 4. GitHub Copilot 现已支持“Agent Mode”,通过提示实现完整代码任务执行。深度集成至VS Code及GitHub平台,是GitHub生态中最强AI助手之一。 5. Cascade(Windsurf) 面向实时协作与自动代码生成的AI代理系统。强调最小输入负担下的迭代式开发流程,适用于快速构建与修改场景。 6. Junie(JetBrains) JetBrains推出的AI插件,专为语言感知开发而设计。支持基于提示的交互与智能调试流程,适合注重精度与逻辑的开发者。 7. Augment Code 适配多种代码编辑器的对话式编码工具。用户可本地或远程调用代理完成从规划到Pull Request的完整开发流程,适合任务交付密集型场景。 8. Zed Editor 下一代高性能协作编辑器,融合人类与AI高效互动体验,强调即时性与协作性,适合远程多方联合开发。 9. Cody(Sourcegraph) 面向大规模代码库的AI助手,擅长代码阅读、理解与更新。特别适用于技术债重构与遗留系统维护任务。 10. Tabnine 基于设备端大语言模型(LLM)的上下文感知自动补全工具,提供企业级安全、隐私友好的AI编码体验。 11. Codex(OpenAI) OpenAI推出的基础代码生成模型,支持命令行、IDE及应用层代码生成,是众多“Vibe Coding”平台的技术底座。 12. Lovable 无代码平台,集成AI设计与应用构建功能,专为产品设计师及非技术创始人打造,适合快速产品可视化验证。 13….
山姆·奥特曼反思:从ChatGPT两周年到超级智能的未来之路
ChatGPT的两岁生日刚刚过去一个多月,如今,人工智能已经迈入了能够进行复杂推理的新范式。新年的到来常常激发人们的反思情绪,因此,此刻也显得格外适合回顾至今为止的进展,并分享一些这段旅程中的个人体会和学习。 随着越来越接近通用人工智能(AGI),公司发展的每一步都显得格外重要。还有许多东西尚待理解,也有很多未知尚未揭晓,整个旅程依旧只是开始。不过,与起初相比,所掌握的知识已经大大增加。 大约九年前,OpenAI正式创立,源于一个坚定的信念——AGI是可能实现的,并且可能成为人类历史上最具影响力的技术之一。创始团队希望弄清楚如何构建AGI,并使其广泛造福人类,对能在历史上留下印记充满热忱。这种雄心壮志非同寻常,而他们也坚信其成果将以同等非凡的方式回馈社会。 在那个时候,几乎没有人关注这个领域,而少数关注的人多数是因为他们觉得OpenAI几乎没有成功的可能。 2022年,OpenAI仍是一个低调的研究实验室,当时正在开发一个暂时被称为“Chat With GPT-3.5”的项目。(团队在起名字方面远不如做研究那样擅长。)当时注意到许多开发者在使用API中的playground功能并乐在其中,因此决定围绕这种互动体验构建一个演示版本,以向大众展示AI未来的潜力,同时改善模型的表现与安全性。 最终,这个项目被命名为“ChatGPT”,并于2022年11月30日正式发布。 团队始终抽象地预见到,有朝一日AI革命将达到临界点,但并未预料到具体时刻会如此降临。令人惊讶的是,这个时刻竟然就是ChatGPT的发布。 ChatGPT的发布引发了一场前所未见的增长浪潮,涵盖公司、行业乃至全球。人们终于看到了人工智能带来的巨大红利,而更大的潜力正在逐步显现。 这条道路并不平坦,也没有标准答案。 在过去两年间,OpenAI几乎从零开始,围绕这项新技术搭建起整个公司。没有哪种培训能为此做好准备,在技术范畴完全新颖的情况下,也无人能准确指点应当如何进行。 在高速增长、缺乏成熟培训机制的背景下建设企业,是一项混乱的过程。它常常意味着进两步退一步,有时甚至是进一步退两步。错误会在过程中被修正,但在进行原创性工作时,几乎没有现成的手册或参考。以高速航行在未知水域是一种难以置信的体验,但对所有参与者而言,也极具压力与挑战,冲突和误解频发。 这几年成为了人生中最充实、有趣、精彩、复杂、压力重重、筋疲力尽、尤其在最近两年中甚至不愉快的阶段。总体而言,最大的感受是感激之情。可以想象未来某天,当本人在牧场退休、望着植物生长、略感无聊时,会回忆起曾经梦想成真的那段时光是多么酷。每当某个星期五,在下午一点前已有七件事出错时,这种心态尤为重要。 一年多以前的某个星期五,最大的意外是被突然解雇——一次视频通话中被通知,然后董事会立即发表了一篇博文宣布此事。彼时人正在拉斯维加斯的酒店房间内,这种经历如梦似幻,仿佛美梦瞬间崩塌,几乎无法形容。 这场突如其来的公开解雇,引发了一连串疯狂的几个小时,甚至数天的混乱局面。其中最离奇的,是“战争迷雾”般的信息不对称。团队成员均无法得到合理解释,不清楚事件背后的缘由和具体过程。 个人认为,这是一次治理机制的严重失败,尽管相关人员都怀有善意,其中也包括本人。回头来看,确实希望当初处理方式不同,也愿相信如今的自己已成为一个更成熟、更有思考力的领导者。 此事件也让人认识到,董事会中不同观点的多样性及处理复杂挑战的广泛经验极为重要。良好的治理结构需要高度信任与信誉。令人欣慰的是,很多人齐心协力,为OpenAI构建了更为坚实的治理体系,使得公司能够继续践行“确保AGI造福全人类”的使命。 从这段经历中最大的收获,是明白自己有无数值得感恩的人:感谢所有在OpenAI工作的成员,愿意将时间与精力投入在这个梦想中;感谢那些在关键时刻帮助团队度过难关的朋友;感谢合作伙伴与客户对OpenAI的支持与信任;以及那些在生活中表现出真挚关怀的人们。 整个团队以更加团结和积极的姿态回归工作,这段时间以来的专注令人自豪。OpenAI完成了有史以来最出色的一些研究,周活跃用户从约一亿增长到三亿以上。最重要的是,公司持续推出深受用户喜爱、真正解决实际问题的技术产品。 九年前,团队完全无法预见自己最终会成为什么模样;即使到现在,也只是“部分了解”。人工智能的发展道路充满变数,未来仍会出现更多意料之外的拐点。 其中一些转变令人喜悦,有些则令人艰难。目睹一连串研究奇迹的诞生令人兴奋,许多曾经的怀疑者也逐渐转变为坚定支持者。当然,也见证了部分同事离开并成为竞争对手。随着规模扩大,团队的更迭成为常态,OpenAI的成长速度更是远超常规。在一般初创企业中,每一次大规模成长阶段都会带来团队重组,而OpenAI每隔几个月便发生数量级的扩张。在如此迅速的发展中,利益和目标的分歧难以避免。在一个关键行业中处于领先地位,自然会受到来自各方的攻击,尤其是那些竞争对手。 专注于做出优秀的研究。同样,也未曾预料到为了实现目标所需的资金会如此庞大。如今,有许多新任务摆在眼前,而在几年前,团队对这些需求还毫无概念。未来也会出现更多现在难以想象的挑战。 OpenAI对目前在研究与部署方面取得的成绩感到自豪,并将继续致力于在安全性与利益共享方面推动思考的前进。团队始终相信,让AI系统变得更安全的最佳方式,是通过迭代和逐步地将技术推向世界,从而让社会有时间适应并与之共同进化,在实际经验中不断学习与改进技术,持续增强其安全性。OpenAI坚信,在安全性与对齐研究方面保持世界领先地位至关重要,并且认为这类研究必须以现实世界应用的反馈为导向。 如今,OpenAI已经有信心表示,团队已经掌握了构建传统理解上的通用人工智能的方法。预计在2025年,将会看到首批AI代理人“加入劳动市场”,并显著改变企业的产出方式。团队依然坚持这样一种理念:不断地将优秀工具交到人们手中,会带来优秀且广泛分布的成果。 现在,团队的目标正在进一步扩展,着眼于真正意义上的“超级智能”。尽管当前的产品令人满意,但真正的使命,是迈向一个更加辉煌的未来。借助超级智能,人类几乎可以完成任何事情。这类超级智能工具将极大加速科学发现与技术创新,突破人类自身的能力极限,从而极大提升资源的丰度与社会的繁荣。 虽然这一切目前听起来仍像是科幻,甚至说出口都有些荒谬,但团队对此并不陌生,也乐于再次面对类似处境。可以相当有信心地说,在未来几年中,世人将逐渐看到团队所看到的东西,也会认识到在尽最大努力实现广泛福祉与赋能的同时,必须极度谨慎地行动,是多么重要。鉴于所涉及的可能性,OpenAI无法是一家普通公司。 能参与到这项事业之中,是一种无比幸运且令人谦卑的经历。 (感谢乔希·泰兰吉尔(Josh Tyrangiel)在某种程度上促成了这次反思。真希望当时有更多的时间。) 补充说明: 在那几天里,有许多人为OpenAI,乃至为山姆·奥特曼本人,做出了惊人且巨大的努力,但有两位尤为突出。 Ron Conway与Brian Chesky的贡献超出了职责范围的任何定义,甚至让人难以用语言准确形容。虽然多年来人们常听闻Ron以坚韧著称,而过去几年与Brian相处过程中也获得了大量帮助与建议,但真正经历过生死攸关的危机时刻,才能真切理解他们的能力。 可以合理推测,若无这两人的帮助,OpenAI或许早已解体。他们昼夜不停地工作,直至危机平息。尽管工作强度极高,两人始终保持冷静,提出清晰的战略思路与宝贵建议。他们阻止了若干错误决策的发生,自己则未犯任何失误。他们动用庞大的关系网络,处理复杂局势,完成了许多事——其中不少恐怕至今仍不得而知。 最令人难忘的,还是他们所展现出的关怀、同理心与支持。 原本以为已经了解何为支持创始人与企业,在某种程度上也许是如此。但此前从未见过,也从未听说过像这两位那样的支持行为。如今终于理解,为何他们在行业中拥有传奇般的地位。他们虽性格不同,却都具备翻山越岭、无私援助的非凡能力,也都在关键时刻展现出毫不动摇的承诺。科技行业因有这两人而更加美好。 还有其他与他们类似的人。这正是这个行业极其独特且值得珍惜的部分,为整体运转贡献巨大,远超人们的普遍认知。未来,也期望自己能以类似方式“传递”这份恩情。 另外,还要特别感谢Ollie——无论是那个周末,还是一直以来的支持。他在各方面都令人钦佩,能有这样的伴侣,是任何人都难以奢求的幸福。
Meta公司即将完成对人工智能数据标注初创企业Scale AI的投资协议
Meta公司即将完成对人工智能数据标注初创企业Scale AI的投资协议,总金额高达140亿美元。这项交易不仅意味着Meta将获得该公司49%的股份,还将迎来Scale AI联合创始人兼首席执行官Alexandr Wang的加入,他将领导Meta新组建的AI研究实验室,并携部分原团队成员一同进入Meta体系。此举被视为Meta首席执行官马克·扎克伯格(Mark Zuckerberg)在人工智能领域所做出的最大一次战略押注。 据知情人士透露,扎克伯格对Meta在人工智能核心模型和面向消费者应用方面落后于竞争对手OpenAI的现状深感不满。此前发布的Llama 4模型未能在开发者群体中赢得预期反响,仅推出两个小型版本,承诺中的更强大版本“Behemoth”因性能未达扎克伯格预期而推迟上线。为此,Meta已对旗下生成式AI(GenAI)团队进行重组,将其分为AI产品和AGI基础两大分支,由Connor Hayes与Amir Frenkel、Ahmad Al-Dahle分别负责。 业内人士指出,扎克伯格之所以选择Alexandr Wang,而非一如既往地重用Meta内部的忠诚高管,显示出他对当前形势的高度紧迫感。Wang是麻省理工学院的辍学生,近年来在AI领域积累了卓越声誉,尤其擅长将技术复杂性与商业落地相结合。其领导下的Scale AI不仅成为OpenAI、谷歌和微软等科技巨头的关键数据提供商,也在国防领域持续扩张。今年3月,Scale AI与美国国防部签订了数百万美元的合同,并与Meta联合打造了专为国家安全任务定制的Defense Llama模型。 此次投资策略也反映了Meta在反垄断审查压力下采取的谨慎路径。不同于直接收购,Meta选择入股模式,效仿谷歌与微软此前对Character.AI和Inflection AI等初创企业的投资方式,以避免进一步刺激监管机构。 据《纽约时报》最早披露的信息,Wang将协助建立Meta新的AI研究机构,该机构未来或将成为公司推动AI战略的关键力量。Wang本人在2025年1月接受CNBC采访时曾指出,中美之间正在展开一场“AI战争”,而美国需要大量算力和基础设施来应对挑战。他表示:“美国必须释放能源潜力,推动AI繁荣发展。” 外界普遍认为,Meta此番重金引进Wang及其团队,不仅是对Scale AI强大数据能力的认可,更是希望借助其对行业格局和竞争态势的深刻理解,提升Meta在ChatGPT等类产品上的竞争力。Scale AI的竞争对手SuperAnnotate首席执行官Vahan Petrosyan表示:“Scale可能已覆盖了大约70%的AI模型构建过程。Meta的收购,实质上是对这类集体智能的获取。” Meta与Scale AI方面目前均未对此交易发表评论。随着交易即将敲定,Meta在全球AI竞赛中的下一步布局正逐渐浮出水面。
OpenAI正式发布了其最新的AI推理模型o3-pro
OpenAI正式发布了其最新的AI推理模型o3-pro,被称为目前最强大的推理模型。该公司表示,o3-pro已在ChatGPT的Pro和Team版本中全面上线,取代此前的o1-pro模型。企业版和教育用户预计将在一周内获得访问权限。 据介绍,o3-pro属于OpenAI今年早些时候推出的o3系列,专为在复杂推理任务中提供更高的稳定性和表现而设计,尤其在科学、教育、数学、编程和写作等领域表现出色。此次发布紧随公司宣布对o3输入输出成本削减80%的重大调整之后,OpenAI首席执行官山姆·奥特曼(Sam Altman)曾对此作出说明。 目前,用户可通过ChatGPT界面和API访问o3-pro模型,API定价为每百万输入tokens 20美元、每百万输出tokens 80美元。 在内部评估中,OpenAI报告称,o3-pro在多个关键领域的表现优于其非Pro版本。根据测试人员反馈,o3-pro在66.7%的个人写作任务中被评为更优,在62.7%的计算机编程任务中也获得更高评价。审阅人员还认为该模型在表达清晰度、遵循指令能力以及内容全面性方面具有明显优势。 此外,o3-pro具备使用多种辅助工具的能力,如网页搜索、文件分析、Python代码执行、具备推理功能的计算机视觉,以及访问用户记忆以实现更个性化的响应。不过OpenAI提醒用户,由于这些功能的使用,o3-pro的响应速度可能略慢于o1-pro。在注重准确性高于速度的使用场景中,官方建议优先选用该模型。 尽管在多方面取得了进步,o3-pro仍存在一些限制。例如,该模型目前不支持图像生成;由于技术问题,ChatGPT的临时对话功能也暂时关闭;此外,Canvas工作区功能尚未向该模型开放。 OpenAI表示,o3-pro在内部基准测试中取得了良好成绩,但尚未公布与主要竞争对手的详细对比数据。 o3-pro的发布,进一步巩固了OpenAI在高性能AI模型领域的市场地位,显示出该公司持续优化通用与专业AI应用能力的战略方向。
WWDC上,Apple 最讓人振奮的一系列開發者工具更新
今年在WWDC上,Apple 一口氣公布了我認為是近年來最讓人振奮的一系列開發者工具更新。這不只是小修小補,而是從系統設計到AI整合的全面升級,幾乎可以說是為我們這些開發者量身打造的一整套「未來式」開發平台。 🍎 Xcode 26:內建大語言模型,寫程式像聊天一樣自然 首先要提的當然是 Xcode 26。這是我第一次看到 Apple 把大語言模型這麼深入地整合進Xcode。它不只支援 ChatGPT,還允許我使用自己的API key來接入其他模型,甚至可以在Mac本機上直接跑模型(前提是Apple Silicon)。這意味著什麼?我寫code、補測試、產生註解、debug,現在都可以「對Xcode說一句話」就完成。 對我來說,Coding Tools 的即時建議功能超級加分——不管在哪段程式碼裡,我都可以呼叫出AI來幫我修bug、寫單元測試,甚至是產生一個playground來測試概念。這根本就是我夢寐以求的coding夥伴。 🧠 Apple Intelligence 與 Foundation Models:真正本地化的AI 這次Apple真的把「裝置端AI」發揮到極致。透過新的 Foundation Models Framework,我只需要幾行 Swift,就能在App裡呼叫Apple自己的大語言模型,進行生成、補全、總結等操作,而且完全本地推理、不需要網路連線、不會送出資料,隱私保護做到滿分。 我特別喜歡的一點是這個框架支援 tool calling,也就是可以讓模型叫用App中的功能來完成工作。比如說我在日記App裡面要幫使用者總結今天的心情,模型就可以自己決定何時需要呼叫日曆API或定位資料來幫助撰寫,完全是我們夢想中AI助手的模樣。 ✨ Liquid Glass:全新UI語言,漂亮到不想回去舊設計 Apple 這次設計上的變化真的令人驚豔。Liquid Glass 這個新UI材質看起來就像光滑流動的玻璃,滑動起來非常流暢,而且能自然聚焦使用者的注意力。我已經開始用 SwiftUI 開發新版App界面了,它對這套設計的支援完整到近乎無痛轉換。 此外還有一個我覺得超棒的新工具:Icon Composer。這對設計師和開發者來說是個大福音。我可以直接在這個工具裡測試App圖示在不同背景、不同光照條件下的樣子,甚至能模擬在macOS和iOS上不同大小和主題的呈現方式。設計統一性和效率都大幅提升。 🕹️ Metal 4 + Game Porting Toolkit 3:遊戲開發者的全新武器庫 這波更新對遊戲開發者來說簡直是革命性的。Metal 4 現在支援直接在著色器裡跑推論模型,讓光影、材質與幾何更真實。我可以用機器學習技術來即時生成反射、噪光濾除,甚至是用 MetalFX Frame Interpolation…
大型語言模型(LLMs)其實不貴
大型語言模型(LLMs)其實不貴。這聽起來也許像句廢話,但實際上,「LLM很貴」這個觀點不但還在傳播,而且似乎越來越常出現在各種分析裡,從預測AI企業注定虧損,到斷言消費型AI不可能盈利,完全忽略了現實中的成本變化。 我能理解這種錯誤從哪來——AI熱潮剛開始那會兒,推理(inference)確實很貴,大家也談了很多。但隨著模型越來越強,推理成本下降的速度更快。問題在於,人類對一件東西在兩年內變得一千倍便宜完全沒直覺。這不常見,也不直觀。再加上API價格用的是「每百萬個token幾塊錢」這種難以想像的單位,誤解自然也就持續存在。 我想拿網頁搜尋來當比較對象,因為它跟LLM用途接近,而且是大家每天都在用但從來沒付過錢的東西。我不是在說搜尋可以被LLM取代,而是想提供一個有意義的參照點。 搜尋查詢多少錢? 根據2025年5月的公開API價格: 不同引擎的價格有落差,但差距沒那麼誇張,而且品質高的通常也比較貴。 LLM查詢多少錢? 我從自己的搜尋紀錄裡挑了幾個問題,轉換成自然語言,丟到Gemini 2.5 Flash(Thinking mode off)裡跑: 所以每次查詢大約在 500–1000 token 之間。我就取這個範圍來估算。 根據2025年5月的API價格,部分模型的成本如下: 模型 價格(每百萬 token) Gemma 3 27B $0.20 Qwen3 30B A3B $0.30 Gemini 2.5 Flash Preview $0.60 GPT-4.1 mini $1.60 GPT-4.1 $8.00 Gemini 2.5 Pro Preview $10.00 Claude 3.7 Sonnet $15.00 o3 $40.00 假設每次查詢大概用掉1,000 token,那上表中的價格就可以直接對比搜尋API的千次查詢價格。 換句話說,哪怕是主流、功能完整的中階模型,也比搜尋API便宜一個數量級。像Gemini 2.5 Flash就只要$0.60,比Bing的$15還不到二十分之一。 有人可能會提出的反對意見…
OpenAI ARR已突破100亿美元
OpenAI公司近日宣布,其年度经常性收入(ARR)已突破100亿美元,这一里程碑距离ChatGPT首次推出尚不足三年,标志着这家位于旧金山的人工智能初创企业已成为全球增长速度最快的科技公司之一。 据OpenAI发言人介绍,这一收入数据包括来自消费者端的ChatGPT产品、企业端服务,以及API接口的收入,但不包括与微软的授权收入或其他一次性大型交易。 在2024年,OpenAI的年度经常性收入为约55亿美元,短短一年增长近一倍。然而,这种增长也伴随着高昂的成本:公司去年亏损高达50亿美元。 消息人士透露,OpenAI的目标是在2029年实现1250亿美元年收入。《The Information》率先报道了这一雄心勃勃的收入计划。此类增长预期也为其高估值提供了支撑。今年3月,OpenAI完成了一轮高达400亿美元的融资交易,成为有史以来最大规模的私募科技交易之一。目前公司估值相当于其年收入的约30倍,凸显主要投资者对其超高速增长潜力的信心。 OpenAI自2022年底发布面向大众的ChatGPT后迅速走红,并在随后一年内推出企业版本。如今,公司支持的每周活跃用户已达5亿人次。截至2025年6月,其企业版用户数已突破300万,较2月的200万增长迅猛。 OpenAI目前的主要投资方包括微软、日本软银、Coatue、Altimeter、Thrive等知名机构。值得注意的是,微软不仅是OpenAI的重要投资方,还与其展开了深度合作,在其Azure云平台集成OpenAI技术,并在Windows、Office等产品中嵌入GPT模型,持续推动其在企业级市场的扩张。 此次收入突破标志着OpenAI已不再只是一个实验室项目,而是真正迈入全球AI商业化的核心舞台。随着企业客户不断涌入、模型能力持续提升,OpenAI正在快速向全球最具影响力的AI平台迈进。
Siri在WWDC中的缺席显得格外刺眼
在2025年全球开发者大会(WWDC)上,尽管苹果公司发布了大量与“Apple Intelligence”相关的新功能,包括跨App的实时翻译、图像生成和视觉搜索等内容,但曾被寄予厚望的智能语音助手Siri几乎未获提及,令外界关注。 Siri在本次大会中的缺席显得格外刺眼。过去一年,苹果曾在广告中大力宣传“个性化Siri”的到来,并在2024年的WWDC中首次公布相关计划,承诺将在“未来一年内”逐步上线。但到目前为止,这些功能依然遥遥无期。 苹果软件工程高级副总裁克雷格·费德里吉(Craig Federighi)在今年的主题演讲中仅简要表示:“我们正在继续推进让Siri更加个性化的工作,但这项工作需要更多时间来达到我们的高质量标准。”除了表示Siri已变得“更自然、更有帮助”,并承诺将在未来一年分享更多内容外,关于Siri的更新几乎没有其他实质性信息。 这一“沉默”也让业界重新关注苹果在生成式AI领域的迟缓进展。与谷歌、微软、OpenAI和Anthropic等竞争对手相比,苹果在推动AI助手、开发者平台和高级模型能力等方面明显滞后。以谷歌为例,其Gemini助手已在Android平台上开放访问,能够读取并分析用户屏幕上的内容,执行图像识别和复杂响应;微软则已在Windows 11中整合AI功能,如通过文件管理器实现图片模糊处理、内容摘要等快捷操作。 相比之下,Apple Intelligence的初始表现饱受质疑。今年早些时候,部分通知摘要功能因生成内容不准确而被临时禁用,例如BBC曾指出系统会将多个新闻标题混合生成错误摘要。 面对竞争压力,苹果本次WWDC采取的策略是推出一系列以ChatGPT为后端支持的小型AI实用功能,诸如实时翻译、多语言消息传递,以及结合OpenAI的图像生成能力(Image Playground)等。用户可将好友照片变换为油画风格,也可通过视觉智能在屏幕上识别内容并快速执行搜索或操作。 此外,苹果还开放了其本地大语言模型API供开发者使用,进一步推动AI在iOS生态中的嵌入式应用。然而,用户期待已久的“Siri支持多模型切换”或“集成谷歌Gemini”的功能并未出现。 去年6月,费德里吉曾在一次现场答问环节中提及希望Apple Intelligence未来能够让用户“选择他们想使用的模型”,并点名提到Gemini。今年2月的一项后端更新也曾暗示苹果可能在后台测试Gemini的集成;4月,在谷歌搜索垄断审判的庭审中,谷歌CEO桑达尔·皮查伊表示,计划在2025年中期与苹果达成协议,并在年底前完成Gemini的正式整合。 目前来看,这一合作仍在“待定”状态,苹果本次未在WWDC上披露相关进展,引发外界对其AI战略完整性的疑问。 在AI赛道激烈竞速之下,苹果错过了去年的关键窗口,如今面对来自谷歌、微软和OpenAI的持续压力,其如何加快Siri的步伐,重塑其AI助手的地位,正成为业界关注的焦点。
谷歌公司近日推出了其迄今为止最强大的AI模型升级版——Gemini 2.5 Pro预览版
谷歌公司近日推出了其迄今为止最强大的AI模型升级版——Gemini 2.5 Pro预览版,该版本将在未来几周正式上线,届时将作为企业级应用的稳定版本全面推向市场。 此次更新的Gemini 2.5 Pro基于5月发布的版本进行优化,并在谷歌I/O大会上首次展示。根据LMArena的评测,2.5 Pro的Elo分数上升了24分,达到1470分,继续在排行榜上保持领先地位;在WebDevArena中也取得了1443分的成绩,提升35分,同样登顶。此外,该模型在编程方面表现尤为出色,领先于包括Aider Polyglot等高难度编程基准测试。 在推理能力方面,2.5 Pro在GPQA和“人类最终考试”(HLE)等严苛评测中展现出顶尖水平,这些评测主要衡量模型在数学、科学、知识和逻辑推理方面的能力。 除了性能升级,此次版本还对2.5 Pro在语言风格和结构表达上的表现进行了显著改进,更具创意,响应内容格式更清晰,回应了开发者在上一版本中的反馈。 目前,开发者已可通过 Google AI Studio 和 Vertex AI 平台,在Gemini API中使用该升级预览版本。值得一提的是,谷歌此次还引入了**“思维预算(thinking budgets)”功能**,使开发者能够更灵活地控制使用成本与响应延迟。 此外,升级版的2.5 Pro现已开始在Gemini应用中陆续推出,供用户抢先体验。