Anthropic 于 2025 年 4 月 16 日宣布推出 Claude 模型的两项重大功能更新:Research(研究模式)与 Google Workspace 集成。这两项新功能标志着 Claude 在成为高效协作伙伴方面迈出了关键一步,进一步巩固其在专业与个人生产力领域中的角色定位。 1. Research:自动化、多角度的信息探索 新推出的 Research 功能重新定义了 Claude 获取并处理信息的方式。Claude 可自动进行多轮搜索,每一次搜索都基于前一轮结果进行改进,从而构建出更具深度与广度的答案。这种“代理式搜索策略”让模型能够主动识别待解问题、分析不同角度,并系统性展开推理。 在 Research 模式下,Claude 不仅能快速返回详尽的答案,还附带清晰易查的来源引用,让用户对信息的可信度充满信心。无论是日常办公中的市场调研,还是学术领域的文献分析,该功能都可在几分钟内提供高质量成果,大幅节省原本需要数小时完成的工作。 2. Google Workspace 集成:更深入理解你的工作语境 为了让 Claude 真正成为“上下文感知”的协作伙伴,此次更新新增了对 Google Workspace 的整合,包括 Gmail、Google Calendar 与 Google Docs。 连接 Workspace 后,Claude 可: 用户可以直接要求 Claude 整理上周的会议摘要、提取客户沟通中的行动项,甚至编写项目计划或建议书,而无需反复解释背景信息。所有输出均附带文档来源标注,确保内容可追溯且符合安全标准。 3. Claude Enterprise 增强功能:文档编目与智能检索 对于企业用户,Claude 还新增了…
Author: aitrendtrackers@rengongzhineng.io
OpenAI o3 与 o4-mini
OpenAI 于 2025 年 4 月 17 日正式发布了最新的 o 系列模型 —— o3 与 o4-mini,这是迄今为止最强大的推理模型,标志着 ChatGPT 在智能与实用性方面迈出了飞跃性的进步。这两个模型具备更长时间的“思考”能力,并首次实现了在 ChatGPT 中对所有工具的智能整合使用,包括网页搜索、代码执行(Python)、图像生成与分析、文件阅读等功能。这种“代理式”工具调用(agentic tool use)不仅让模型能根据任务自动决定是否、何时、如何使用工具,还极大提升了多步骤问题的解答质量。 在最新模型中,用户不再局限于被动提问,而是可以让模型作为思维伙伴深入展开分析、构建复杂的解决方案或执行任务流程。这意味着,从学术研究到商业咨询,从数学建模到图表生成,ChatGPT 的能力边界被重新定义。 o3:顶级推理模型,刷新多个基准测试记录 OpenAI o3 是目前最强的推理模型,尤其在代码、数学、科学和图像理解等任务中表现出色,刷新了包括 Codeforces、SWE-bench 和 MMMU 等多个权威基准测试的记录。o3 在面对需要多步骤推理的复杂问题时展现出极高的分析能力,外部专家评估显示其重大错误率比 o1 低 20%,在生物学、工程、数学等领域尤其突出。该模型的独特优势在于,其具备严谨的假设推导能力,并能自我反驳、调整逻辑路径。 o3 还具备强大的视觉推理能力,能够结合图表、手绘草图、照片等图像信息进行逻辑分析。例如,在解决科研类问题、工程结构分析或复杂图像描述任务时,其表现已超过 GPT‑4 系列,并成为 OpenAI 迄今最强的多模态模型之一。 o4-mini:轻量级推理模型,性能与效率兼备 o4-mini 是一款为速度与成本优化的轻量推理模型,但其性能依然远超同级别产品。在 2025 年 AIME 数学竞赛的测试中,o4-mini 在接入 Python 工具后达成 99.5% 的 pass@1,通过率几乎满分,远超前代模型。在 AIME 2024…
Gemini 2.5 Flash
Gemini产品管理总监Tulsee Doshi于2025年4月17日宣布,Gemini团队正式推出Gemini 2.5 Flash的预览版,并已通过Gemini API,在Google AI Studio和Vertex AI平台上线。这一版本是在广受欢迎的2.0 Flash基础上进行的重大升级,不仅大幅提升了推理能力,还继续保持高速响应和低成本的优势。值得一提的是,Gemini 2.5 Flash是首个真正意义上的“混合推理模型”,为开发者提供了“思考功能”的开关,并允许设定“思考预算”,以便在质量、成本和延迟之间取得最佳平衡。即便关闭思考功能,该模型仍可维持2.0 Flash的高速表现,同时在整体性能上有所提升。 Gemini 2.5系列属于“思考模型”,具备在生成回应前进行内在推理的能力。模型可以在输出结果前,先进行一段“思考”流程,以更深入理解用户的提示、拆解复杂任务并规划回答策略。对于那些需要多步推理的复杂任务(如解答数学题、分析研究性问题),这种预处理过程能显著提升回答的准确性和全面性。数据显示,Gemini 2.5 Flash在LMArena中的复杂提示(Hard Prompts)表现仅次于2.5 Pro,表现非常出色。 在成本与性能对比上,2.5 Flash以远低于其他主流模型的体量和价格,达到了相似甚至更优的表现,被定位为目前最具性价比的思考模型。其卓越的成本-性能比,使其成为Google在质量与成本的帕累托前沿中的又一重要产品。 为了满足不同使用场景下对质量、成本与响应速度的权衡,Gemini团队在2.5 Flash中引入了“思考预算”设置,允许开发者精细控制模型在思考阶段最多可生成的token数量。预算值越高,模型可进行更深入的推理,从而进一步提升回答质量。但需要指出的是,该预算只是上限设定,模型会依据任务复杂度自动决定实际的思考token数量,避免无谓消耗。 从实验数据来看,随着思考预算的提升,模型的推理质量也随之提高。2.5 Flash在训练过程中已具备“自主判断所需思考时间”的能力,因此能根据提示自动调整推理深度。 若开发者希望在尽可能降低成本和延迟的同时,仍享有较2.0 Flash更优的性能表现,只需将思考预算设置为0即可。此外,开发者可通过API参数或在Google AI Studio、Vertex AI中的滑动条进行预算设置,范围从0至24576 token不等。 在默认模式下,模型对不同类型的任务会自动决定思考的深浅。举例来说: 低推理需求的提示包括: 中等推理需求的提示包括: 高推理需求的提示包括: Gemini 2.5 Flash现已通过Gemini API在Google AI Studio与Vertex AI开放预览,同时在Gemini应用中设有专属下拉菜单供用户选择。开发者可尝试调整“thinking_budget”参数,探索如何通过可控推理来解决更复杂的问题。 例如,使用以下代码即可快速体验Gemini 2.5 Flash的推理能力: 更多API文档与推理指南可在官方开发者文档中查阅,或通过Gemini Cookbook中的代码示例入门。Gemini团队还将持续优化2.5 Flash版本,并计划在后续正式上线以支持全面的生产环境使用。
OpenAI最近放出了一波重磅更新
OpenAI最近放出了一波重磅更新,直接把AI圈搅了个天翻地覆。重点来了:GPT-4.1三款全新模型横空出世,分别是标准版GPT-4.1、精简版4.1 mini,还有迷你款4.1 nano,全部只通过API提供服务。这三位选手不但扩展了上下文处理范围,最多支持一百万个tokens,还在编程准确性、响应速度和成本控制方面全面升级,直逼效率巅峰。 在众多提升中,4.1主力版本在软件工程测试和长文本逻辑推理上,表现比GPT-4o还要硬核。虽然在处理超长文本时略显疲态,但整体依然亮眼。轻量级选手如4.1 mini更是价格杀疯了,比GPT-4o便宜83%,堪称性价比之王。现在通过Windsurf平台,开发者还能限时免费体验一把,简直不要太香。 另一边,OpenAI宣布将于七月前“退役”计算资源大户GPT-4.5,转而押宝更具可扩展性的模型阵容。而关于令人头秃的模型命名问题,CEO山姆·奥特曼亲自下场发推,承诺夏天前解决这“命名乱象”,顺带自嘲一波,网友表示这波幽默很加分。 此外,ChatGPT也迎来视觉类功能大升级——全新“图像库”标签正式上线,用户可以在网格视图中浏览和管理生成的图片。无论是iOS端还是网页版,免费、Plus或Pro用户通通能用,还贴心配备了快捷入口,想生成新内容?点一下就行,体验感直接拉满。
OpenAI 最新发布的 GPT-4.1 系列在 API 中正式上线
OpenAI 最新发布的 GPT-4.1 系列在 API 中正式上线!这次不只是模型升级,还带来了三个不同版本:GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano。整体性能全面超越 GPT-4o 系列,无论是写代码、听指令还是处理超长上下文,都有质的飞跃。 这批新模型最高支持 100 万个 token 的超长上下文理解,知识库也同步更新到了 2024 年 6 月,堪称最聪明的“记忆王”。在权威测试中表现亮眼,例如在 SWE-bench Verified 编程测试中,GPT-4.1 的完成率高达 54.6%,碾压 GPT-4o 和 GPT-4.5。 不仅如此,GPT-4.1 在指令执行方面也表现出色,在 Scale 的 MultiChallenge 测试中拿下了 38.3% 的高分,提升明显。而在理解无字幕长视频的 Video-MME 测试中更是一骑绝尘,得分 72%,再次刷新记录。 别看 mini 和 nano 版本体积小,实力可不含糊。GPT-4.1 mini 不仅在许多测试中击败了 GPT-4o,延迟还减半,费用省了 83%。至于 GPT-4.1 nano,它是迄今为止最快、最便宜的模型,专为高效处理分类和自动补全等任务而生,堪称“性价比天花板”。 在真实应用场景中,比如 Windsurf 和 Qodo…
谷歌的AI视频生成工具 Veo 2 正式开始在美国地区上线
谷歌的AI视频生成工具 Veo 2 正式开始在美国地区上线,走的是与OpenAI的 Sora 同场竞技的路线。这个新版本目前通过 Google AI Studio 向部分用户逐步开放。 在不久前的 Cloud Next 活动上,谷歌宣布 Veo 2 已进入“量产准备”阶段。而现在,包括 BleepingComputer 在内的一些用户已抢先获得试用权限,不过当前仅限美国地区。 Veo 2 能根据用户输入的指令生成动画视频,无论是简单的短语,还是结构复杂的文本描述,它都能理解并执行。一位早期测试者就用自己的草图让 Veo 2 生成了一段动画,画面流畅度和表现效果都“到位”。 目前,Veo 2 生成的视频最高支持 720p 分辨率,帧率为24fps,而且每段视频长度被限制在 8秒以内。生成成本也已公开:每秒收费0.35美元。 虽然功能已经开放,但 Google 还没全面铺开。如果你人在美国,可以直接在 AI Studio 看到 Veo 2 的开关;如果你不在美国,那就需要“科学上网”才可能看见这个新功能。 另外,有消息称,未来 Veo 2 的功能会整合进 Gemini 模型系统,但具体上线时间谷歌尚未公布。短期内想尝鲜的话,只能通过 AI Studio 单独体验。
在一场关于AI霸主地位的较量中,谷歌已经毫无悬念地登顶
在一场关于AI霸主地位的较量中,谷歌已经毫无悬念地登顶。曾经被戏称为“稳得有点慢”的Google DeepMind,现在正在用实际表现狠狠打脸质疑者。 文章作者一开头就坦白,尽管曾对OpenAI看好,但内心一直更偏爱DeepMind。理由?创始人Demis Hassabis身上有种科学家的可靠感,而不是商人的精明。更别提AlphaGo和AlphaZero留下的经典时刻,那些AI高光时刻是很多AI爱好者情感的起点。相比之下,ChatGPT虽然酷炫,却没能留下那种“第37手”的传奇。 不过谷歌曾一度浪费了手上的好牌。拥有技术、资金、人才、声誉甚至信念,却因担心影响搜索广告主业,选择了保守路线,眼睁睁看着ChatGPT爆红。但作者指出,那次“犹豫不决”是谷歌最后一次失误。如今,Google DeepMind不仅赢回了场面,简直是在AI战场上“赢到发烫”。 Gemini 2.5 Pro:全面碾压 Gemini 2.5 Pro在各种主流与内部基准测试中都名列前茅,不论是LMArena、GPQA Diamond、人类终极考试还是AIME数学竞赛,它都稳居榜首。甚至在像Pokemon这类更偏向代理智能的领域里,它也表现优异,逐步攀升Minecraft Bench等测试榜单。 更关键的是,不只是评分高,用户反馈也一致称赞它是目前最强模型。而且它不仅强,还便宜、速度快,免费开放使用,支持100万Token的超长上下文窗口(仅最近被Meta的Llama 4超越)。再加上与整个Google产品生态无缝集成,杀伤力直接拉满。 Gemini 2.5 Flash 与 Gemma 3:速度与开源并进 Flash系列定位于轻量快速版本,便宜到连以性价比著称的DeepSeek都难以匹敌,非常适合嵌入手机和边缘设备。而Gemma 3作为开源模型,也追平Llama 4和DeepSeek-V3,展现了Google在开源领域的实力。 分析图表显示,在性能和成本两个维度上,Google几乎掌控了整个“帕累托前沿”。高性能模型不贵,便宜模型也强,简直是“横着打”。 生成式AI全家桶也统治级别 除了语言模型,谷歌在其他生成式AI领域也几乎称霸:Lyria做音乐、Imagen 3画图、Veo 2做视频、Chirp 3处理语音,每一个都属于业界一线水准。这些产品正在整合进Google的Vertex AI平台,统一形成超级AI武器库。 而在智能体(agents)方面,Gemini 2.5 Pro在“深度研究”模式下击败了OpenAI的同类产品,同时Google也在推进两个重量级项目:Project Astra(语音助手)和Project Mariner(电脑交互)。此外,还有与Model Context Protocol兼容的Agent2Agent协议,听取社区反馈后打造的智能体互通框架,可谓“全方位出击”。 硬件、云服务、手机,全面碾压 Google还是全球头部云服务商之一,不仅提供芯片给Anthropic,还和Nvidia深度合作。而OpenAI要靠微软Azure,Anthropic则依赖亚马逊AWS。在云市场这场“巨头对巨头”的战役中,谷歌用右臂参战。 左臂干嘛的?当然是搞芯片。谷歌刚发布了第七代TPU芯片Ironwood,专为推理任务打造,目标直指Nvidia Blackwell。而谷歌收入来源分散,即便芯片卖得不如预期,也无伤大局。 还有手机。Pixel 9已经集成Gemini,支持屏幕共享、镜头控制等AI特性。反观苹果还在“AI是不是真的有用”这类哲学问题里打转,OpenAI则在探索“用户能不能放弃手机”这类玄学命题。 最后总结:谷歌全线领先 谷歌不仅是AI巨头,更是软件巨头、云服务巨头、硬件巨头、甚至手机厂商。七大产品(月活用户超20亿)遍布全球,而当这些产品全面接入Gemini,全球数十亿用户将直接用上“世界最强AI”——而且是免费的。 OpenAI和Anthropic?曾经的黑马如今看起来只是因为谷歌一度失误才有机会登场。而现在的谷歌,几乎找不出哪个方向不在“赢麻了”。整个AI圈正在重新定义“王者归来”,主角毫无疑问,是Google + DeepMind。
MCP的另一面
一份超硬核的技术文章最近在开发圈里刷了屏,主角是「模型上下文协议」(Model Context Protocol,简称MCP)。这玩意儿近几周迅速从“有点酷”的新概念,变成了连接第三方工具和大语言模型聊天助手的“事实标准”。不过别只看表面风光,MCP的坑可真不少。 文章作者一边是MCP的铁杆粉丝,一边又忍不住吐槽它的种种“缺陷”。全文从多个角度梳理了MCP的问题,包括协议安全性、用户体验、语言模型的信任风险、数据访问控制混乱,以及对LLM能力的过高期待。 简单来说,MCP是让各种聊天助手(比如Claude、ChatGPT、Cursor等)能外挂不同插件、连接各种数据源的通用桥梁。用户只需一句话,比如“帮我查一下论文有没有漏掉引用,再把灯变成绿色表示搞定”,就能让三个不同的MCP服务器协同作业,完成这个复杂任务。 看起来高效又聪明,但问题也不少: 第一坑:安全问题 协议早期压根没定义身份验证,后来匆忙补上也引来一堆争议。更离谱的是,很多MCP工具需要用户下载并运行代码,万一是恶意代码直接本地沦陷。另外,工具默认信任输入,甚至直接执行代码,导致中招风险飙升。 第二坑:用户体验差 MCP虽然对LLM友好,但对人类不太友好。比如协议没考虑工具风险等级——有的能订机票,有的能删文件,万一不小心“连点确认”,度假照就全没了。更别说还没有流量成本控制,结果就是传一堆大文本内容,每次响应都烧钱。协议也只支持非结构化文本输出,复杂交互场景(比如打Uber或发动态)根本搞不定。 第三坑:LLM信任危机 MCP进一步加大了提示注入(Prompt Injection)的风险。工具有时能篡改系统指令,甚至还可以“换皮骗点击”。更高级的黑招包括把敏感文件内容传给第三方,或者通过工具名称伪装成官方接口。只要用户稍不注意,数据泄漏不是梦。 第四坑:权限幻觉 许多公司以为“员工能看什么,AI助手就能看什么”,但事实远没那么简单。AI聚合数据的能力太强,结果可能让员工获得一些“技术上可以,但不该有”的敏感信息。比如根据公开消息推测公司财务、识别匿名反馈人、计算预期营收等操作,都是灰色地带。 第五坑:LLM自身不靠谱 MCP的好用前提是LLM能稳定、准确地使用这些工具,但现实是,不少模型连简单任务都完成不了。即使工具接好了,LLM可能因为提示太长反而性能下滑。不同模型对工具描述方式的偏好也不一样,开发者根本抓狂。 总结来看,MCP的初衷很美好,让AI助手更强大、更自由地使用各种数据和服务。但现实是,协议、应用和用户都得一起努力,才能避免“神操作变事故现场”。设计好协议路径、开发者做好防坑提醒、用户增强风险意识,才是未来MCP生态健康成长的关键。
Ilya Sutskever主导的AI新创公司Safe Superintelligence公司估值飙升至320亿美元
据《金融时报》爆料,由OpenAI联合创始人、前首席科学家Ilya Sutskever主导的AI新创公司Safe Superintelligence(简称SSI),最新一轮融资金额高达20亿美元,公司估值飙升至320亿美元。 这家神秘感十足的AI初创企业,早前已经低调拿下10亿美元资金,还一度传出另一笔同等规模的融资正在酝酿中。尽管SSI方面对这笔新融资保持沉默,但据称此次融资由Greenoaks领投。 话说Sutskever自2024年5月从OpenAI“体面”离场之后,就一头扎进了这家新公司。据说他当时在一场未遂的“宫斗”中疑似参与逼宫现任CEO Sam Altman,风波过后干脆拉上Daniel Gross和Daniel Levy一同创业。 SSI的理念简单粗暴:目标只有一个,产品也只做一个——“安全的超级智能”。这听起来像是科幻片设定,但团队看起来玩得很认真。 至于这个“安全超智”产品现在到底进展如何?没人知道。SSI官网目前也只是一个极简主义风格的页面,上面只写着一段“使命宣言”,不禁让人好奇背后到底藏着什么秘密大招。
谷歌Agent Development Kit
智能体开发不再是未来主义幻想,谷歌用Agent Development Kit(ADK)把它打造成了“上手即用”的现实利器。打造像天气助手那样的AI智能体只是第一步,真正将它们推向用户,还得经历评估、调试、部署等一系列关键操作——ADK正是为这些“最后一公里”问题提供完整解决方案的“幕后英雄”。 from google.adk.agents import LlmAgent from google.adk.tools import google_Search dice_agent = LlmAgent( model=”gemini-2.0-flash-exp”, # Required: Specify the LLM name=”question_answer_agent”, # Requdired: Unique agent name description=”A helpful assistant agent that can answer questions.”, instruction=”””Respond to the query using google search”””, tools=[google_search], # Provide an instance of the tool ) # you can run this…