谷歌量子计算负责人最近放话:“真正实用的量子计算突破,最快 5 年就到。”一句话瞬间点燃了科技圈的热议。Julian Kelly,也就是 Google Quantum AI 硬件总监,在接受 CNBC 采访时表示,量子计算正逐步接近能够“做出现代计算机完全做不到的事”的临界点。 这可不是画大饼。去年 12 月,谷歌在量子纠错方面取得关键突破,为构建可用量子计算机铺平了理论路径。再加上微软前不久也不甘示弱地发布了自己的量子芯片“Majorana”,甚至得搞出一种“全新物质状态”来驱动——一句话,量子这事儿,真的卷起来了。 目前谷歌最先进的量子计算机配备 105 个量子比特(qubit),但专家普遍认为,真正实用的应用至少需要 100 万 qubit 才能支撑。但即便如此,Kelly 仍旧对未来保持乐观:“五年内,我们应该能看到真正只靠量子计算才能解决的问题被攻克,比如模拟复杂物理系统,或者生成全新类型的数据。” 他也坦言,量子计算不太可能直接运行现有 AI 模型,但未来可能为 AI 提供创新数据源。当然,这还是“理论上可能”,实际效果还有待验证。 值得注意的是,最近因为 AI 芯片大热,投资人开始追逐下一个潜力股,量子计算因此获得一波关注红利。Nvidia 虽然不做量子芯片,但也借势办起了“量子日”,把亚马逊、微软等 12 家量子巨头请来讨论未来图景。 不过 Nvidia CEO 黄仁勋年初曾泼过冷水,声称量子计算 15 年内都不会实用,导致一票量子公司股价跳水。但他上周又改口说自己“错了”,不过仍然补刀一句:“这玩意儿复杂得离谱。” 总结一下:量子计算的未来像极了科幻小说,离真正改变世界还有点距离,但一旦突破,可能将是整个科技栈的重构。眼下看来,2025年也许是“量子热”重新升温的起点,而真正的奇迹,或许就在五年之后等着惊艳世界。
Author: aitrendtrackers@rengongzhineng.io
Gemini 2.5 Pro Experimental,直接空降 LMArena 榜首
谷歌 DeepMind 又双叒出大招,正式发布旗下最聪明的 AI 模型——Gemini 2.5,直接把“AI 思考力”拉升到新维度。这不是简单的升级,而是一次“进化”,让模型不仅会答题,更懂得思考、推理和编程。 这次亮相的主角是 Gemini 2.5 Pro Experimental,直接空降 LMArena 榜首,成为有史以来最受人类偏爱的模型。在数学、科学、推理和代码任务中表现炸裂,甚至在堪称“AI 期末大考”的 Humanity’s Last Exam 拿下了领先分数(18.8%,无工具辅助),一举把 OpenAI 和 Claude 都甩在后面。 什么是“思考型”模型?不是简单的你问我答,而是能在答之前“深呼吸一下”。它能分析上下文、提炼信息、做逻辑推演,然后再作答,就像一个真正的专家。这种推理能力,早在 Gemini 2.0 的 Flash Thinking 就有初步探索,而 2.5 则将这项技能全面整合进模型本体,意味着以后每个 Gemini 模型都会自带“大脑”。 Gemini 2.5 Pro 有多强? 上下文窗口?大的离谱。Gemini 2.5 Pro 支持高达 100 万 token 的上下文,等于大约 70 万词,甚至有传言马上会扩展到 200 万 token。这意味着它可以一次性“吞下”一本技术手册、一段视频字幕、整个项目代码库,还能正确理解并回答问题。 如何体验?开发者可以现在就去 Google AI Studio…
AI 世界的擂台赛又来了
AI 世界的擂台赛又来了,这周的主角是 Google DeepMind 的 Gemini 2.5 和中国开源猛将 DeepSeek V3.1,一边是技术天花板,一边是“跑得动”的平民之选,场面一度十分胶着。 先说 Gemini 2.5,这位“谷歌亲儿子”一登场就成了新一代基准测试之王,横扫 LM Arena 排行榜,直接拿下有史以来最高的涨幅——比 Grok-3 和 GPT-4.5 高出整整 40 分,简直是暴力碾压。数理科学方面同样吊打同行,在 GPQA 和 AIME 2025 上表现亮眼,还在 Humanity’s Last Exam 拿下 18.8% 的专家级分数(这考试难度堪比科研圈开卷地狱模式)。 而且它还带着逆天配置上线 Google AI Studio,免费使用,窗口上下文能装下 1M tokens(大约 70 万字),这可不是开玩笑,是开挂。 但另一边,来自中国的 DeepSeek V3.1 悄咪咪地在 Hugging Face 投下重磅炸弹,一个 641GB 的大模型,开源还送 MIT 商业许可,简直就是 AI 届的“开箱即用型打工人”。虽然速度谈不上快,每秒 20…
GPT-4o Image
OpenAI 又双叒搞事情!这次直接把图像生成拉到了新高度,正式在 GPT-4o 里上线了超强原生图像生成功能。不是那种“看起来很炫”但用处不大的风格滤镜,而是真·实用派:高精准、高保真,还能根据对话上下文自动“看图说话”或“以图生图”。 传说中的 GPT-4o,现在不仅能写字聊天,还能一秒变身图像设计师。无论是科学实验图解、白板笔记、还是超有梗的四格漫画,它通通能整活。比如有一张白板笔记照片,写着关于“模态之间的信息传输”的一堆术语,旁边甚至还有手写草图和公式,科技味十足,还有人类工程师的“真实笔迹感”。 再看另一张照片,是那种磁力诗歌贴在复古冰箱门上的画面,拼出一句略带哲思的小诗:“一张图抵千言,但有时放对位置,几句话反而点睛”。配上人物拿着“a few words”的姿势,妥妥的社交媒体刷屏级视觉金句。 最有意思的,莫过于那个“蜗牛买跑车”的四格漫画了——小蜗牛走进炫酷车行,对销售说:“我要最快的跑车,车身上都要喷上大大的‘S’!”最后一幕直接笑疯,红色跑车变成高速公路上的一道 S 型残影,围观群众爆笑:“哇哦,那是 S-Car Go(蜗牛)!” GPT-4o 生成图像的强悍之处,还在于它能识别并精准输出图中文字、符号,能听懂各种细致 prompt,还能把上传的图片当参考灵感继续创作。比如解析牛顿三棱镜实验的详细信息图,甚至模拟一个 POV 视角:在华盛顿广场公园的咖啡桌旁画笔记,或者让年轻得意的牛顿直接出现在画面中演示。 这不是在“画画”,这是在革新图像的实用性。从史前洞穴画到现代图示,图像一直是人类传递想法的核心工具。现在 GPT-4o,把这门艺术和科学,彻底升级为信息传递的超级利器。
AI 写代码不是革命,是进化:程序员的角色正悄悄转型
AI 编程火得不行,各种人高喊“程序员要失业了”“以后代码都交给 AI 写”。但有经验的老码农 Ken Rimple 泼了一盆冷水:别慌,这其实只是又一次“技术范式转移”而已,和历史上很多次一样,最终结果不会是灭顶,而是演化。 变化越大,底层越稳 Ken 的观点很清晰:AI 编程不是个革命性的大爆炸,而是像从命令行转 GUI、从面向过程到面向对象一样的“下一步”。它改变的是“怎么写代码”,但不是“是否需要人”。 他引用 Tim O’Reilly 的话:AI 不是让程序员失业,而是让他们更专注解决业务问题。未来,可能是一个熟悉业务的人用 AI 生成原型,然后由专业工程师负责打磨、优化和上线。说白了,AI 更像是程序员的“超级搭档”,不是替代者。
AI 就是一层新抽象 Ken 打了个很形象的比喻:过去大家天天折腾显卡驱动、网络配置,现在都自动化了;以后代码生成这事,也许也会变成一种“不用太操心”的低层细节。比如,搭个 React 项目太复杂?直接问 AI 给个模板,再自己 tweak 一下就行。 在这层面上,AI 本质上是更聪明的 Stack Overflow,它让“搭个雏形”这种事变得几分钟就搞定。作为程序员,记住的东西本来就有限,有工具能随时“复习”,不香吗?
但别太浪漫,小问题照样多 可别以为从此就一帆风顺了。Ken 也指出了几个痛点: 他特别强调一点:人必须在 loop 里。想靠 AI 把整套产品写完上线,90% 被裁员?醒醒,大概率是产品直接崩了,因为没人 check AI 写的东西到底有没有用。
人机协作才是正道 最后 Ken 给出了一个成熟程序员的建议:接受现实,善用工具,别幻想全自动,也别拒绝进化。当 AI…
AI 真正带来经济奇迹的不是“自动化科研”,而是“全面自动化劳动力”
关于 AI 到底会在哪方面创造最多经济价值,坊间一直有个很火的观点:AI 最牛的用处是加速科研,尤其是生物、神经科学、能源这些关键领域。但一份由 Ege Erdil 和 Matthew Barnett 撰写的重磅分析却唱了反调——他们指出,AI 真正带来经济奇迹的不是“自动化科研”,而是“全面自动化劳动力”。 这篇文章主要反驳了几个行业大佬的观点,比如 DeepMind 的 Demis Hassabis 和 OpenAI 的 Sam Altman,他们都认为 AI 最终的经济推动力会来自它在科研上的突破,比如治愈疾病、破解能源难题。即使是立场稍微中立的 Altman,也认为 AI 在科学上的贡献会“超过其他所有方面”。 但现实如何?作者用数据和逻辑啪啪打脸: 总结一句话: 与其幻想 AI 变成“研究天才”,推动科技飞跃,不如面对现实:AI 最先也最持久的经济贡献,是当“万能实习生”和“虚拟员工”,自动化一切普通人正在做的事。真正的 AI 时代,不是靠诺奖级大脑起飞的,而是靠千千万万工作岗位逐渐被接管,实现一场“广谱自动化爆发”。
Google 这波操作太炸了!Gemini 现在不仅能“听”“说”“读”“写”,还正式解锁“看”的能力
Google 这波操作太炸了!Gemini 现在不仅能“听”“说”“读”“写”,还正式解锁“看”的能力!全新上线的实时视觉功能,允许它通过手机屏幕或摄像头画面,直接进行 AI 级别的“眼观六路、智能解读”。 目前这一功能已开始向部分 Google One AI 高级订阅用户陆续开放,尤其在一些小米手机上已经有用户晒出实测视频了。Gemini 现在可以实时“看”你的手机画面,比如你打开一个网页、一个 App,它就能理解屏幕内容,并对用户的问题作出回应。 更炸的是,“看镜头”功能也上线了。用户对着手机摄像头展示物体,Gemini 就能像个聪明的朋友一样给出建议。比如,有人拿着刚上釉的陶器问它该刷哪种颜色,Gemini 就现场当起了“色彩搭配师”。 这一切背后的技术其实早在去年 Google 的 Project Astra 项目里亮过相,现在终于落地到了 Gemini Live 中。而它的上线时间,也刚好压过了亚马逊 Alexa Plus 的预热期,还把还在“跳票”的 Apple Siri 升级远远甩在后面。 值得注意的是,虽然三星还保留了自家的 Bixby,但在 Galaxy 系列手机上,Gemini 已成为默认 AI 助理。这下来看,Google 在 AI 助手这条赛道上的领先优势,似乎越来越稳了。 一句话总结:现在的 Gemini,已经不只是“智慧大脑”,而是“有眼有脑”的超级 AI 助理。未来的手机使用体验,真的可能会被它彻底改写。
李开复亲自出场,语出惊人:“Sam Altman 估计最近睡得不太好。”
AI 圈又炸了锅,这回是 01.AI 的创始人李开复亲自出场,语出惊人:“Sam Altman 估计最近睡得不太好。”至于为什么?因为 Deepseek 的开源策略正在狠狠冲击 OpenAI 的商业模型。 这场“风暴”起源于 01.AI 的一次大转向。原本还在搞自家大模型的 01.AI,干脆砍掉研发路线,全面拥抱 Deepseek 的开源模型,连李开复自己都称这是中国版的“ChatGPT 时刻”——热度飙升,行业集体上头。 据李开复透露,早在今年一月下旬,大量中国企业 CEO 就开始涌向 Deepseek,要求兼容或定制相关模型。眼看需求猛涨,01.AI 也不再坚持自主研发,转而专注于基于 Deepseek 的企业级定制服务,重点瞄准金融、游戏和法律三大领域。 最狠的是,李开复直言 Deepseek 的“免费开源”模式已经成为 OpenAI 最大的噩梦:“我已经见过不少人取消了 ChatGPT 订阅,只因为 Deepseek 是免费的。”一番话直接把矛头对准了 OpenAI 的核心商业逻辑。 他还补了一刀:“训练一个预训练大模型,得有上亿用户才能值回成本。阿里、谷歌、字节行,其他人没那个命。”这话听着是讲现实,但言外之意是:OpenAI 这座大厦,成本高、风险大,现在还碰上 Deepseek 这位“免费对手”,自然压力山大。 不过 01.AI 虽然放弃了训练模型,却不打算当“外包公司”。李开复表示,公司在微调、强化学习、推理加速等方面还有技术壁垒,依旧能提供高价值服务。按照他的预计,2025 年第一季度营收将达到 1 亿人民币,等于整个 2024 年的全年总收入,虽然目前还没盈利,但增长势头猛得很。 与此同时,OpenAI 和 Anthropic 也开始坐不住了,已联合呼吁美国政府禁止 Deepseek 模型,称其为“国家控制”。李开复对此回应一句话:“这说明他们已经开始慌了。” 他还补充了一些数据对比——OpenAI 2024…
Grok 3 最近升级,直接上了两大新技能,让整个 AI 工具箱变得更全能了:一个是“深一度”的 DeeperSearch 搜索功能,另一个是直接用文字就能改图的图像编辑器。
Grok 的用户最近迎来了双重惊喜:xAI 正悄悄上线两个新功能,一个是升级版的“深度搜索器”,另一个则是神秘登场的文字图像编辑器。目前这波更新正在平台上逐步铺开,已经有不少用户抢先体验。 先说搜索那一块,除了原有的 DeepSearch,现在又多了一个“DeeperSearch”。听名字就知道,这不是更深就是更慢——确实,它搜索时间翻了几番,但“翻书”速度慢换来的是更仔细的筛选。在实际测试中,DeepSearch 大概一分钟内能给出“最新 AI 新闻”的答案,来源多达 40 个,不过很多竟然是些 X 上的边缘账号,比如“feeltheomega”之类的 AI 网红号,链接的全是些垃圾资讯站。 而 DeeperSearch 则花了六分半时间,只翻了 19 个源头,最后挖出 4 条新闻:3 条来自《卫报》,1 条是 BBC 的 X 贴。虽然内容看起来更“认真”,但范围却明显缩水,连新闻事件都遗漏了不少。这也让人怀疑,xAI 的这个“DeeperSearch”到底是不是为新闻搜索设计的,官方目前也没个准话。 另一边,图像编辑功能也来了个悄咪咪上线。现在 Grok 用户上传图片后,只需要用文字描述想要的修改,比如“把背景换成海边”或者“让狗戴个墨镜”,系统就能自动处理。这功能和 Google 的 Gemini 模型很像,不过 xAI 目前还没高调宣传,只是有用户发现 X 平台和 iOS 版 Grok 上多了个“编辑图片”按钮。 另外值得注意的是,xAI 去年底发布的图像生成模型 Aurora 现在也通过 API 开放了。这模型主打“照片级真实感”,限制少,甚至连政治人物都能生成——这一点可是其他家很多模型都不敢碰的。 总之,Grok 的进化之路正往“又能查资料又能改图”的方向狂奔,但也暴露了些问题,比如新闻源质量不高、搜索结果缺失等等。下一步,就看 xAI 怎么解释 DeeperSearch 的真实用途,以及这套图像编辑功能会不会全面开放啦。
Claude“延展思考(extended thinking)”
Claude 最近上新了个狠角色,叫做 “think” 工具。这不是普通的“多想想”,而是给 Claude 自己腾出一个小空间,专门用来“停下来、理一理思路”。听起来简单,实则能让它在面对超级复杂任务时变得更加靠谱、条理清晰、决策稳定。 {“name”: “think”,“description”: “Use the tool to think about something. It will not obtain new information or change the database, but just append the thought to the log. Use it when complex reasoning or some cache memory is needed.”,“input_schema”: {“type”: “object”,“properties”: {“thought”: {“type”: “string”,“description”: “A thought to think about.”}},“required”: [“thought”]}}…