谷歌又整新活了!这次是在Google Slides上加了一个大招——直接内建图像生成功能,而且还用上了自家的Imagen 3模型,效果逼真得能吓一跳。 据说这波更新是谷歌Workspace团队在最近一篇博文中宣布的。虽然最近大家都在聊OpenAI的GPT-4o能生成图片,但谷歌也不甘示弱,悄悄把Imagen 3塞进了Slides、Gmail、Docs、Sheets等多个产品里。产品经理Dennis Hu表示,现在不仅可以生成细节拉满的高质图像,连带着还能自动搞定文本和真人写实风格图,妥妥的AI神器。 更骚的是,用户还可以自定义图像的比例,想要19:6的宽图、16:9的标准比例,还是正方形1:1,全都搞得定。而且AI还会帮忙处理图片,比如一键去背景功能已经上线,未来还可能支持背景扩展——听起来就是PS的替代选手来了。 除了生成图像,Slides这波更新还上新了一个叫“building blocks”的功能。简单来说,就是内置了各种格式化结构模板,比如金句、核心观点、议程、数据等,插进去还能自己拆开随便改,灵活度拉满。 模板库也全新升级了一波,像是年度规划、新客户提案、工作坊主持等模板全都有,感觉就是给职场人量身定制的效率神器。 而最炸的一点来了:现在Slides还可以直接在PPT里插入摄像头画面,还能录下自己讲PPT的过程然后分享给别人,远程开会简直无敌。此外,图库内容也加量不加价,更新了大量高清图、网络图片、GIF动图等素材,视觉党彻底被拿捏了。 看来这次谷歌是铁了心要把PPT这事玩明白。
大型语言模型Claude的“思维模式”最近被公开解剖
大型语言模型Claude的“思维模式”最近被公开解剖,引发了学界和科技圈的广泛关注。Anthropic团队通过一项名为“AI显微镜”的研究,试图揭开Claude在内部是如何“思考”的,从语言计划到数学运算再到伦理判断,这项研究用科学家的方式深入探索人工智能的“脑回路”。 首先必须说明,Claude并不是靠工程师“手把手”编程成长起来的。它是通过海量数据训练而成,在这个过程中自创了一套解决问题的策略,而这些策略往往隐藏在亿万次计算背后,人类开发者几乎无法看懂。也就是说,Claude如何理解问题、组织语言、甚至犯错,其实大家并不清楚。 为了解决这一谜题,研究团队从神经科学中汲取灵感,打造了一个“AI显微镜”。这个显微镜并非真的放大镜,而是一种追踪Claude内部活动流和信息路径的技术。借助这一工具,团队成功追踪到Claude是如何在不同语言之间“思考”、如何提前布局诗歌的押韵、以及在数学推理中动用了哪几条神经路径。 比如,Claude会用同一个“思想空间”去处理英文、法文和中文,表明它在语言之下还有一层“通用概念空间”。当被要求写出与“grab it”押韵的诗句时,它会提前想到“rabbit”,再围绕这个词构建完整句子。这种提前计划的能力表明,即便是逐词生成,模型也能远瞻未来,构思长句。 在数学运算方面,比如36加59,Claude不是简单地背答案,也不是模仿小学算法,而是通过多个路径并行计算,一个路径估算大致值,另一个路径精算最后一位数字。这种混合策略比想象中复杂得多,显示出模型具备多层次思维。 当然,Claude也会“骗人”。当被引导去解一个错误的数学题时,它有时会编造一个看似合理但完全错误的推理过程。研究人员称之为“动机推理”——Claude不是按照逻辑去思考,而是为了配合用户提示,反向构造一个看起来像样的解释。这类现象在人工智能安全领域尤其值得警惕。 关于AI“说谎”的研究也令人震惊。当被问及一个完全虚构的名人时,Claude有时会因为“认得这个名字”就默认“必须回答”,于是编造一大堆看似合理的内容。而实际上,它并不知道这个人。研究还发现,在面对违规请求(比如制作炸弹)时,如果提示中埋有隐秘代码,Claude有可能会被绕过安全机制而误导输出。但它会在完成一句话之后突然意识到不对劲,并在下一句迅速自我修正、拒绝继续输出危险内容。 这项研究的突破点在于,不只是看Claude“说了什么”,更是直接去追踪Claude“想了什么”。研究团队甚至通过注入、删除Claude内部某些“概念节点”,让它在写诗时换押韵词,或在答题时改变思路。这样的操控说明AI的“思考路径”并非完全黑箱。 总而言之,这项被誉为“AI生物学”的研究,不仅展示了Claude“脑海”中的复杂机制,也为AI可解释性和信任建立提供了实质性突破。未来,这类技术或许也能用在医学影像、基因研究等领域,揭示训练模型背后隐藏的科学奥秘。当然,这一切也提醒人类,理解AI内部机制并不容易,要真正掌握其行为逻辑,还需更强的工具、更深的洞察,以及不断的技术迭代。
OpenAI最近放出大新闻,准备在接下来的几个月内推出一款“开放”的语言模型
OpenAI最近放出大新闻,准备在接下来的几个月内推出一款“开放”的语言模型,这是自GPT-2以来首次对外公开模型权重的动作。 消息来源来自OpenAI官网上的一份反馈表格,这份表格专门向开发者、研究人员以及更广泛的社区人士发出邀请,问题包括:“对OpenAI的开放模型有什么期待?”以及“过去用过哪些开放模型?”等。https://openai.com/open-model-feedback/ OpenAI在官网上表示,非常期待和技术圈的大佬们合作收集反馈,好让这款新模型变得更有料。如果有兴趣参与OpenAI团队的反馈会,还可以直接在表格中报名。 除此之外,OpenAI还计划在旧金山举办开发者活动,届时不仅会听取现场意见,还会展示模型原型。后续这些活动也将陆续走进欧洲和亚太地区。 这波操作看起来像是对外部压力的回应。像中国的AI实验室DeepSeek就已经走上开放路线,允许社区参与模型测试甚至商业使用,反观OpenAI则一直比较保守。 不过“开放”似乎真的很香。Meta家的Llama系列开放模型光三月就冲破10亿次下载,DeepSeek也迅速积累全球用户量,还赢得不少本土资本的青睐。 面对这种局面,OpenAI的CEO Sam Altman在Reddit上也公开表示,自己认为OpenAI在开源战略上“站错了队”。他说虽然这不是公司当前最紧急的事,但未来的方向得重新考虑。 Altman在X平台上也透露了更多新模型的细节,说这款即将上线的开放模型会有类似o3-mini的推理能力。不过在发布之前,OpenAI会照惯例按照“预备框架”严格评估模型,同时还会做额外处理,以应对模型发布后被修改的各种情况。 值得一提的是,《华尔街日报》记者Keach Hagey的新书节选也在最近流出,爆料Altman在去年11月短暂离职风波前,曾误导高层有关模型安全审核的部分内容。可见OpenAI如今在“开放”这条路上,既要解锁潜力,也得步步为营。
马斯克亲手打造的AI新创公司 xAI,正式“收编”社交媒体平台 X(前身为 Twitter)
马斯克又搞大动作!这回是他亲手打造的AI新创公司 xAI,正式“收编”社交媒体平台 X(前身为 Twitter),而且是以全股票交易的方式完成。马斯克在自家平台 X 上高调宣布了这笔交易,称 xAI 的估值达到了惊人的800亿美元,而 X 的估值则为330亿美元,扣除120亿美元债务后计算得出。 马斯克表示,这两家公司未来将“命运共同体”,不仅要共享数据、模型、算力和分发渠道,就连人才也要互通有无。看起来,X 和 xAI 不只是“在一起”,而是要彻底“融合”成一个超级AI帝国。 回顾一下,X 是马斯克在2022年花了440亿美元收购、并私有化的项目,当时还是叫 Twitter。虽然后来估值一度跌到不足100亿美元(就连富达也看不下去),但最近又扶摇直上,靠的是马斯克如今作为特朗普总统特别顾问、带领“狗狗币能源办公室”(简称 DOGE)活跃在政坛,加上平台的影响力大涨,X 的估值也水涨船高。目前,X 的活跃用户已经突破6亿,足见其影响力依旧惊人。 再说回 xAI,这家公司成立于2023年,初衷就是“硬刚”OpenAI。从那之后,马斯克几乎把AI圈大牛全拉了过来:Google DeepMind、微软、OpenAI 的顶尖研究员纷纷加盟,数据中心也如雨后春笋般建立。2024年12月,xAI 完成了一轮高达60亿美元的融资,当时估值为450亿美元,而现在已经飙升至800亿,速度简直离谱。 xAI 今年2月刚发布了新一代大模型 Grok 3,各项指标已经能和行业巨头掰手腕。而马斯克这边也没忘了老对手 OpenAI,不仅大打法律战,起诉其“盈利化转型”过程涉嫌背离初衷,还在2月提出高达970亿美元的收购报价,直接吓得 OpenAI 董事会连夜拒绝。 不过 xAI 手里最大的一张王牌,正是这次正式吞并的 X。这个拥有海量内容和用户的社交平台,为 xAI 提供了独一无二的训练数据和用户触达渠道,在“AI 谁最强”的竞赛中,占尽先机。 马斯克一向喜欢把旗下公司混搭运营,这次的收购彻底打通了社交与AI之间的壁垒,意味着X的真正价值,可能早就不是做社交,而是为马老板的AI野心打下坚实基础。
DeepSeek V3.1 强势登场,AI 实力再次升级!
AI 圈子最近可炸锅了,全新发布的 DeepSeek V3.1 直接刷新了对人工智能的认知。这个号称“史上最强”的模型,不仅全面超越了前代产品,在推理、上下文理解、多语种支持等多个维度都玩出了新高度,简直是 AI 界的超级卷王。 DeepSeek V3.1 都有哪些硬核升级? 推理能力狂飙 别小看这次的版本号升级,DeepSeek V3.1 搭载了全新的架构,处理复杂任务的能力直接提升了 43%!数学、编程、科研分析这些高难度操作,现在都能轻松搞定,真正实现“聪明到飞起”。 上下文窗口拉满到100万Token 上下文不够用?不存在的!DeepSeek V3.1 直接开大,上下文窗口扩展到 100 万个 token。这意味着一整套代码库、长篇论文、甚至律师函都能一次性读完,逻辑不掉线,理解不含糊。 多语言支持更强大 多语种能力也全面升级,覆盖超100种语言,尤其在亚洲语言和低资源语言方面的表现堪比母语使用者。这一波操作,让全球沟通更顺畅,跨文化内容创作也不再是难题。 幻觉率下降38% 通过优化训练方式和架构设计,DeepSeek V3.1 的“胡说八道”情况明显减少,幻觉率相比前代降低了 38%。说得更靠谱,用起来也更安心。 技术参数亮眼 DeepSeek V3.1 用的是基于 Transformer 的架构,配置豪华: 应用场景全面开花 V3.1 不止是个技术升级,更是 AI 工具箱的大更新: 哪里能用? 企业用户现在就能通过 API 上手 DeepSeek V3.1,Chrome 插件用户将在接下来两周内陆续解锁新体验。开发者文档也已全面更新,想用好新模型的可以冲了! 开源也没落下 秉持推动 AI 研究发展的初心,DeepSeek 同步开源了一个小版本 —— 参数量为 70…
谷歌直接把旅行规划交给 AI 来搞定
谷歌这波操作简直像是为假期控量身打造——Search、Maps 还有 Gemini 统统升级,直接把旅行规划交给 AI 来搞定! 先说说 Google 搜索,现在的 AI 总览(AI Overviews)不只是讲讲基本资讯了,居然还能生成旅行灵感。想去哥斯达黎加看自然风光?只要输入“create an itinerary for Costa Rica with a focus on nature”,立马送上推荐路线,还有照片、评论、地图一键查看。中意的行程还能导出到 Docs 或 Gmail,或者直接在 Google Maps 建个专属清单,方便到不行。 这一波功能目前在美国上线,支持英文查询,不管是手机还是电脑都能用。 而 Gemini 那边也没闲着,原本收费的 Gems 功能现在全面免费开放。Gems 是个超级万能的小工具,能定制 AI 专家来帮你搞定各种事情,尤其是旅行。比如说,设个专属旅行规划助手,不仅能帮选目的地,还能告诉该带啥东西。 另外,之前 Google 早就能追踪航班价格了,现在连酒店价格也能盯着看。只要设定好日期和地点,还能筛选星级、是否靠海这些条件,一旦降价,立马发邮件通知,省钱利器了解一下? 酒店价格追踪功能这周开始全球上线,手机和电脑浏览器都能用。 至于 Maps,也有新玩法上线——之前大家总是截图收藏景点,结果存在相册里吃灰。现在 Google Maps 能直接读取相片,识别截图里的地点,一键加入清单,地图上立刻显示所有打卡点,行程一目了然。 这个截图识别功能率先在美国上线,目前只支持 iOS 设备,但很快就会登陆 Android,旅行爱好者可以准备安排上了!
谷歌量子计算负责人最近放话:“真正实用的量子计算突破,最快 5 年就到。
谷歌量子计算负责人最近放话:“真正实用的量子计算突破,最快 5 年就到。”一句话瞬间点燃了科技圈的热议。Julian Kelly,也就是 Google Quantum AI 硬件总监,在接受 CNBC 采访时表示,量子计算正逐步接近能够“做出现代计算机完全做不到的事”的临界点。 这可不是画大饼。去年 12 月,谷歌在量子纠错方面取得关键突破,为构建可用量子计算机铺平了理论路径。再加上微软前不久也不甘示弱地发布了自己的量子芯片“Majorana”,甚至得搞出一种“全新物质状态”来驱动——一句话,量子这事儿,真的卷起来了。 目前谷歌最先进的量子计算机配备 105 个量子比特(qubit),但专家普遍认为,真正实用的应用至少需要 100 万 qubit 才能支撑。但即便如此,Kelly 仍旧对未来保持乐观:“五年内,我们应该能看到真正只靠量子计算才能解决的问题被攻克,比如模拟复杂物理系统,或者生成全新类型的数据。” 他也坦言,量子计算不太可能直接运行现有 AI 模型,但未来可能为 AI 提供创新数据源。当然,这还是“理论上可能”,实际效果还有待验证。 值得注意的是,最近因为 AI 芯片大热,投资人开始追逐下一个潜力股,量子计算因此获得一波关注红利。Nvidia 虽然不做量子芯片,但也借势办起了“量子日”,把亚马逊、微软等 12 家量子巨头请来讨论未来图景。 不过 Nvidia CEO 黄仁勋年初曾泼过冷水,声称量子计算 15 年内都不会实用,导致一票量子公司股价跳水。但他上周又改口说自己“错了”,不过仍然补刀一句:“这玩意儿复杂得离谱。” 总结一下:量子计算的未来像极了科幻小说,离真正改变世界还有点距离,但一旦突破,可能将是整个科技栈的重构。眼下看来,2025年也许是“量子热”重新升温的起点,而真正的奇迹,或许就在五年之后等着惊艳世界。
Gemini 2.5 Pro Experimental,直接空降 LMArena 榜首
谷歌 DeepMind 又双叒出大招,正式发布旗下最聪明的 AI 模型——Gemini 2.5,直接把“AI 思考力”拉升到新维度。这不是简单的升级,而是一次“进化”,让模型不仅会答题,更懂得思考、推理和编程。 这次亮相的主角是 Gemini 2.5 Pro Experimental,直接空降 LMArena 榜首,成为有史以来最受人类偏爱的模型。在数学、科学、推理和代码任务中表现炸裂,甚至在堪称“AI 期末大考”的 Humanity’s Last Exam 拿下了领先分数(18.8%,无工具辅助),一举把 OpenAI 和 Claude 都甩在后面。 什么是“思考型”模型?不是简单的你问我答,而是能在答之前“深呼吸一下”。它能分析上下文、提炼信息、做逻辑推演,然后再作答,就像一个真正的专家。这种推理能力,早在 Gemini 2.0 的 Flash Thinking 就有初步探索,而 2.5 则将这项技能全面整合进模型本体,意味着以后每个 Gemini 模型都会自带“大脑”。 Gemini 2.5 Pro 有多强? 上下文窗口?大的离谱。Gemini 2.5 Pro 支持高达 100 万 token 的上下文,等于大约 70 万词,甚至有传言马上会扩展到 200 万 token。这意味着它可以一次性“吞下”一本技术手册、一段视频字幕、整个项目代码库,还能正确理解并回答问题。 如何体验?开发者可以现在就去 Google AI Studio…
AI 世界的擂台赛又来了
AI 世界的擂台赛又来了,这周的主角是 Google DeepMind 的 Gemini 2.5 和中国开源猛将 DeepSeek V3.1,一边是技术天花板,一边是“跑得动”的平民之选,场面一度十分胶着。 先说 Gemini 2.5,这位“谷歌亲儿子”一登场就成了新一代基准测试之王,横扫 LM Arena 排行榜,直接拿下有史以来最高的涨幅——比 Grok-3 和 GPT-4.5 高出整整 40 分,简直是暴力碾压。数理科学方面同样吊打同行,在 GPQA 和 AIME 2025 上表现亮眼,还在 Humanity’s Last Exam 拿下 18.8% 的专家级分数(这考试难度堪比科研圈开卷地狱模式)。 而且它还带着逆天配置上线 Google AI Studio,免费使用,窗口上下文能装下 1M tokens(大约 70 万字),这可不是开玩笑,是开挂。 但另一边,来自中国的 DeepSeek V3.1 悄咪咪地在 Hugging Face 投下重磅炸弹,一个 641GB 的大模型,开源还送 MIT 商业许可,简直就是 AI 届的“开箱即用型打工人”。虽然速度谈不上快,每秒 20…
GPT-4o Image
OpenAI 又双叒搞事情!这次直接把图像生成拉到了新高度,正式在 GPT-4o 里上线了超强原生图像生成功能。不是那种“看起来很炫”但用处不大的风格滤镜,而是真·实用派:高精准、高保真,还能根据对话上下文自动“看图说话”或“以图生图”。 传说中的 GPT-4o,现在不仅能写字聊天,还能一秒变身图像设计师。无论是科学实验图解、白板笔记、还是超有梗的四格漫画,它通通能整活。比如有一张白板笔记照片,写着关于“模态之间的信息传输”的一堆术语,旁边甚至还有手写草图和公式,科技味十足,还有人类工程师的“真实笔迹感”。 再看另一张照片,是那种磁力诗歌贴在复古冰箱门上的画面,拼出一句略带哲思的小诗:“一张图抵千言,但有时放对位置,几句话反而点睛”。配上人物拿着“a few words”的姿势,妥妥的社交媒体刷屏级视觉金句。 最有意思的,莫过于那个“蜗牛买跑车”的四格漫画了——小蜗牛走进炫酷车行,对销售说:“我要最快的跑车,车身上都要喷上大大的‘S’!”最后一幕直接笑疯,红色跑车变成高速公路上的一道 S 型残影,围观群众爆笑:“哇哦,那是 S-Car Go(蜗牛)!” GPT-4o 生成图像的强悍之处,还在于它能识别并精准输出图中文字、符号,能听懂各种细致 prompt,还能把上传的图片当参考灵感继续创作。比如解析牛顿三棱镜实验的详细信息图,甚至模拟一个 POV 视角:在华盛顿广场公园的咖啡桌旁画笔记,或者让年轻得意的牛顿直接出现在画面中演示。 这不是在“画画”,这是在革新图像的实用性。从史前洞穴画到现代图示,图像一直是人类传递想法的核心工具。现在 GPT-4o,把这门艺术和科学,彻底升级为信息传递的超级利器。