知名 AI IDE 产品 Cursor 日前宣布年经常性收入突破 3 亿美元,其代码库快速索引能力成为一大亮点。据介绍,Cursor 使用了默克尔树(Merkle Tree)结构来加快代码的索引速度。以下是其具体实现方式的详解。 默克尔树简述 默克尔树是一种树形数据结构,所有叶子节点都用数据块的加密哈希值进行标记,而非叶子节点则是其子节点哈希值的组合哈希。这种结构可以高效检测任何层级的数据变更,只需比较哈希值即可。 其基本原理如下: 如果数据中任何一部分发生更改,相关哈希值也会随之改变,最终导致根哈希的变动。这种机制为数据完整性验证和高效同步提供了强有力的支持。 Cursor 如何使用默克尔树进行代码索引 根据 Cursor 创始人及其安全文档的内容,代码索引过程如下: 第一步:代码分块与处理 Cursor 首先在本地对代码进行分块,将文件切分为语义上有意义的片段,以便后续处理。 第二步:构建默克尔树并同步 在开启代码库索引功能后,Cursor 会扫描编辑器中打开的文件夹,并计算所有有效文件的哈希,构建默克尔树。随后该树会被同步到 Cursor 的服务器。 第三步:生成嵌入向量 完成分块后,片段被发送到服务器,由 OpenAI 的嵌入 API 或其他定制模型生成向量表示,用以捕捉代码语义。 第四步:存储与索引 嵌入向量与元数据(如起止行号、文件路径)一起被存储于远程向量数据库 Turbopuffer 中。为保护隐私,每个向量仅附带经过混淆处理的相对文件路径。创始人表示,代码内容并不被数据库持久保存,只在请求生命周期内存在。 第五步:定时增量更新 系统每 10 分钟使用默克尔树检查哈希是否有变动,只上传已变更文件。这种机制大大减少了带宽使用,是默克尔树结构在索引系统中的核心价值之一。 代码分块策略 代码分块策略的优劣直接影响嵌入质量。常规的字符、词或行级切分往往无法识别语义边界,导致效果不佳。 更优的方式包括: 嵌入在推理阶段的用途 生成嵌入后,系统如何实际使用这些信息? 语义搜索与上下文检索 用户在使用 Cursor 的智能功能时(如 @Codebase 或 ⌘ Enter 提问)会触发如下流程:…
阿里巴巴集团的研究人员提出ZeroSearch
阿里巴巴集团的研究人员近日提出了一种新颖的人工智能训练方法,或将彻底改变当前依赖昂贵商用搜索引擎API进行信息检索训练的现状。这一技术被命名为“ZeroSearch”,使大型语言模型(LLMs)能够通过模拟搜索过程来学习搜索技能,从而无需在训练阶段实际访问搜索引擎。 https://alibaba-nlp.github.io/ZeroSearch 据研究团队介绍,ZeroSearch采用强化学习框架,通过激励模型搜索能力的方式训练AI,但在整个过程中不与真实搜索引擎进行交互。这一方法不仅显著减少了训练过程中的API调用成本,也为开发者提供了更大的控制权,能够更精确地管理AI在训练中接触到的信息类型和质量。 当前,开发能自主搜索信息的AI助手所面临的两大挑战是:首先,训练阶段由真实搜索引擎返回的文档质量不可预测;其次,大量API调用的高昂费用严重限制了模型训练的可扩展性。研究人员指出,强化学习训练通常需要进行数十万次搜索请求,而这类请求通过商用搜索引擎API进行将带来极高成本。为解决这一难题,ZeroSearch提出以轻量级监督微调起步,将语言模型转变为具备检索能力的模块,能够根据查询生成相关或不相关的文档,并在后续训练中采用“基于课程的演化策略”逐步降低文档质量,从而模拟真实搜索的挑战。 研究者进一步解释称,大型语言模型在大规模预训练中已掌握丰富的世界知识,因此在面对搜索请求时具备生成相关文档的能力。与真实搜索引擎的主要区别仅在于返回内容的文本风格。 在涉及七个问答数据集的大量实验中,ZeroSearch训练出的模型不仅与依赖真实搜索引擎的模型表现相当,甚至在多项任务中实现超越。其中,一个拥有70亿参数的检索模块已能与谷歌搜索持平,而一个140亿参数的模块更是超出谷歌的表现。成本对比亦十分显著:使用SerpAPI调用谷歌搜索进行6.4万次查询的开销约为586.70美元,而利用四块A100 GPU运行ZeroSearch的模拟训练仅需70.80美元,节省幅度高达88%。 论文指出,这一成果展示了在强化学习环境中,用训练良好的语言模型替代真实搜索引擎的可行性。 ZeroSearch带来的变革意义远不止于成本节省。该方法标志着人工智能训练模式的重大转变,即AI系统可以在不依赖外部工具的前提下实现自我提升。对于预算有限的小型AI公司和初创企业而言,此举无疑降低了进入门槛,有助于技术公平化。同时,开发者在训练过程中可对模型所接触到的信息进行更精细的控制,避免由真实搜索引擎带来的信息质量不确定性。 该方法已成功应用于多个模型系列,包括Qwen-2.5与LLaMA-3.2,并支持基础模型与指令微调版本。研究团队已在GitHub和Hugging Face平台上公开了相关代码、数据集与预训练模型,供其他研究人员和企业参考使用。 随着大型语言模型技术的不断演进,ZeroSearch等自我模拟训练方法预示着AI系统未来将以更独立的方式发展,不再依赖大型科技平台提供的外部服务。这不仅可能重塑AI开发的经济结构,也可能加速技术生态的多元化与去中心化进程。 有趣的是,阿里巴巴通过教会AI“无需搜索引擎即可搜索”的能力,反而可能削弱了传统搜索引擎在AI发展过程中的必要性。在不久的将来,随着AI系统日益具备自给自足的能力,整个科技格局或将焕然一新。
Gemini 2.5 Pro 预览版(I/O 版):前端开发与智能编程能力大幅跃升
2025年5月6日,Google 发布了 Gemini 2.5 Pro Preview(I/O 版),这是一版专为开发者提前准备的升级版本,其焦点在于进一步提升编码性能,尤其是在前端开发、用户界面构建、代码重构与智能代理型工作流等方面展现出了显著进步。该版本目前已通过 Google AI Studio 和 Gemini API 向开发者开放使用,并将在 Google I/O 大会前率先亮相。 为什么值得关注 Gemini 2.5 Pro(I/O 版)? 在本次预览版中,Google 强调了模型在“编码能力与响应延迟之间的权衡”方面取得了新的平衡点。根据 Replit 总裁 Michele Catasta 的评价: “在执行对延迟敏感又需高度可靠的任务时,Gemini 2.5 Pro 是目前最佳的前沿模型。” 这意味着,Gemini 2.5 Pro 不仅提升了智能判断和代码抽象能力,同时在实际部署和响应效率上也更加贴近生产环境所需。 前端开发能力跃居榜首 新版 Gemini 2.5 Pro 在 WebDev Arena 排行榜中位列第一,这一榜单专注于衡量模型生成网页应用时的人类偏好表现。该模型在美观性、功能性、响应式设计等方面表现突出,超越以往版本。 开发者可以在以下关键场景中看到其强大实力: ✅ 高质量 UI 构建 例如,在 Gemini 95 启动项目中,开发者可通过该模型直接添加符合设计语言的视频播放器,无需手动查阅设计稿或编写繁琐的…
OpenAI 结构改革:迈向民主化 AI 的新篇章
OpenAI 董事会近日宣布,将对其组织结构进行一次重要的演进。这一决定不仅关乎法律形态的转变,更是一次深层次的理念更新,意图在确保“通用人工智能(AGI)造福全人类”这一使命不变的前提下,增强组织的灵活性、资源获取能力以及全球服务能力。这一结构调整,标志着 OpenAI 正式从一种早期实验性的组织形态,迈入具有广泛社会责任感和全球服务能力的新阶段。 从非营利实验室到全球性科技力量 OpenAI 自成立以来一直是一个非营利性组织,其最初目标是探索人工智能的可能性,并确保人工智能的技术成果不会被少数人或组织所垄断。2019 年,为了更高效地推动研发与部署工作,OpenAI 成立了一个受非营利机构监管的营利性子公司(LLC),以便引入外部资本支持更大规模的技术投入。 如今,OpenAI 宣布将该 LLC 转变为一个公共利益公司(PBC, Public Benefit Corporation)。这种新型企业结构在美国法律中被定义为既追求营利,也必须考虑其对社会整体的正面影响,适用于那些在利润之外,还追求使命导向的企业。著名公司如 Patagonia、Anthropic、X.ai 等都采纳了此种结构。 此次变更将不会削弱 OpenAI 非营利机构的控制力。新的 PBC 仍将处于非营利组织的监管之下,而非营利机构还将成为 PBC 的主要股东,从而拥有更丰富的资源,进一步推动其使命的落地。 Sam Altman 写给员工的一封信:AI 是人类共同的工具,不是特权的象征 在这次结构调整发布的同时,OpenAI 首席执行官 Sam Altman 向全体员工与利益相关者发出了一封长信。他在信中强调,OpenAI 从一开始就不是一家“普通的公司”,而它也永远不会是。 “我们的使命是确保通用人工智能(AGI)造福全人类。” Sam 回顾了 OpenAI 成立之初的情景——一群人在厨房桌前苦思该研究什么,当时他们既没有产品计划,也没有盈利模式,更无法想象今天 AI 能在医疗建议、学习效率、生产力等方面发挥巨大作用,更不会想到训练和部署 AI 系统所需的算力规模会达到数千亿美元甚至未来可能达万亿美元的级别。 早期许多参与者认为 AGI 应该掌握在“少数值得信赖的人”手中。但今天,OpenAI 的信仰是不同的。Sam 明确指出: “我们相信 AGI 是历史上最强大的工具,它应该直接赋能每一个人。” OpenAI 致力于构建一个民主化的 AI…
AI辅助开发引发担忧:核心编程技能正面临“被淘汰”危机
2025年5月7日,软件开发社区内对人工智能辅助工具的依赖度持续上升,引发了业界对开发者核心技能退化的担忧。AI联合编程工具如今已成为开发流程中不可忽视的一环,自动生成模板代码、定位错误、构建模块的能力极大提升了开发效率。然而,有评论指出,这种依赖如果过度,可能正在悄然削弱开发者本身的编程能力与逻辑思维素养。 黑箱隐忧:信任不透明系统的代价 现代AI系统普遍运作于“黑箱”模式之中,其内部决策路径复杂且不透明。开发者通常只看到输入与输出,却难以理解AI如何得出结果。这种信息不对称在AI建议出错时尤为危险。若开发者本身缺乏坚实的编程基础,就很难判断AI生成代码是否合理,也无法识别隐藏的Bug、安全漏洞或架构问题。 技能退化:编程核心能力正在“失能” 软件开发是一门需要不断训练的技艺,涉及算法思维、逻辑推理、调试技巧以及对系统架构的深刻理解。这些能力往往通过亲自解决问题、经历失败与修正过程来逐步积累。 AI工具虽然便利,却可能逐渐替代这些必要的锻炼过程。评论认为,开发者一旦习惯依赖AI: AI不完美:错误输出的风险不可忽视 尽管AI生成的代码在形式上常常无懈可击,但其语义正确性与架构合理性并不能始终保障。由于训练数据本身可能存在偏差,AI工具也可能继承甚至放大这些问题。更严重的是,开发者若不具备识别错误的能力,就可能基于错误建议构建整个系统,最终引发质量问题、资源浪费,甚至安全漏洞。 平衡之道:AI应成为“增强工具”,而非开发者替身 有观点指出,AI工具的最佳定位应是“增强人类能力”,而非“取代开发者”。开发者在使用AI时,仍需主动思考、理解生成内容的来龙去脉,避免陷入“盲信”的误区。未来的软件开发将是人机协作的过程,而非单纯依赖算法完成决策。 行业建议:在AI时代守住开发本源 为避免核心技能被逐步削弱,软件开发教育和从业标准亟需做出相应调整。建议包括: AI无疑为开发带来变革,但其真正的价值在于辅助而非替代人类智慧。只有保持独立思考与动手实践的能力,开发者才能在这个技术飞跃的时代中保持不被淘汰的竞争力。
苹果高管暗示 Safari 将引入 AI 搜索功能,有望撼动谷歌霸主地位
2025年5月8日,苹果服务业务高级副总裁艾迪·库(Eddy Cue)在美国司法部针对 Alphabet/谷歌的反垄断审判中作证时表示,苹果正“积极考虑”将移动版 Safari 浏览器的搜索体验转向人工智能搜索引擎。这一表态可能预示着苹果将在搜索领域对谷歌发起挑战,也为两家公司之间每年高达200亿美元的默认搜索引擎协议投下不确定因素。 Cue 在证词中指出,Safari 浏览器的搜索量在去年首次出现下滑,这一变化主要源于用户越来越倾向于使用基于大型语言模型的搜索解决方案。“在 AI 出现之前,我一直觉得其他搜索引擎都不是合适的选择,”Cue 说,“但现在,有新的参与者用不同的方式来解决这个问题,我认为这带来了更大的潜力。” 他提到的一些新兴公司,包括采用对话式搜索方式的 Perplexity,以及 OpenAI 等致力于重塑信息检索方式的企业。Cue 透露,苹果已与 Perplexity 进行了接触,并将这类 AI 搜索工具“加入列表”,即 Safari 设置中可选的默认搜索引擎选项。然而他也指出,这些工具目前还“可能不会成为默认”,因为它们在索引能力方面仍需改进。 目前,苹果在 iPhone 设置中允许用户选择默认搜索引擎,选项包括 Google、Yahoo、Bing、DuckDuckGo 和 Ecosia,谷歌仍为默认选项。苹果也在最新 iOS 版本中集成了 AI 聊天机器人扩展,目前采用的是 OpenAI 的 ChatGPT,未来计划增加谷歌的 Gemini 等其他选择。不过,Cue 的发言重点在于 Safari 地址栏输入查询时所默认调用的搜索引擎。 AI 搜索工具在用户体验上提供了传统语义搜索引擎所无法实现的新优势。例如,用户可以输入像“我看过一部电影,一开始是一个女孩在卧室对嘴型唱歌,后来有个穿着雷神服装的女孩卡在摩天大楼上”这样模糊而自然的查询,AI 可以通过多个搜索步骤组织出更准确、有用的回答。然而,这些系统也可能出现“幻觉”,即在知识盲区生成错误答案,这种问题已在谷歌当前的 AI 搜索摘要中多次出现。 市场对 Cue 的表态反应迅速,谷歌与苹果的股价双双下跌,反映出投资者对两家公司合作关系未来走向的担忧。分析人士指出,如果苹果逐步淡化对谷歌搜索的依赖,将对搜索市场格局产生深远影响,也可能引发AI搜索工具更广泛的竞争与创新浪潮。
亚马逊推出新型仓储机器人 Vulcan:具备“触觉”但不会取代人类工人
2025年5月7日,亚马逊在德国举办的活动中正式发布其最新仓储机器人——Vulcan,这是一款具备“触觉”的机器人,能够完成以往只有人类才能胜任的存储任务。然而,亚马逊强调,Vulcan 并非为了取代工人,而是为了创造更多技术含量更高的岗位。 Vulcan 最早在4月被媒体独家曝光,当时它正在华盛顿州斯波坎的亚马逊仓库中将物品分类存放进高大的黄色货箱中。这款机器人配备了AI驱动的传感器,可通过“触感”判断物体所需的压力和扭力,从而实现更精准的操控。这一创新型机械手让 Vulcan 能够处理斯波坎仓库库存中75%的100万种独立物品。 与自2021年以来亚马逊广泛使用的依赖摄像头和吸盘的机器人不同,Vulcan 的手部结构更加先进,可以执行更多样化的任务。据亚马逊机器人团队负责人 Aaron Parness 介绍,Vulcan 每天可连续运作20小时。 Parness 表示,Vulcan 的推出不是为了替代员工,而是为了创造维护、操作、安装和建造机器人等新岗位。当被问及亚马逊是否计划实现仓库完全自动化时,Parness 明确回应:“完全自动化是不现实的。如果我们让 Vulcan 负责100%的存储与拣选,那几乎是不可能完成的任务。” 当前 Vulcan 的目标是在仓库中完成顶部货架100%的存储任务,这些区域对人类而言难以触及。通过让工人专注于中部货架(即“动力区”)的作业,可有效降低工伤风险。亚马逊仓库的工伤率长期高于行业平均水平,尽管公司声称近年来已有明显改善。 斯波坎仓库的一位员工 Kari Freitas Hardy 表示:“我们每天在十小时的工作中要爬很多次梯子,频繁地伸手、下蹲,工作对身体负担很重。如果有 Vulcan 这样的技术能让我只在‘动力区’内操作,我的工作会轻松很多。” 目前,Vulcan 的工作效率已与人类相当,能够处理最多8磅重的物品。为保障安全,Vulcan 的工作区域设有围栏,与人类工人隔离。 行业专家普遍认为,未来很长一段时间内,人类与机器人将继续在仓库中协同工作。Gartner 分析师 Bill Ray 指出:“若构建一个复杂且全自动的系统,一旦出故障,就可能导致整个作业流程瘫痪。完全取代人类不仅成本高昂,还风险巨大。” Freitas Hardy 目前已从拣货工人转岗至机器人相关岗位,是亚马逊自2019年以来投入12亿美元技能培训计划中的一员。虽然她个人收入尚未提升,但亚马逊表示,参加“机电与机器人学徒计划”的员工平均薪资可提升约40%。 据亚马逊透露,开发 Vulcan 的团队在过去三年中从最初的数人扩展至超过250人。尽管公司未公布具体开发成本,但 Parness 表示,该机器人代表着巨大的商业潜力:“Vulcan 能以更类似人类的方式与世界互动,意味着我们能将自动化应用到更多流程中,进一步降低成本、提升配送速度。” 另一个潜在收益在于降低错误率。Gartner 的 Ray 强调:“产品退货成本极高,很多退货是由于错发物品造成的。机器人在这方面能显著减少错误,带来直接的成本节省。” 相比之下,亚马逊2023年宣布测试的类人机器人 Digit 仍未在规模化运营中展现效率,尽管其旨在协助搬运与整理托盘。 当被问及 Vulcan 是否标志着机器人从“噱头”转向现实应用时,Parness…
谷歌出资支持三座新型核能发电厂项目开发,满足数据中心能源需求
2025年5月7日,核能开发公司 Elementl Power 宣布,已与谷歌签署合作协议,将在三个地点开发先进核反应堆项目。这是科技巨头与核能产业携手合作、以满足数据中心庞大能源需求的又一案例。 根据协议,谷歌将为这三座核电站提供早期开发阶段的资金支持。每个项目预计将产生至少600兆瓦的发电容量。尽管协议具体条款尚未公开,但谷歌的资金将用于选址许可、获取电网接入权、合同谈判等前期关键事项。此外,谷歌将保留在项目建成投运后购买其所产电力的选项。至于具体建设地点,目前仍处于保密状态。 谷歌全球数据中心能源主管 Amanda Peterson Corio 表示:“谷歌致力于推动加强我们运营所在地电网的项目,而先进核能技术能够提供稳定、基载、全天候的能源。此次与 Elementl Power 的合作,有助于我们以匹配当前 AI 与美国创新步伐的速度前进。” Elementl Power 成立于2022年,是一家专注于核电项目开发的企业。目前尚未建设任何实际电站,其运营模式为技术中立,即尚未选定具体的核反应堆技术,而是待项目准备开工之时,再选择最具成熟度的技术方案。 该公司董事长兼首席执行官 Chris Colbert 表示:“像这样具有创新性的合作关系,是动员资金建设新型核能项目的关键。核能对于提供安全、可负担且清洁的基载电力至关重要,同时也有助于企业推进其长期净零碳排放目标。”Colbert 曾担任 NuScale Power 的首席财务官、首席运营官及战略主管,该公司正致力于小型模块化反应堆的开发。 Colbert 补充指出,在项目进入最终投资决策阶段后,Elementl 将通过基础设施基金等渠道筹集建设资金。该公司目标是在2035年前为电网新增10吉瓦核能发电容量。 此次协议并非谷歌首次涉足核能领域。2024年10月,谷歌已与小型模块化反应堆公司 Kairos Power 达成合作,承诺购买其反应堆群所发电力。当时谷歌表示,第一个反应堆将于2030年投入使用,其余将在2035年前陆续上线。 尽管今年初中国人工智能初创公司 DeepSeek 表示,随着 AI 模型效率提升,未来可能不再需要大量扩建电力资源以支撑数据中心运营,但科技行业领军者如亚马逊和英伟达仍认为,基载电力需求正快速增长。 Anthropic 联合创始人 Jack Clark 在4月估计,为满足AI发展所需,到2027年全球需新增50吉瓦电力容量,相当于约50座核电厂。
Gemini 2.5 Pro 预览版(I/O 特别版):代码性能再升级
2025年5月6日,谷歌AI团队提前数周发布了 Gemini 2.5 Pro 预览版(I/O 特别版),以便让开发者能更早上手使用这款具备更强代码能力的模型。此次更新带来了前端与用户界面开发方面的显著改进,同时在代码转换与编辑、复杂智能代理工作流的构建等基础编程任务方面也有全面提升。 Replit 总裁 Michele Catasta 表示:“在能力与延迟之间的权衡上,Gemini 2.5 Pro 是目前最优的前沿模型。期待将其应用于 Replit Agent,在延迟敏感的任务中提供高可靠性。” 引领前端网页开发的行业标杆 目前,Gemini 2.5 Pro 已位居 WebDev Arena 排行榜榜首,该榜单依据人类偏好评估模型构建美观且功能完备的网页应用的能力。凭借这一领先表现,Gemini 2.5 Pro 正为 Cursor 的创新代码代理提供支持,并推动与 Cognition 和 Replit 等公司的合作,共同拓展智能代理编程的边界,为开发者解锁全新可能性。 Cognition 创始团队成员 Silas Alberti 指出:“更新后的 Gemini 2.5 Pro 在我们面向初级开发者的评测中表现领先。它是首个成功完成我们关于请求路由后端大规模重构评估任务的模型,展现出如同高级开发者般的判断力与良好抽象选择。” Gemini 2.5 Pro 的实际应用亮点 凭借对代码的深刻理解和强大的推理能力,Gemini 2.5 Pro 成为众多开发者首选的开发工具。以下是部分亮点应用场景: 从视频到代码 Gemini 2.5 Pro 在视频理解方面实现了突破,在…
作为一位经验丰富的大型语言模型(LLM)用户,其实日常并不常用生成式LLM
近日,有技术人员正着手制定一份个人伦理声明,以明确其对生成式人工智能(GenAI)的立场。虽然其对当代生成式AI存在诸多批评,但也依然参与其中。在撰写该声明的过程中,这位资深人士对自己如何在职业和个人领域使用LLM进行了深刻反思——无论是在BuzzFeed担任高级数据科学家期间,还是在业余时间撰写博客与开发开源软件方面。过去十年,该人士一直研究与开发文本生成工具,从char-RNN模型、微调GPT-2,到使用GPT-3进行实验,以及持续探索ChatGPT与其他LLM API的可能性。虽然不自称是LLM的顶尖使用者,但其已积累大量实战经验,了解这类“下一个词预测”模型的局限性,也善于挖掘其优点。 令人意外的是,该人士实际上远没有外界所想的那样频繁使用LLM,尤其是在工程领域。但这并不代表LLM对其毫无价值——相反,这需要具体情况具体分析。 与LLM的交互方式 多年来,为了从LLM中获取最佳效果,该人士掌握了众多技巧。其中最著名的便是提示词工程(prompt engineering)——即通过特定方式撰写提示词,引导模型生成目标输出。提示词中若加入如“为你带来经济奖励”或“请优化你的回答”等语句,确实可以提升模型对提示的遵循性和输出质量。每当同事表示LLM输出与预期不符时,该人士常建议其加强提示词设计,这通常都能解决问题。 尽管提示词工程有效,业内并不喜欢这一现象。强化学习与人类反馈(RLHF)等技术本意是减少对提示词设计的依赖,结果却反而让提示词工程更有回报。如今,“提示词工程师”虽成段子,但实际上,这项技能已成为LLM用户的基本要求。专业人士使用有效的工具,即便这些工具显得有些“可笑”,也是对专业的体现。 因此,该人士从不使用ChatGPT.com或其他面向大众的LLM前端,因为这些界面控制力有限。其通常通过各LLM服务的后台UI访问模型,这些界面本质是API功能的轻量封装,也便于将其整合进代码。直接调用API可设置“系统提示词”(system prompt),以更精细地控制生成规则。例如,“限制在30词以内”或“禁止使用‘delve’一词”,放在系统提示词中往往比用户提示词中更有效。而像ChatGPT.com这类接口若无法自定义系统提示词,极有可能默认使用不可控的系统提示词——例如,当ChatGPT.com曾过于迎合用户时,OpenAI修改了系统提示词,要求其“避免无依据的奉承”。该人士偏好使用Anthropic的Claude API,尤其是Claude Sonnet版本,因为其表现较少“机械感”,且在代码问题上的回答更准确。 通过API,还可调控“温度”(temperature)参数,从而影响生成的“创造力”。默认状态下,LLM不会始终选择概率最高的下一个词,这样才能生成多样化的结果。该人士倾向将温度设为0.0,以获得确定性输出;若需少量变异,则设为0.2–0.3。而现代LLM通常默认温度为1.0,这可能加剧“幻觉问题”——即输出看似连贯却事实错误。 LLM在职业问题解决中的应用 以下是过去几年在BuzzFeed中使用生成式LLM解决实际问题的几个项目示例: 每个项目从提出到交付仅需1–2小时。若无LLM,部分任务如文章分类则需构建训练数据、手工标注、复杂建模,耗时数日且较为枯燥。而LLM能快速提供80%的解决方案,其余20%则需人类继续优化与验证。尽管如此,幻觉仍是问题,使用者仍需保持警觉。 此外,还有一个非文本生成但实用的应用场景:文本嵌入(text embeddings)。现代文本嵌入模型本质上也是LLM,但其输出为多维向量而非下一个词。这些模型的进步也得益于ChatGPT推动的技术演进,如更长上下文窗口与训练方法。BuzzFeed已广泛使用嵌入技术做内容推荐与相似文章识别,但这属于另一个话题。 LLM用于写作? 该人士明确表示,并不使用LLM撰写博客内容。原因有三:其写作风格过于独特,带有直率、讽刺与偶尔的“社死”感;即便给予模型多个范文进行few-shot学习,生成内容依然偏向“漫威电影对白”;更重要的是,出于伦理考虑,不愿将大部分文字让AI代笔。此外,该人士多写技术圈最新事件,而这些内容通常不在LLM的训练数据中,增加了幻觉风险。 不过,其也发现一个有趣用法:将博客草稿喂入LLM,要求其模拟一位愤世嫉俗的Hacker News评论员,写出五条可能的负面评论。这种方法能发现文章的逻辑漏洞,却不会直接建议如何修改,从而促使创作者主动修正内容。例如该文草稿就因LLM指出示例过于简单而添加了更多细节。 LLM用于陪伴? 并未将LLM作为聊天伙伴。尽管Character.ai与Replika等项目成功表明这一用途存在价值,但该人士认为,与一个既友善又习惯性撒谎(幻觉)的“朋友”相处并不现实。即使能设计提示词要求LLM指出其错误,也无法彻底解决“幻觉”这一根本问题。 LLM用于编程? 确实在特定场景下使用LLM辅助编程。例如,编写正则表达式是其长期痛点,自ChatGPT出现以来常用其节省大量时间。后来则扩展至更多问题,如要求Claude Sonnet用Python和Pillow库合成五张图片、按特定布局排列等任务。这类问题虽可通过搜索解决,但LLM可提供更精准的、定制化的答案。 对于复杂任务,如在Hugging Face的Trainer类中实现SQLite日志记录器,其仍持谨慎态度。但Claude提出的一些代码优化思路,如缓存连接、JSON字段、批量写入等,带来意外启发,最终提高开发效率。 但在真正的数据科学工作中,LLM生成代码的帮助有限,尤其涉及数学运算时准确性差。该人士更偏好使用polars而非pandas,而LLM常将两者混淆。此外,其做数据可视化主要用R和ggplot2,也未尝试过用LLM辅助。 至于内联代码建议工具如GitHub Copilot,其评价为“注意力杀手”。代码建议弹出时需在编写与审核之间不断切换,虽有轻微效率提升,但成本高、干扰大,性价比低于偶尔提问LLM。 代理与“vibe编码”? 对代码代理(agents)与“vibe编码”持保留态度。尽管这些概念以MCP与ReAct等理论为基础,确实提高了一些任务的稳定性与模块化,但迄今尚未发现真正的新颖用途,反倒使流程更复杂。至于vibe编码,如Claude Code或Cursor那种自动写整段代码的代理体验,更被认为是“AI赌博”而非“AI开发”。除非仅用于私人小项目,否则这种方法无法支撑专业代码质量的底线。 总的来说,虽然技术不断演进,但该人士对当前编码效率感到满意,能快速正确完成所有任务。 LLM用户的未来? 如今关于LLM的舆论已经两极分化,哪怕仅表示“LLM有一些用途”也可能招致网络攻击。该人士明确反对科技评论员Ed Zitron的观点——后者认为LLM产业必败,因其成本高昂且无现实用途。事实上,两个命题可以同时为真:(a)LLM公司难以实现投资回报;(b)LLM在实际问题中确实有高影响力的应用价值,只是不足以支撑AGI的炒作。正是这种“既非黑也非白”的灰色地带,使社交媒体难以承受理性讨论的负担。 即便OpenAI与所有LLM公司突然解散,仍有Qwen3、DeepSeek R1等开源模型可以替代,且具备相似性能。它们可托管在Cerebras、Groq等能从推理请求中盈利的平台。因此,OpenAI的倒下不会终结LLM的发展,这是一记已经响起的钟,无法回响归零。 对软件工程师,尤其数据科学家而言,始终应在恰当时机选择正确工具,LLM就是工具箱中一件工具而已。LLM的效能因场景而异,有时高效,有时反效,但绝非无用。它更像把方钉塞进圆孔——会有损坏风险,而不用LLM则像精心打造一个圆钉。但某些情境中,强推方钉是合理的,关键在于判断当前更需要速度还是精度。 ……也许,接下来可以请LLM帮忙写比喻。