本文探讨了在 Etsy 人工智能辅助入职流程中的两个实践案例,重点研究提示词工程(Prompt Engineering)在 Etsy 专属问答系统中的优势与局限,尤其关注大型语言模型(LLM)生成回答的真实性与可靠性。研究发现,要求模型标明具体来源片段是识别潜在幻觉(hallucinations)的一种有效方法。 背景:提示词工程 vs 模型微调 近年来,OpenAI 的 o 系列与 Google 的 Gemini 系列等大型预训练模型彻底改变了自然语言处理(NLP)格局。这些模型以庞大的语料为基础训练,具备丰富的世界知识,并能完成如情感分析、语言翻译、自然语言推理等多种下游任务。 若需提升模型在特定任务上的表现,传统方法是进行微调(fine-tuning),即使用相关标注数据集更新模型某些参数。尽管该方法可靠,但成本高昂,且需大量数据支撑。而近年来迅速兴起的“提示词微调”(prompt-based tuning),则不修改模型参数,通过优化输入提示,使模型更好地完成任务,成本显著降低。 提示词不仅可以是问题,还可以包含背景片段、任务约束,甚至通过模拟身份(如“作为财务专家回答”)引导模型生成更准确答案。提示词工程已逐渐成为大型模型在企业应用中不可或缺的技术手段。 案例一:Etsy 内部 T&E 政策问答系统 场景目标 Etsy 的 T&E(差旅与招待)政策明确、适用范围清晰,常成为新员工频繁提问的领域。因此团队以 T&E 问题为切入点,评估 LLM 是否可以仅通过提示词工程提供可靠回答,避免代价更高的模型微调流程。 系统实现 项目未进行模型微调,而是通过向 LLM 的嵌入空间(embedding space)索引导入所有 T&E 文件内容,并基于向量搜索技术,从这些内容中找出与用户提问最相关的段落作为上下文信息,并构建最终提示词。 测试与结果 通过手动整理的 40 个问答对进行测试: 问:报销流程结束后,公司信用卡的还款由谁负责?正确答案:Etsy 代表员工直接向信用卡公司付款。模型回答:员工需自行偿还信用卡余额。 该回答完全背离实际政策,属严重幻觉。 幻觉应对策略:提示词工程实践 方法一:限制模型过度自信 尝试加入指令,要求模型在不确定时明确表示“我不知道”: 问:若你不确定答案,请回答“我不知道”。报销后,谁负责信用卡还款?答:我不知道。 虽然避免了幻觉,但也未提供有用信息。 方法二:链式思维(Chain-of-thought prompting) 鼓励模型进行推理并说明原因,结果显著改善: 问:若你不确定答案,请回答“我不知道”。谁负责信用卡还款?为什么?答:Etsy…
Author: aitrendtrackers@rengongzhineng.io
DeepSeek V3.1 更新发布,R1 标签消失引发 R2 模型命运猜测
在中美 AI 竞争不断升温的背景下,中国人工智能初创公司 DeepSeek 推出了其基础模型 V3 的更新版本——V3.1。但与此同时,原先在其聊天机器人中用于支持推理功能的 R1 模型被悄然移除,这一变化在业内引发了关于下一代 R2 模型是否已经搁置的猜测。 据悉,DeepSeek 于本周二通过一个 WeChat 用户群发布了 V3.1 模型的简要更新通知,称该版本的上下文窗口扩大至 128k,相当于模型在单次对话中可保留大约 300 页文本的信息。这一升级对支持复杂任务和长篇内容处理尤为关键。 然而,该更新并未在 DeepSeek 的公开社交媒体账号(如 X 平台)上公布,更显低调。此外,DeepSeek 还在聊天机器人中的“深度思考”功能页面删除了所有关于 R1 推理模型的描述,这引发外界对于其 R2 模型开发进度的质疑。 从开源先锋到节节败退:DeepSeek 正失去领先优势? DeepSeek 最初由量化交易公司创始人梁文峰创办,作为一项副业在 2023 年末迅速走红。去年 12 月,V3 模型正式亮相,随后在今年 1 月推出的 R1 推理模型更是激发了中国 AI 开源热潮。 但自那以来,该公司便未公布任何新模型的开发时间表,也未透露其研发方向。目前为止,DeepSeek 仍主要提供文本生成能力,尚未向多模态或高级编程领域拓展。 与此同时,大型科技企业如阿里巴巴加快了对开源 AI 模型的布局。其 Qwen 系列模型迅速在企业级市场获得关注与应用,MoonShot AI 的 Kimi-K2-Instruct…
AI 效应:山姆·奥特曼谈 GPT-6,“用户真正想要的是记忆”
在旧金山的一场记者会上,OpenAI 首席执行官山姆·奥特曼(Sam Altman)披露了公司关于下一代人工智能模型 GPT-6 的初步蓝图——尽管 GPT-5 刚刚推出,下一代的开发已如火如荼。他表示,与之前的模型迭代相比,GPT-6 的推出速度将会更快,也将更具个性化与适应性。 在奥特曼看来,真正让 ChatGPT 成为个人化助手的关键,不是更复杂的语言生成能力,而是“记忆(memory)”——即模型必须记得用户是谁,理解其偏好、日常习惯甚至性格特征,从而提供更贴合实际的长期交互体验。 “用户真正想要的是模型能理解他们。”奥特曼表示,“这意味着产品要拥有对用户的长效记忆。” GPT-6:从对话生成迈向“理解你”的 AI 奥特曼透露,OpenAI 正在探索如何让用户定义 ChatGPT 的语气与个性,并通过记忆功能建立起更有温度、具备连续性的人机关系。 OpenAI 还在与心理学家团队密切合作,对用户使用 AI 的情感反馈进行追踪,并研究长期使用是否能提升幸福感。虽然相关数据尚未公开,奥特曼暗示公司可能会在未来披露这类研究成果。 他指出,GPT-6 将不再只是回应用户,而是能主动适应用户,用户甚至可以创建风格各异的专属 AI 助手,定制语气、态度与行为方式。 “思想中产生一个念头,ChatGPT 就能回应” 奥特曼对 AI 与人类交互方式的未来表示乐观。他提及对脑机接口(BCI)技术的浓厚兴趣,认为这将是 OpenAI 可涉足的“邻域技术”之一。 “脑接口是个很酷的想法,”奥特曼说,“未来,或许我们只需‘想到’某件事,ChatGPT 就能立即回应。” 他还提到,公司正在关注包括能源、硬件材料(novel substrates)、机器人和快速建造数据中心等与 AI 相辅相成的技术方向。 面向政府:可自定义、政治中立的 AI 模型 奥特曼表示,未来版本的 ChatGPT 将符合一项由特朗普政府近期签署的行政命令:联邦政府使用的 AI 系统必须具备意识形态中立性和可定制性。 他解释说,OpenAI 将采取中间立场作为默认值,但允许用户向不同方向进行调整: “如果你希望模型非常‘觉醒’(woke),它就可以非常觉醒;如果你希望它偏保守,也应当可以。” 这一表态明确支持“定制化模型立场”,同时也反映出 OpenAI 面对监管和多元用户诉求之间的平衡策略。 GPT-5 升级后“更暖了”…
Meta 再次重组人工智能部门
据知情人士透露,Meta 公司近日在内部宣布了一项关于人工智能部门的新一轮重组,这是首席执行官马克·扎克伯格(Mark Zuckerberg)近几个月内对公司 AI 战略进行的又一次重大调整,反映出公司内部围绕该技术的紧张氛围仍在持续。 消息人士指出,Meta 将其人工智能部门“Meta 超级智能实验室”(Meta Superintelligence Labs)拆分为四个小组,分别专注于以下方向:AI 基础研究、“超级智能”研发、AI 产品开发,以及基础设施(包括数据中心与 AI 硬件)的建设。 据称,此次重组预计将是未来一段时间内的最后一次,目的是加快开发 AI 产品、推进超级智能目标,并提升团队内部的协同效率。该策略也可能引发人事变动,一些 AI 高管预计将离职;公司也在评估是否缩减该部门规模,包括裁撤岗位或将员工转岗至其他部门,目前相关讨论尚未定案。 更值得关注的是,Meta 可能将打破以往坚持使用自研 AI 技术的做法,开始考虑集成第三方 AI 模型。这其中包括基于开源模型进行开发,或直接从其他公司授权使用闭源模型。 扎克伯格押注超级智能,AI 战略持续动荡 在当前 AI 技术竞赛日益激烈的大背景下,扎克伯格表现出前所未有的投入力度——无论是资金,还是组织架构。他在 6 月曾宣布成立一个专门的超级智能实验室,目标是研发超越人脑能力的 AI 系统。当时,Meta 对 AI 独角兽 Scale AI 投资高达 143 亿美元,并任命该公司首席执行官 Alexandr Wang 担任 Meta 的首席 AI 官。 此外,Meta 向业界人才开出九位数的薪酬待遇,试图从 OpenAI 和 Google 等竞争对手手中挖角,点燃了硅谷一场“人才争夺战”。…
MCP(模型上下文协议):是否是 AI 基础设施中缺失的标准?
随着人工智能,尤其是大型语言模型(LLMs)的爆炸式发展,企业运营方式正被彻底改写——无论是客服自动化,还是数据分析增强。然而,企业在将 AI 深度融入核心工作流程的过程中,始终面临一个关键挑战:如何在不依赖定制、碎片化集成的前提下,将这些模型安全且高效地连接到真实世界的数据源。 2024年11月,Anthropic 推出了 模型上下文协议(Model Context Protocol,简称 MCP),作为一种开放标准,旨在成为 AI 代理与外部系统之间的通用桥梁。MCP 常被类比为“AI 领域的 USB-C”,因其即插即用的潜力引起广泛关注。它承诺标准化模型与数据之间的连接,让 LLM 能够按需访问实时且相关的数据资源。本文深入探讨 MCP 的起源、技术原理、优势、局限、现实应用以及未来走向,并引用来自行业领袖及 2025 年中期早期落地实践的见解,尝试回答一个核心问题:MCP 是否真的是 AI 基础设施中缺失的那块拼图? MCP 的起源与演进 MCP 的诞生,源于 AI 系统一个长期存在的局限:难以连接动态、企业级的数据资源。传统 LLM 依赖预训练知识,或使用“检索增强生成”(RAG)技术,将数据嵌入向量数据库中,但这种方法计算密集、易过时。Anthropic 识别到这一瓶颈,于 2024 年以开源形式发布 MCP,旨在建立一个协作式生态体系。 到了 2025 年初,MCP 的采用速度显著提升,尤其是在 OpenAI 等主要竞争者也开始集成 MCP 之后,行业对该协议的共识日益明确。MCP 采用客户端-服务器架构,提供多语言 SDK(包括 Python、TypeScript、Java 和 C#),以加速开发流程。预构建服务器支持连接 Google Drive、Slack、GitHub、PostgreSQL 等常见工具,而像 Block 与 Apollo 等公司也基于…
Vibe 编码技巧与建议(Vibe Coding Tips and Tricks)
Vibe 编码所谓 Vibe 编码,是一种现代软件开发方法,开发人员使用自然语言提示词与 AI 协作生成代码。 该方法包含以下几个关键要素: 重要的是要理解,AI 编码助手的目标是提升开发效率,而非取代开发者。系统架构设计与产品愿景始终由人类开发者掌控。开发者需理解、审查并验证所有技术决策。AI 是协助工具,不能代替人类的判断与专业能力。代码质量、架构选择和技术判断的最终责任归属仍在人类手中。 警告:绝不可盲目信任 AI 生成的代码。务必: AI 开发客户端在选择 AI 开发客户端时,应结合组织的合规要求、安全策略及供应商审批清单。技术维度如价格、与 IDE 的集成能力也需纳入考量。 每个客户端具备独特功能,可用于优化开发流程。例如,在 Cline 中可使用 “Plan 模式” 深入讨论实现细节,待确认后再切换至 “Act 模式” 生成代码,以确保其符合预期设计。应定期查看所选客户端的文档与更新日志,掌握最新特性。 特性兼容性:每个客户端对 MCP 功能(如 Tools、Resources、Prompts)的支持情况不同。例如,如需使用 CDK MCP 服务器,则需确保客户端同时支持 Tools 与 Resources。 多客户端策略:不必只使用一个客户端。不同客户端在不同任务上有不同优势。例如,可使用 Cline 处理后端/CDK 开发,使用 Q CLI 处理 AWS 权限、网络连通性与安全组配置等问题。 MCP 服务器选择:无需被数量庞大的 MCP 服务器(40+)所困扰。只需关注符合自身需求的服务器,查阅文档并进行测试即可。 需求与设计指南 在开始编码前,应完成以下准备工作: 在完成上述步骤后再进入编码阶段。可与 AI…
什么是系统设计
许多系统设计建议反而适得其反。例如,LinkedIn 风格的“你一定没听说过消息队列”的观点似乎专为新人打造;又比如 Twitter 上流行的“如果你在数据库里存布尔值,你就是个糟糕的工程师”的狡猾建议。即便是公认优秀的系统设计书籍,比如《Designing Data‑Intensive Applications》,也不一定能解决大多数工程师在实际中遇到的问题。 在作者看来,什么是系统设计?如果将软件设计比作如何组合代码行,那么系统设计就是如何组装服务。软件设计的基本原语是变量、函数、类等,而系统设计的基本原语则是应用服务器、数据库、缓存、队列、事件总线、代理(proxy)等构件。 在这篇文章中,概括自己关于良好系统设计所知的关键要点,尽管很多具体判断还需依赖经验,这些写作是将能够传达的尽可能写下来。 识别良好设计 良好的系统设计往往毫不起眼:长期无故障运行才是它的标志。如果你总想“嗯,这比预想得简单”,或者“系统这一部分从来不用操心,它就很好”,那就是好设计。反之,夸张、炫技的系统往往掩盖了设计本身的问题:分布式一致性协议、CQRS、事件驱动通信等复杂结构,可能只是用来补偿底层的糟糕决策,如果不是过度设计,就要认真反思。这种复杂设计若非演进而来,只会制造更多问题。 状态与无状态设计 状态是最难处理的软件设计挑战。一旦存储任何持续信息,就要面对复杂的读写协调;而若不存储状态,系统则是“无状态”的。例如,GitHub 内部实现的 PDF 转 HTML 渲染服务就是一个无状态服务。无状态组件可以轻易恢复,例如通过容器的自动重启;但一旦状态组件(如数据库)出现问题,就需要人工干预,如数据格式异常、存储空间耗尽等。 因此,应极力减少系统中的状态组件,集中状态管理于单一服务。多个服务不应直接写同一表,而应通过 API 调用或事件机制,将写入逻辑集中到一个负责写的服务。如果可能,也应尽量统一读取逻辑,但在某些情况下,直接快速读取某个表会比 RPC 调用更轻量、更实用。 数据库设计 状态多,数据库设计就尤为关键: 快速操作 与 慢操作的分离 响应用户请求时,应尽可能快;但是某些操作(如 PDF 转 HTML)本身耗时较长。推荐做法是:先处理用户的关键部分,比如只渲染 PDF 的第一页输出,其他页面通过后台任务异步生成。 后台任务 是系统设计的重要原语。标准架构由队列(如 Redis)与任务执行器组成。通过将 {job_name, params} 入队来提交任务,任务执行器从队列读取并执行;也可定时调度执行(用于清理、报表生成等)。这是处理耗时操作的常用路径。 如果任务计划时间较远(如延迟一个月),不应使用 Redis 队列,这样不可靠且难以查询。此类场景可使用数据库持久表,设置参数列与执行时间戳字段,然后每日调度扫描执行。 缓存机制 当某些操作重复且耗时时(如多用户调用计费 API 获取当前价格),频繁请求会影响性能和成本,此时引入缓存是常见解决方案。缓存可放在应用内存,也可使用共享缓存系统,如 Redis 或 Memcached。 但缓存带来状态性和一致性问题。不要在未优化查询时匆忙缓存,先考虑为数据库查询添加索引或其他优化措施,避免缓存“必需性”。对于体积大或长期存储的结果(如大客户周报),可结合定时任务与文档存储(如 S3)作为持久缓存。 事件系统 除了缓存与后台任务,大多数技术公司还会部署事件总线(如 Kafka)。事件本质上是“某件事情发生了”的消息,而不是执行任务指令。例如“新账户创建”事件可以触发发送欢迎邮件、滥用扫描、账户初始化等不同处理流程。 事件系统适用于生产者无需关心消费者行为、或者事件量大但对时效性要求较低的情况。否则直接使用…
Owen大规模文本嵌入生成
本文所展示的是一个先进的文本嵌入生成处理流程,适用于大规模文本数据处理任务。在示例中,使用了多种当今最先进的嵌入模型: 对于开源模型,可以直接通过修改代码中的 EMBEDDING_MODEL_NAME 常量,轻松切换所用模型。 接下来是创建一个用户自定义函数(UDF)来从切分后的文本中生成嵌入向量的实现方式: 该 UDF 的功能包括: 第三步:配置分布式处理环境 尽管脚本可在本地运行,但若需在集群上执行完整流程,可以参考官方关于集群扩展的指南。在示例中,整个流程被部署至一个包含 8 个 g5.2xlarge 节点的 Ray 集群,每个节点配备一个 A10G GPU。为使 Daft 使用 Ray 集群进行调度,需要进行如下配置: 第四步:执行完整数据处理流程 以下为完整的数据管道执行代码: 数据管道的各个步骤如下: 若一切配置正确,脚本执行时将实现网络 I/O、CPU 和 GPU 工作的并行流水线化,从而获得较高的 GPU 使用率。 自定义与优化建议: 性能注意事项: 此流程可高效处理百万级文本数据,并可自动扩展至可用的计算资源,适用于生产级别的文本向量化应用场景。
苹果公司正计划大举进军人工智能硬件领域
苹果公司正计划大举进军人工智能硬件领域,开发机器人、带显示屏的智能音箱、家庭安防摄像头等新产品,以恢复其在消费科技领域的创新领导地位。知情人士透露,这一系列设备构成了苹果AI战略的核心,其中一款桌面机器人预计将在2027年问世,内置拟人化版本的Siri,具备全天候与用户互动的能力。 该桌面机器人被视为苹果人工智能战略的重中之重。设备形态类似装在机械臂上的iPad,能够旋转并追踪房间内的用户移动,甚至能在多人交谈中主动插话。例如,当用户正在讨论晚餐计划时,它可提出附近餐厅建议,或推荐相关菜谱。苹果希望该设备像“房间里的另一个人”那样参与日常生活,帮助处理工作、管理日程、播放媒体,甚至进行旅行规划。 与机器人同步推进的,是一款将于明年发布的带显示屏的智能音箱。这款设备被视为苹果智能家居产品线的入门级产品,将支持家庭控制、音乐播放、视频通话、网页浏览等功能。其操作系统命名为“Charismatic”,设计强调多用户使用与个性化体验,采用以时钟界面与小组件为核心的交互方式,辅以前置摄像头实现人脸识别与界面切换。 苹果还在开发一整套家庭安防产品,包括代号为J450的智能摄像头,该设备支持面部识别与红外感应功能,能检测房间内人员情况,自动执行如调节灯光、播放音乐等操作。这些设备被视为对亚马逊Ring与谷歌Nest等智能家居品牌的直接挑战。 这一系列硬件设备背后的关键,是Siri语音助手的全面重构。苹果正在开发两个版本的AI系统:Linwood与Glenwood,均基于大语言模型构建,目标是提升Siri理解与回应用户请求的能力,同时实现更强的个性化数据调用。新版Siri将首先出现在iPhone与iPad上,预计最早明年春季上线,之后将全面支持苹果的AI设备矩阵。 Tim Cook在本月员工大会上强调,苹果必须在AI领域取得胜利。他称:“产品路线图令人惊叹。其中一些产品很快大家就会见到,另一些则稍晚,但值得期待。” 除了机器人和智能音箱,苹果也在筹划更广泛的产品布局,包括新一代更薄的iPhone、折叠屏手机、智能眼镜、混合MacBook与iPad的大型可折叠设备,以及被称为N100的Vision Pro新版本。这些产品将助力苹果在遭遇传统产品线增长放缓与自动驾驶项目搁置之后,寻找新的营收增长点。 在机器人研发方面,苹果除了桌面版设备外,还在探索带轮移动机器人(类似亚马逊的Astro),甚至构想未来的人形机器人。内部还存在一项代号为T1333的工业机械臂项目,目标是在制造工厂或零售后端实现自动化操作,未来可能部分替代人工岗位。 苹果的AI、硬件、软件与界面设计团队正协同推进上述计划,其中负责Apple Watch与汽车项目的Kevin Lynch正主导相关工作。在软件开发阶段,工程师们广泛使用ChatGPT与Google Gemini测试系统功能,部分项目也在评估引入Anthropic PBC的Claude模型,以增强Siri智能水平。 这场全面的AI硬件攻势,标志着苹果试图在智能家居、家庭机器人与AI助手等新兴领域实现突破,重新夺回技术革新主导地位,正面迎战谷歌、亚马逊、Meta等对手。在移动设备和车载系统(CarPlay)取得成功之后,智能家居被视为苹果下一个关键战场。
这家谷歌衍生公司计划从海洋和山顶发射100Gbps高速互联网信号
一家名为Aalyria的初创公司,日前成功利用光学激光系统,在约65公里(40英里)的距离上,传输了一条高达100Gbps的高速互联网连接。这家公司脱胎于谷歌母公司Alphabet早前的“Loon”气球互联网项目,该项目已于2021年关闭。Aalyria于2022年成立,致力于研发名为“Tightbeam”的激光系统,目标是在陆地、海洋、空中乃至太空中实现高速数据传输。 Aalyria在本周三宣布,其“Tightbeam”系统已在两项测试中取得成果。其中一项测试在加州北部两座山顶之间进行,在长时间内维持了100Gbps的地面激光通信连接。Aalyria首席执行官Chris Taylor表示,该连接可在变化多端的大气环境下持续数小时运行,表明系统在真实应用场景中具备极强的适应性和稳定性。 据介绍,这一65公里的地面对地面光学链路已经连续运行数周,至今仍在稳定运行。Taylor在接受PCMag采访时表示:“我们的系统专为动态环境而设计,具备对湍流、能见度变化、风力等因素的强大抵抗力。即使面对瞬时的环境扰动,我们的自适应光学与跟踪算法也能最大限度减轻对终端用户的影响。” 第二项测试则模拟了海上条件。Aalyria在位于弗吉尼亚州切萨皮克的海军研究实验室使用舰船模拟器,模拟在海洋上,两端光学设备需在水面移动产生的摇摆中彼此锁定的场景。该实验室曾于2023年授予Aalyria一份价值700万美元的合同,以开发为美国海军使用的“Tightbeam”系统。 测试视频显示,激光设备可围绕轴心旋转,仿佛处于不断摇晃的船只之上。Taylor指出,在各种海况状态下,Tightbeam系统在多数测试时间内保持了类似的高速连接。尽管在最剧烈的运动状态中出现了短暂中断,但系统可在几秒钟内迅速重新对准,并维持通信质量。 Aalyria目前正致力于将Tightbeam技术应用于陆地、海洋、空中,甚至是卫星通信领域。尽管SpaceX旗下的Starlink项目也在利用激光技术实现每条链路100Gbps的传输速度,但该技术目前主要用于卫星间通信,尚未扩展至地面与太空之间的应用。 Aalyria特别强调其激光通信系统即使在天气变化多端的地面环境中,也具备高可靠性。Taylor表示,现阶段Tightbeam的目标传输距离为地面对地面75公里、地面对空中150公里。他还补充道:“虽然目前我们主要关注地面与海洋场景的应用,但我们也越来越多地将大气激光通信的专业技术应用于与太空相关的领域。” 与Aalyria类似,Alphabet旗下另一家利用Loon项目技术的公司“Taara”也在今年3月正式独立运营,致力于将“Lightbridge”技术商业化,提供给互联网服务商使用。 两家公司都希望借助光学通信技术,将高速宽带传输至传统光纤难以覆盖的偏远地区,例如孤岛和山区。但两者的技术路径略有不同。Aalyria方面强调,其重点是通过高容量、远距离的激光链路提供主干网络支持,而Taara的“Lightbridge”系统则主要提供最远20公里、速率最高20Gbps的中低容量分发网络。 Taylor指出:“若想让一个社区的每位用户都能接入宽带,就需要像Aalyria提供的这类高容量、远距离的光学链路来承担主干传输任务;同样,也需要像Taara这类更经济、低容量的方案来完成社区内的数据分发。” 目前,Aalyria并未透露其系统的成本或具体的商业化时间表。但Taylor向PCMag表示,虽然公司激光通信终端仍面临与其他系统相似的技术挑战,但其独特的设计流程已成功缓解了其中的许多难题。