上周,多名安全专家(包括一名前微软工程师)对微软的新功能“Recall”进行了严厉批评,称其在网络安全方面是一个完全的“灾难”。对此,微软宣布计划引入新的安全保护措施,以保护用户。 什么是“Recall”? “Recall”功能(最初默认在Copilot+电脑上启用,如Surface Laptop 7和三星Galaxy Book 4 Edge)被称为PC的“摄影记忆”。它每五秒截取一次电脑屏幕截图,并使用设备上的AI转录网页、文档、PDF、手写笔记以及屏幕上显示的所有内容,使一切都能“即时搜索”。 问题出在哪里? 安全专家(如前微软工程师Kevin Beaumont)称这一功能是安全方面的“灾难”,因为它让黑客有机会窃取“你在Windows电脑上输入或查看的所有内容”。 微软的回应 微软Windows和设备部门的企业副总裁Pavan Davuluri承认了这一功能的安全漏洞: “即使在‘Recall’提供给客户之前,我们就已经听到明确的信号,我们可以改进隐私和安全保护措施。” 他明确表示,微软认识到要充分体验类似‘Recall’这样的功能,首先需要用户信任。因此,他们将这个功能改为可选启用,而不是默认启用,迫使用户手动取消。 用户将需要使用面部识别或指纹ID来查看其时间线或搜索结果,整个搜索索引数据库也将加密,以确保用户数据的安全。
Author: aitrendtrackers@rengongzhineng.io
社交“学习伙伴”:Meta Llama助力对话升级
FoondaMate:利用Meta Llama助力新兴市场学生学习的“学习伙伴” FoondaMate,意思是祖鲁语中的“学习伙伴”,是一款快速成长、全天候在线且高度亲和的学习助手,专为中学生和高中生在新兴市场打造。该工具使用Meta Llama技术,学生可以在WhatsApp和Messenger上向他们的AI学习伙伴提问,并获得帮助他们完成学业的对话回复。 推荐阅读 FoondaMate的影响 使用FoondaMate的300万学生中,许多人坐在50到70人的大班级中,难以获得老师的个别关注,甚至不能保证每个孩子都有教材。这些青少年在学习英语、理解难点、下载公共领域学习资料或准备决定大学资格的考试时,求助于FoondaMate。 FoondaMate的创始人Dacod Magagula和Tao Boyle自首次发布以来一直使用Meta Llama 2来增强对话流畅性和语调,这是FoondaMate成功的关键因素。Llama 2帮助FoondaMate根据不同的英语理解水平重新措辞,何时使用本地语言和俚语,甚至添加合适的表情符号。团队已开始测试Meta Llama 3,对其推理能力的改进特别兴奋,预计这将增强学生的多步骤指导。 Boyle表示:“在这种环境中,一个24/7的学习伙伴,通过学生已经使用的应用程序访问,带来的影响是彻底变革性的。大规模语言模型技术与本地化知识库结合,以可负担和易用的方式提供,可能成为我们见过的最具变革性的教育公平工具。” 灵活的对话 FoondaMate的灵感来源于Magagula作为在资源匮乏学校的年轻学习者的经历,当时他经常无法获得教科书。他通过互联网下载学习资料和笔记,取得了高分,并在非洲最负盛名的大学之一获得了高位。现在,其他学生可以通过在WhatsApp和Messenger上添加FoondaMate为好友,重走Magagula的学习之路。 自2020年推出以来,FoondaMate积累了大量关于新兴市场青少年如何聊天、学习和互动的洞察。其最大的市场包括南非、津巴布韦和尼日利亚。截至目前,学生们已经提出了超过1亿个问题。Boyle表示,FoondaMate的影响包括学生成绩的显著改善——在南非,使用FoondaMate的学生大学资格率比不使用的学生提高了30%。Boyle说:“作为一个开源工具,Llama是训练语调和大规模部署的完美模型,适合那些可能难以支付超过每月2美元的学习工具的资源受限学生。” 自然流畅的对话方式模仿青少年与朋友的短信聊天方式,是FoondaMate提供教育资料的核心。这在非洲尤其有帮助,因为这里的人们经常在一次对话中使用多种语言。此外,由于FoondaMate的用户大多是青少年,他们往往使用特定年龄组的俚语、在文本中加入大量表情符号,并以看似不合常理的方式表达。 重视信任与安全 Boyle和Magagula表示,他们逐步引入Llama到FoondaMate中——首先在有限的情境中使用,然后随着训练集的增长逐渐扩展其使用范围。 作为FoondaMate的核心组件,创始人表示,他们很高兴能成为全球开源社区的一部分,分享额外的工具和经验。 Boyle说:“我们对人际互动的信任和安全有很强的关注,我们肯定会使用Llama社区创建的越来越多的安全机制和工具。” 团队从一个小的训练集开始,为FoondaMate的对话注入个性,使用Llama进行非教育性的对话,例如用户问“你好吗?”或“你今天怎么样?”这使他们能够在不影响教育内容的情况下使用生成式AI进行互动。 随着时间的推移,团队在对话环境中逐步扩展其使用,将Llama 2与FoondaMate自身的教育知识库和模型结合。通过对FoondaMate的语调和个性进行微调,Llama 2可以重新措辞FoondaMate知识库和自定义模型的输出,甚至在适当的情况下使用表情符号。 激发学生的学习兴趣 对于许多与FoondaMate交流的学生来说,这可能是他们第一次接触到专为他们量身打造的技术。Boyle补充说,大多数使用FoondaMate的学生在家里没有电脑,有些甚至在学校也没有电脑。因此,向FoondaMate发送消息通常是他们在社交媒体和消息应用程序之外第一次接触技术。FoondaMate团队希望确保入门过程尽可能顺畅自然。 Boyle说:“我们对Llama进行了微调,目标是让用户感觉他们在与最聪明的朋友交谈,而不是一个机器人系统。” 这种方法取得了成效,学生们的反应正如FoondaMate创作者所期望的那样。 Boyle说:“我们看到他们的问题从‘你几岁了?’和‘你在哪里上学?’转变为关于机器人如何学习以及如何像FoondaMate一样制作自己的机器人问题。看到他们对技术和背后的原理产生兴趣,真是令人难以置信地满足。当初创办FoondaMate的梦想是帮助任何地方的任何人获得优质教育并对学习产生兴趣。看到这一切开始发生,真是太棒了。”
NotebookLM全新升级:Gemini 1.5 Pro助力全球研究与写作
去年夏天,Google推出了NotebookLM,一款由人工智能驱动的研究和写作助手。今天,Google宣布NotebookLM的升级版本——现采用Gemini 1.5 Pro——将推广到全球200多个国家和地区。 NotebookLM的愿景 自NotebookLM问世以来,目标一直是打造一个工具,帮助用户理解和探索复杂材料,建立信息之间的新连接,并更快地完成初稿。用户可以上传自己的研究笔记、采访记录、公司文件等资料,NotebookLM将立即成为相关领域的专家。今天的升级引入了多个新功能: 实际用户案例 NotebookLM的应用范围让Google感到惊喜。由于产品是与作者、学生和教育工作者紧密合作开发的,许多早期用户已将其整合到研究和写作流程中。畅销书作者沃尔特·艾萨克森一直在使用NotebookLM分析玛丽·居里的日记,为他的新书做研究。纪录片和播客研究人员也表现出类似的热情,他们需要筛选复杂的档案以生成脚本或故事创意。Gemini 1.5 Pro的高级推理能力与NotebookLM的资料支持架构结合,解锁了许多其他潜在应用: 入门指南 如果你是NotebookLM的新用户,入门非常简单:首次访问NotebookLM时,创建一个笔记本并上传特定项目或交付物的文档。此时,你可以阅读、记笔记、提问、组织想法,或让NotebookLM自动生成所有资料的概述——例如学习指南或目录。值得注意的是,用户上传的资料不会用于训练模型。 无论是用于构建虚拟世界、撰写畅销传记,还是帮助销售人员寻找新客户,NotebookLM都为美国用户提供了强大的工具,使他们能够从大量文档中生成洞见和建立联系。Google迫不及待地想看看全球用户如何利用这款工具。
OpenAI新成果揭秘语言模型神经活动:稀疏自编码器的前沿探索
当前,人类尚未完全理解如何解读语言模型中的神经活动。今天,研究人员分享了一些改进的方法,旨在发现大量“特征”——希望这些活动模式能被人类解释。新方法比现有的更具扩展性,研究人员利用它们在生成预训练变换模型4中找到了1600万个特征。他们正在与研究界分享一篇论文、代码和特征可视化工具,以促进进一步探索。 解读神经网络的挑战 与大多数人类创造物不同,我们尚不完全理解神经网络的内部运作。例如,工程师可以直接设计、评估和修理汽车,确保其安全性和性能。然而,神经网络并非直接设计的,而是通过设计训练它们的算法生成的。因此,生成的网络难以理解,也不能轻易分解为可识别的部分。这意味着我们无法像理解汽车安全那样来理解人工智能的安全性。 为了理解和解读神经网络,首先需要找到神经计算的有用构建块。然而,语言模型内的神经激活模式是不确定的,似乎同时代表许多概念,并且总是密集地激活。在现实世界中,概念是稀疏的——在任何特定情境中,只有少部分概念是相关的。这推动了稀疏自编码器的使用,这种方法可以识别神经网络中少量对生成特定输出重要的“特征”,类似于人在思考时所具备的一小部分概念。这些特征展示了稀疏的激活模式,自然与人类易于理解的概念对齐,即使没有直接的可解释性激励。 我们的研究进展:大规模自编码器训练 研究团队开发了新的最先进的方法,使其能够将稀疏自编码器扩展到前沿人工智能模型上的数千万个特征。他们的方法显示出平滑和可预测的扩展性,比之前的技术有更好的规模回报。团队还引入了几种新的指标来评估特征质量。 研究人员使用这些方法训练了多种自编码器,包括对生成预训练变换模型2小型和生成预训练变换模型4激活的自编码器,其中包括一个在生成预训练变换模型4上有1600万个特征的自编码器。为了检查特征的可解释性,他们通过展示激活该特征的文档来进行可视化展示。以下是一些可解释的特征: 展望未来与开放研究 虽然稀疏自编码器的研究令人兴奋,但前路漫漫,仍有许多未解决的挑战。短期内,研究人员希望这些发现的特征能在监控和引导语言模型行为方面实际有用,并计划在前沿模型中进行测试。最终,他们希望有一天可解释性能够提供新的方法来推理模型安全性和稳健性,并通过对其行为的强有力保证大大增加我们对强大人工智能模型的信任。 今天,研究团队分享了一篇详细介绍实验和方法的论文,希望这能使研究人员更容易地在大规模上训练自编码器。他们还发布了完整的生成预训练变换模型2小型自编码器套件,以及使用这些自编码器的代码和特征可视化工具,帮助研究人员了解生成预训练变换模型2和生成预训练变换模型4特征可能对应的内容。
芯片巨头汇聚台湾,共同宣告“AI PC革命”
本周,芯片行业巨头齐聚台湾,宣告“AI PC革命”的到来,承诺将彻底改变消费者和办公人员与个人设备的互动方式。 在年度Computex大会上,Nvidia、Intel、AMD、Qualcomm和Arm的首席执行官们齐聚一堂,展示了他们的AI芯片技术。这些芯片主要用于许多在台湾制造的人工智能PC。这次会议被誉为“每个芯片制造商讲述自己AI PC故事的最有力机会”。预计未来几个月,AI PC的需求将激增。 这些笔记本电脑和台式机嵌入了专用硅片,可以运行诸如数字助手和生成代码或视频的软件,而无需依赖云服务。Intel首席执行官Pat Gelsinger表示,这是自WiFi到来以来PC市场最激动人心的时刻。Qualcomm首席执行官Cristiano Amon更进一步,称AI PC是自微软的Windows 95操作系统以来最重要的发展。 微软在5月推出了一系列支持AI的个人电脑,配备了其旗舰AI助手Copilot,并包括一种新工具,可以通过定期保存屏幕快照快速检索用户查看过的内容。尽管在传统由Intel和AMD主导的Windows市场中,Qualcomm的Arm架构处理器仅占PC销售的一小部分,但微软还是选择了Qualcomm作为其首个AI芯片供应商。 分析师表示,微软旨在鼓励更多竞争。Qualcomm为了在PC市场站稳脚跟,愿意更加灵活地响应微软的技术需求,从而摆脱其传统的智能手机领域。Qualcomm的Amon称这次合作是一个定义历史的时刻,将其芯片与微软的软件结合,带来了“PC新时代”。 不过,Intel和AMD在部署AI芯片方面也不甘落后。AMD在Computex上推出了两款AI PC处理器,预计下月底开始批量出货。Intel表示其旗舰芯片Lunar Lake将于第三季度出货,赶上假期购买季,将出现在20家制造商的80款AI PC中。 随着PC市场的复苏,预计AI PC将成为下一轮PC市场增长的关键因素。摩根士丹利的分析师表示,AI PC的渗透率将从2024年的2%上升到2028年的65%。 尽管AI升级的推动力强劲,分析师质疑消费者需求是否足以支撑更高价格的硬件。人们升级设备的动力在于提高生产力,但目前仍需观察是否有软件能够回答这一问题。芯片巨头汇聚台湾,共同宣告“AI PC革命”
AI学院项目启动:推动美国基础设施智能化变革
人工智能(AI)有潜力彻底改变美国的基础设施系统和支持日常生活的结构。全国各地的初创企业正利用AI技术,为公众提供更加高效、有效和公平的服务,从维护道路到改进教育。为支持那些在公共领域解决复杂问题的企业家,谷歌推出了“初创企业AI学院:美国基础设施”项目。这个全新的无股权项目旨在帮助初创企业负责任地创新,构建一个以AI为支撑的未来,赋能社区并改善地方、州和全国各地的生活。 在为期十二周的项目中,参与的初创企业将接受谷歌AI专家的实际操作培训,包括由谷歌的“人+AI研究”(PAIR)团队开发的深入AI课程以及高级销售和市场推广工作坊。初创企业还将获得最新的谷歌AI工具、独家见解和行业联系——这些资源在项目结束后仍可继续使用,成为谷歌初创企业校友社区的一部分。 谷歌初创企业项目已经支持了许多专注于基础设施的科技公司,例如使用AI监测空气污染的JustAir、帮助商业地产脱碳的Cambio,以及旨在减少交通事故的Sensagrate。对于此次AI学院项目,谷歌将与更多美国本土初创企业紧密合作,这些企业专注于利用AI提升生产力并解决关键美国行业的问题,包括但不限于: 现在已开始接受申请,鼓励符合条件的初创企业在6月17日前申请。https://startup.google.com/programs/ai-academy/american-infrastructure/united-states/
公开信揭露:AI巨头面临安全监管缺失和举报人保护不足的双重挑战
11名来自OpenAI的现任和前任员工以及2名来自Google DeepMind的员工签署了一封公开信——“关于高级人工智能的警告权利”,表达了他们对大科技公司缺乏安全管理和监督的担忧,并呼吁更好地保护那些希望对这些问题发声的举报人。 公开信内容 这封公开信指出,AI公司拥有“与其AI模型相关的能力、限制和风险的大量非公开信息”,其中包括“失控的自主AI系统可能导致人类灭绝”,但这些公司对政府和社会分享信息的义务却很薄弱,同时“有强烈的财务激励”来避免有效的监督措施。 信中还提到,目前对举报人的保护不足,而他们是少数能够让这些大科技公司承担责任的独特角色之一。 “普通的举报人保护不足,因为它们侧重于非法活动,而我们关心的许多风险尚未得到监管。”公开信要求AI公司承诺四项原则,旨在: 公开信的背景 这封信是在OpenAI因强迫员工签署保密协议而遭受抨击后写的,如果员工不签署,他们将失去在公司期间获得的股票。虽然CEO萨姆·阿尔特曼已经道歉,并承诺改变其离职协议,但这一事件仍然引发了广泛关注。 此外,公开信还紧随OpenAI解散其“超级对齐”安全团队之后,当时两名关键成员因安全担忧和缺乏安全优先级而辞职。 OpenAI和Google的回应 OpenAI为其安全实践进行了辩护,声称“为提供最有能力和最安全的AI系统的记录感到自豪”,并同意“继续与各国政府、民间社会和世界各地的其他社区进行接触”。而Google尚未对此事发表评论。
马斯克的秘密芯片计划曝光
埃隆·马斯克表示,他有信心将特斯拉打造成“AI和机器人领域的领导者”,这一宏伟目标需要大量昂贵的Nvidia处理器来搭建基础设施。 在特斯拉四月的第一季度财报电话会议上,马斯克提到,电动车公司计划将Nvidia旗舰AI芯片H100的使用数量从35,000增加到85,000,预计在今年年底前完成。几天后,他在社交媒体X上发文称,特斯拉将在今年花费100亿美元用于“AI的训练和推理”。 然而,Nvidia公司内部广泛流传的邮件显示,马斯克向股东展示了一个夸大的特斯拉采购情况。Nvidia员工的邮件还表明,马斯克将一大批原本预留给特斯拉的AI处理器转移给了他自己的社交媒体公司X(前身为Twitter)。 周二上午,这一消息导致特斯拉股价下跌近1%。 马斯克指示Nvidia优先为X提供处理器,推迟了特斯拉超过5亿美元的图形处理单元(GPU)的交付,可能进一步延缓特斯拉为开发自动驾驶汽车和人形机器人所需的超级计算机的建立。 Nvidia去年十二月的一份备忘录中写道:“埃隆优先将12,000个H100 GPU重新分配给X,而不是特斯拉。”换句话说,原本计划给X的订单将转移给特斯拉。 最新的一封Nvidia邮件,日期为四月底,指出马斯克在特斯拉第一季度电话会议上的言论“与实际订单不符”,他在X上提到的100亿美元AI支出计划也“与实际订单和2025财年预测不符”。邮件还提到了特斯拉正在进行的裁员,并警告说人手减少可能会进一步延迟特斯拉德州工厂的“H100项目”。 这些新信息揭示了马斯克与一些不满的特斯拉股东之间的矛盾,这些股东质疑这位亿万富翁CEO是否能够在经营多个需要他关注和资源的公司时,履行他对特斯拉的责任。 Nvidia发言人拒绝对此事发表评论。马斯克和X及特斯拉的代表也没有回应置评请求。 批评者指出,马斯克只是特斯拉的“兼职CEO”,而特斯拉是他财富的主要来源。他还担任航天公司SpaceX的CEO,是脑机接口初创公司Neuralink和隧道公司The Boring Co.的创始人,同时拥有X,这家公司是他在2022年末以440亿美元收购的。他在2023年创立了AI初创公司xAI。 X和xAI紧密相连。马斯克在十一月的X帖子中写道:“X Corp投资者将拥有xAI的25%股份。”此外,xAI还使用X数据中心的一部分容量来运行其聊天机器人Grok背后的大语言模型的训练和推理。 马斯克在X上推销Grok,最初名为Truth GPT,作为一个有“叛逆精神”的政治不正确的聊天机器人,并计划与OpenAI的ChatGPT和其他生成式AI服务竞争。 尽管马斯克分身多头,特斯拉股东们仍有理由担忧。公司正面临销量下降的困境,部分原因是电动车产品线老化和竞争加剧。根据Axios Harris Poll 100的调查,特斯拉的声誉也在美国受损,一些下降被归咎于马斯克的“奇特行为”和“政治言论”。 特斯拉股价今年下跌了29%。 与其讨论电动车销量或特斯拉正在进行的大规模重组,马斯克一直鼓励投资者关注他多年承诺但尚未交付的未来产品,包括将现有汽车转变为自动驾驶车辆的AI软件、可以为车主赚钱的专用自动出租车,以及一个无人驾驶交通网络。 马斯克在四月的财报电话会议上表示:“如果有人不相信特斯拉能够解决自动驾驶问题,那么他们不应该投资这家公司。我们会解决,我们正在解决。” 为了实现这一目标,他表示,特斯拉需要大量专门用于AI训练和工作负载的Nvidia GPU。这些芯片由于谷歌、亚马逊、Meta、微软、OpenAI等公司的需求激增而供应紧张。 “耗尽所有现有GPU”Nvidia,现为全球第三大公司,市值2.8万亿美元,表示很难满足需求。Nvidia CEO黄仁勋在五月的财报电话会议上表示,客户“正在耗尽所有现有的GPU”。在二月的财报电话会议上,黄仁勋表示,Nvidia尽力“公平分配,避免不必要的分配”,并补充说“为什么要分配给一个尚未准备好的数据中心?” 黄仁勋在五月的电话会议上提到正在使用Nvidia下一代Blackwell平台的客户时,提到了xAI,以及全球六大科技公司和特斯拉。 马斯克喜欢宣传他在两家公司上的基础设施投资。 在特斯拉,马斯克承诺在纽约布法罗建造一台耗资5亿美元的“Dojo”超级计算机,并在德州奥斯汀工厂建造一个“超密集的水冷超级计算机集群”。这项技术将有助于特斯拉开发用于机器人和自动驾驶汽车的计算机视觉和大语言模型。 在xAI,马斯克也在寻求建立“世界上最大的GPU集群”,部分容量计划在六月上线,根据二月的Nvidia内部邮件。这份备忘录描述了一个“马斯克任务”,要求在2024年底前将所有100,000个芯片提供给xAI。备忘录还指出,xAI背后的LLM依赖于亚马逊和甲骨文的云基础设施,X提供了额外的数据中心容量。 据《信息》报道,xAI的数据中心雄心此前已经有所披露。 五月二十六日,xAI宣布完成了一轮由许多资助马斯克收购Twitter的投资者领投的60亿美元融资。公司于2023年三月注册成立,但特斯拉当时并未披露其成立,四个月后马斯克才公开介绍这家初创公司。 利益冲突虽然马斯克多年来一直声称特斯拉是AI领域的领导者,但他在一月的X帖子中写道,他希望在推动公司进一步发展之前,拥有更多的控制权。 “在没有~25%的投票控制权的情况下,我对将特斯拉发展成为AI和机器人领导者感到不安。足以有影响力,但不会多到无法被推翻,”他在帖子中说。 特斯拉最新的代理文件显示,马斯克拥有公司20.5%的流通股,包括作为他2018年CEO薪酬方案的一部分获得的期权。一家特拉华州法院已下令撤销这笔薪酬。庭后程序正在进行中,并可能上诉。 如果无法达到他想要的所有权标志,马斯克在一月的帖子中表示,他“更愿意在特斯拉之外开发产品”。他已经在xAI上做到了这一点。 马斯克的一月帖子激怒了一些长期的支持者,包括公司最大的散户股东Leo Koguan和Gerber Kawasaki的Ross Gerber,他们将他的要求称为“勒索”。 股权诉讼集团的证券诉讼律师Joel Fleming表示,通过让他的私人公司在获取关键硬件方面领先于特斯拉,马斯克使他的利益冲突变得明显。 “当你像马斯克先生这样同时对多个公司负有信托责任时,法律认识到这会产生冲突,”Fleming说。“如果你对两个或更多公司负有信托责任,而这些公司在争夺同样的东西,你可能最终会将公司机会从一个公司转移到另一个公司。” Fleming经常代表上市公司投资者处理股东纠纷,他表示,在这种情况下,其他高管将处于最佳决策位置,而那些有冲突的人应该回避。 “这历来不是马斯克先生为自己选择的路径,”Fleming说。 马斯克在他的公司间混合资源毫不避讳。 例如,在收购Twitter后,马斯克招募了数十名Autopilot软件工程师和特斯拉的其他技术和行政员工,帮助他在公司进行大刀阔斧的改革。一些员工甚至同时为两家马斯克的公司工作。 在xAI,马斯克还吸引了不少特斯拉的员工,包括机器学习科学家Ethan Knight,以及至少四名前特斯拉员工,他们在加入初创公司前曾参与Autopilot和大数据项目。 一位不愿透露姓名的前特斯拉供应链分析师告诉CNBC,马斯克一直认为他的公司是他个性的延伸,相信自己可以随意处置它们。这包括特斯拉在 2016年收购SolarCity,他是该公司的主席和大股东。 然而,这位人士表示,将大量芯片从特斯拉转移到X是极端的,考虑到Nvidia技术的稀缺性。这个决定意味着特斯拉放弃了在德州或纽约建立其超级计算机集群和推进其自动驾驶软件和机器人背后的模型的宝贵时间。 在这篇报道发表后的一则X帖子中,马斯克写道:“特斯拉没有地方可以安装这些Nvidia芯片,它们会被闲置在仓库里。”他表示,德州工厂的“南扩展部分”将很快“容纳50,000个H100”,用于自动驾驶技术的训练。…
构建大型语言模型(LLM)产品的实战指南
使用大型语言模型(LLM)进行开发的时代令人兴奋。过去的一年中,LLM在实际应用中的表现已经达到“足够好”的水平,并且每年都在变得更好且更便宜。再加上社交媒体上的一系列演示,到2025年,预计将有2000亿美元的投资进入人工智能领域。此外,提供者的API使LLM变得更加易于访问,使得不仅是机器学习工程师和科学家,任何人都可以将智能融入他们的产品。然而,尽管构建AI的门槛已经降低,但创建真正有效的产品和系统——不仅仅是演示——仍然非常困难。 我们过去一年一直在构建过程中,发现了许多棘手的问题。虽然我们不敢说代表整个行业,但我们希望分享我们的经验,以帮助你避免我们犯过的错误,并加速你的迭代。这些经验分为三个部分: 战术层面:提示、RAG、流程工程、评估和监控的实践。不管你是构建LLM的从业者,还是周末项目的爱好者,这部分内容都是为你而写。 操作层面:产品发布的组织和日常关注点,以及如何打造高效团队。针对希望可持续且可靠地部署产品的产品/技术领导者。 战略层面:长远的宏观视角,带有明确观点,如“在产品市场契合前不使用GPU”和“关注系统而非模型”,以及如何迭代。专为创始人和高管们撰写。 我们的目的是提供一份实际指南,帮助你成功构建LLM产品,基于我们的经验,并引用行业中的案例。 准备好深入探讨了吗?让我们开始吧。 战术层面:使用LLM的具体操作 在本部分中,我们分享了新兴LLM堆栈核心组件的一些最佳实践:提高质量和可靠性的提示技巧、评估策略、改进基础生成的检索增强生成(RAG)思路等。我们还将探讨如何设计人机协作工作流。尽管技术仍在快速发展,但我们希望这些经验——我们通过无数实验获得的副产品——能够经受住时间的考验,帮助你构建和发布可靠的LLM应用。 提示 开发新应用时,我们建议从提示开始。提示的作用经常被低估和高估。低估是因为正确的提示技术,使用得当,可以取得非常好的效果。高估是因为即使基于提示的应用,也需要围绕提示进行大量工程工作以取得良好效果。 充分利用基本提示技术 一些提示技术在各种模型和任务中一贯有助于提高性能:n-shot提示+上下文学习、链式思维(CoT)以及提供相关资源。 通过n-shot提示进行上下文学习的理念是向LLM提供几个示例,展示任务并对齐输出和我们的期望。一些小建议: 在链式思维(CoT)提示中,我们鼓励LLM在返回最终答案之前解释其思考过程。可以将其视为提供给LLM的草图本,使其不必全在记忆中完成。原始方法是简单地将短语“让我们一步步思考”添加到指令中,但我们发现,通过添加一两句额外的句子使CoT更具体,通常可以显著减少幻觉率。例如,当要求LLM总结会议记录时,我们可以明确步骤,如: 请注意,最近一些人对这一技术的实际效果提出了质疑。此外,关于使用链式思维进行推理时具体发生了什么,也存在大量争论。不管怎样,当有可能时,这一技术值得尝试。 提供相关资源是一种强大的机制,可以扩展模型的知识库,减少幻觉,并增加用户的信任。通常通过检索增强生成(RAG)实现,向模型提供可以直接在响应中使用的文本片段是一种基本技术。在提供相关资源时,不仅仅是包括它们;还要告诉模型优先使用它们,直接引用它们,有时还要提到当资源不足时。这些有助于将代理响应“定位”到资源库。 结构化输入和输出 结构化输入和输出有助于模型更好地理解输入,并返回可以可靠集成到下游系统的输出。为输入添加序列化格式可以为模型提供更多的上下文关系线索、特定标记的附加元数据(如类型),或将请求与模型训练数据中的类似示例关联。 例如,许多互联网上关于编写SQL的问题都会先指定SQL模式。因此,你可能期望有效的文本到SQL提示应包括结构化模式定义;确实如此。 结构化输出也有类似的目的,但它还简化了与系统下游组件的集成。Instructor和Outlines在结构化输出方面表现良好。(如果你正在导入LLM API SDK,请使用Instructor;如果你正在导入Huggingface用于自托管模型,请使用Outlines。)结构化输入清晰表达任务,类似于训练数据的格式,增加了更好输出的可能性。 在使用结构化输入时,注意每个LLM家族有其自己的偏好。Claude偏好,而GPT偏好Markdown和JSON。使用XML时,你甚至可以通过提供标签来预填充Claude的响应,如下所示: 保持简洁的小提示 软件中的“神对象”是一个常见的反模式,同样适用于提示。 提示通常从简单开始:几句指令,加上几个示例,就可以开始了。但是,当我们试图提高性能并处理更多的边缘情况时,复杂性会逐渐增加。更多的指令。多步推理。几十个示例。不知不觉中,我们最初简单的提示变成了一个2000个标记的怪物。而且更糟糕的是,它在更常见和简单的输入上表现更差!GoDaddy分享了他们构建LLM的第一大教训,正是这个问题。 就像我们努力(艰难)保持系统和代码简单一样,我们也应该对提示保持简单。不要将所有任务放在一个提示中,而是将其分解成多个步骤。例如,对于会议记录摘要器,我们可以将其分解为: 结果是,我们将一个提示分解成多个简单、专注且易于理解的提示。通过分解,我们可以单独迭代和评估每个提示。 设计上下文标记 重新思考并挑战你关于需要多少上下文才能发送给代理的假设。像米开朗基罗一样,不要堆砌你的上下文雕塑——削减多余的材料,直到雕塑显现。RAG是一种汇集所有可能相关信息的流行方法,但你做了什么来提取必要的内容? 我们发现,将发送给模型的最终提示——包括所有上下文构建、元提示和RAG结果——放在一个空白页面上阅读,真的有助于重新思考你的上下文。我们发现冗余、自相矛盾的语言和糟糕的格式。 另一个关键优化是上下文的结构。你的文档袋表示对人类没有帮助,不要假设它对代理有用。仔细考虑如何结构化你的上下文,以突出其各部分之间的关系,并尽可能简化提取过程。 信息检索 / RAG 除了提示,另一种有效引导LL M的方法是提供知识作为提示的一部分。这使LLM能够在提供的上下文中进行在上下文学习。这被称为检索增强生成(RAG)。实践者发现,RAG在提供知识和改进输出方面有效,同时所需的精力和成本远低于微调。RAG的效果取决于检索到的文档的相关性、密度和详细程度。 RAG输出质量取决于检索到的文档质量,可以从几个方面考虑: 不要忘记关键词搜索;将其作为基线和混合搜索的一部分 在嵌入式RAG演示如此流行的情况下,很容易忽略或忘记信息检索领域的几十年研究和解决方案。 虽然嵌入无疑是强大的工具,但它们并不是万能的。首先,它们在捕捉高级语义相似性方面表现出色,但在更具体的基于关键词的查询(如用户搜索名字、首字母缩略词或ID)时可能表现较差。基于关键词的搜索(如BM25)就是专门为此设计的。并且经过多年的关键词搜索,用户可能已经习惯了它,如果未能返回他们期望检索到的文档,可能会感到沮丧。 矢量嵌入并没有神奇地解决搜索问题。事实上,繁重的工作在于你用语义相似性搜索重新排序之前的步骤。要在BM25或全文搜索基础上取得实质性改进是很难的。——Aravind Srinivas,Perplexity.ai CEO 我们一直在向客户和合作伙伴传达这一信息。使用简单嵌入的最近邻搜索会产生非常嘈杂的结果,你可能更适合从关键词搜索开始。——Beyang Liu,Sourcegraph CTO 其次,用关键词搜索更容易理解为什么某个文档会被检索到——我们可以查看与查询匹配的关键词。相比之下,基于嵌入的检索则不那么可解释。最后,感谢像Lucene和OpenSearch这样的系统经过几十年的优化和实战测试,关键词搜索通常在计算效率上更高。 在大多数情况下,混合搜索效果最好:关键词匹配用于显而易见的匹配,嵌入用于同义词、上位词和拼写错误,以及多模态(如图像和文本)。Shortwave分享了他们如何构建RAG管道,包括查询重写、关键词+嵌入检索和排名。 优先使用RAG而非微调以获取新知识 RAG和微调都可以用于将新信息纳入LLM,并提高特定任务的性能。那么,应该先尝试哪个呢? 最近的研究表明,RAG可能占有优势。一项研究比较了RAG和无监督微调(又称连续预训练),在MMLU子集和当前事件上进行评估。他们发现,RAG在处理训练中遇到的知识和完全新知识方面, consistently outperformed…
SpaceX 计划今年秋季推出手机用 Starlink 系统
SpaceX 正计划在今年秋季推出其用于手机的 Starlink 系统,目前正在等待美国联邦通信委员会(FCC)的批准。 该公司在一份关于委员会新规则的文件中透露了目标发布日期,该规则涉及为美国运营商提供卫星连接,也称为“空间补充覆盖”。 SpaceX 在文件中写道:“SpaceX 支持委员会最近发布的 SCS 命令中的几乎所有内容,并期待今年秋季在美国推出商用直接到蜂窝的服务。” 这份文件还透露了 SpaceX 对“直接到蜂窝”Starlink 系统的长期目标,该系统将向地面上的未改装智能手机传输互联网数据,使其成为为蜂窝信号盲区用户服务的一种有用方式。 SpaceX 写道:“尽管目前 SpaceX 打算通过其补充覆盖网络提供文本、语音和网页浏览服务,但未来的创新可能会提供更强大的补充覆盖服务和增强功能。” 这项改进的服务不会取代地面移动网络,但会在这些网络不存在的地方提供增强的连接来源。 然而,SpaceX 表示,FCC 目前为手机提供卫星连接的框架存在一个障碍。该公司的文件敦促委员会放宽蜂窝卫星的频率总限额,特别是“一刀切的带外功率密度总限额”。 相反,SpaceX 支持用更具体的“带特定限制”来替代一刀切的限制,以帮助公司改善即将推出的蜂窝 Starlink 系统的覆盖和可靠性。 公司写道:“相比之下,全面的带外限额将不幸地削弱在紧急情况下提供强大覆盖的目标。” 同样的限制也可能阻止 SpaceX 开发蜂窝 Starlink 技术的未来创新。 公司补充道:“即使运营商能够在 SCS 命令中的总 PFD 限制下提供强大覆盖,满足如此严格的限制也需要卫星运营商减少网络覆盖和容量,或者显著抑制其信号以满足限制。” SpaceX 和其合作伙伴 T-Mobile(首个采用蜂窝 Starlink 技术的美国运营商)之前曾向 FCC 表示,频率限制过于严格。但在三月,FCC 指出,包括 AT&T、Verizon 和 Dish Network 在内的竞争对手游说委员会维持这一限制,理由是需要防止潜在的无线电干扰。 SpaceX 提交了这份文件,因为众多团体正在就 FCC 关于为手机提供卫星连接的框架发表意见。这其中包括科学家们担心 SpaceX…