OpenAI预计明年将推出“代理”系统,这是一种无需人类干预、能自主完成各种任务的独立AI模型,未来或将集成到ChatGPT中。 在旧金山举行的首届OpenAI开发者日活动上,CEO山姆·阿尔特曼(Sam Altman)表示,“2025年代理系统将投入使用”,并展示了一款早期的代理能力样例:一个语音助手独立拨打电话并订购草莓。这表明AI技术正在向自主决策和行动迈进。 OpenAI解释称,人工智能通用技术(AGI)的发展分为五个阶段。目前我们处于第二阶段,AI可以在做出反应前推理。而代理系统标志着第三阶段的开始,意味着AI不仅能推理,还能独立执行任务。 阿尔特曼曾提到,OpenAI的o1系列模型具备推动“代理”系统发展的能力,预计首批模型将很快问世。不过,确保这些模型与人类价值观保持一致并避免“失控”行为是主要的挑战,也是可能导致延迟的原因。 代理系统的目的 构建实用且功能强大的代理系统是所有AI实验室的共同目标。比如,代理系统不仅可以写书,还能自动完成自我出版的流程,包括注册亚马逊账户并在Kindle Direct上发布书籍。 阿尔特曼预计,未来人们将向代理提出原本需要一个月才能完成的任务,而代理可以在一小时内搞定。他还提到,随着技术进步,代理将成为实现AGI的重要一步,因为AGI需要能够自主执行必要任务以实现其目标。 OpenAI计划通过不断迭代AI模型,实现这一目标。阿尔特曼指出,o1系列模型将使代理系统成为现实,并且“当人们开始使用代理时,将会是一个重大事件。”他补充说:“人们将要求代理完成需要一个月才能做完的事情,而代理只需一个小时。” 代理系统的挑战:对齐与安全 实现AI代理最关键的难题是对齐问题,也就是确保代理的行为符合人类的价值观和利益。每次发布新模型时,OpenAI都会进行严格的安全测试,确保模型在符合安全标准的前提下才能发布。这一过程曾导致模型发布的延迟,并需要为模型设置“防护栏”以阻止某些潜在的有害行为。 一个明显的例子是GPT-4o模型,尽管具备生成图像、音乐和模仿声音的能力,但这些功能被“防护栏”限制,用户无法直接使用。然而,偶尔防护栏也会失效,表明模型实际上是能够实现这些功能的。 代理系统的防护栏问题尤为重要,因为代理可能获得银行账户的访问权限、在线执行任务,甚至雇佣他人在Fiverr平台上代为完成任务。在开发者日的演示中,一个语音机器人模拟助手与卖家通话,订购了400颗巧克力草莓,提供了特定地址,并声明用现金支付。尽管机器人宣称自己是AI助手,但从对话中很难分辨它的AI身份。 OpenAI首席产品官凯文·威尔(Kevin Weil)对《金融时报》表示,“我们希望让人们能够像与他人互动一样与AI互动。”他补充道,明年代理系统将进入主流市场,推动这一目标的实现。 威尔还指出,代理系统的一个防护措施是强制要求代理系统始终表明其AI身份。然而,如果你见过GPT-4o生成的完美矢量图形或听过Advanced Voice的拟声表演,你就会知道这些限制有时并不完善。 代理系统的未来展望 对于代理系统的到来,许多人充满期待。开发人员认为,代理将帮助加快开发流程,特别是在自动化测试等枯燥环节。此外,代理还能帮助人们处理大量未读邮件,正如一位开发者所言,“如果为了清空收件箱而不得不面对天网(Skynet)的崛起,那就让终结者来吧。”
Author: aitrendtrackers@rengongzhineng.io
Microsoft AI部门的CEO额备忘录
微软今天正式推出了重新设计的Copilot,目标是成为用户的AI助手或伴侣。为了庆祝这一发布,微软新任AI部门CEO穆斯塔法·苏莱曼撰写了一篇超过700字的备忘录,描述了他所认为的AI技术“范式转变”,即AI模型将能够理解人类所见和所闻的能力。 苏莱曼今年早些时候加入微软,成为其新成立的AI部门的CEO,此前微软从Inflection AI挖来了多名重要员工。今年6月,苏莱曼因公开宣称“任何发布在网络上的内容都是免费的,可以被AI模型复制、重建和再创造”而引发争议。如今,他乐观地认为,在微软的领导下,AI将开创一个“更平静、更加有用和支持性的技术时代”,这是以前从未见过的。 苏莱曼在备忘录中表示:“一些人担心AI会削弱我们作为人类的独特性,但我的毕生工作就是确保AI能做到完全相反的事情。” 微软的全新Copilot体验看起来与Inflection AI的Pi产品十分相似,显然苏莱曼正推动微软走向更加个性化的AI方向。“在微软AI,我们正在为每个人打造一个AI伴侣,”苏莱曼在备忘录中写道,“Copilot会始终站在你这边,支持你,确保与你的利益高度一致。” 微软今天还推出了全新的Copilot视觉和语音功能,使得AI助手更加个性化,同时更新的设计也更注重提供实用信息。“随着时间的推移,Copilot会根据你的行为习惯逐渐适应,并发展出围绕你的偏好和需求的功能,”苏莱曼说,“我们并不是在创造一个静态工具,而是建立一种动态、不断发展的互动方式。” 苏莱曼的完整备忘录如下: 我们正在经历一场技术范式的转变。短短几年内,我们的计算机已经学会了理解我们的语言,看见我们所见,听见我们所闻。 但技术本身没有意义,重要的是它给人们带来的感受,以及对社会的影响。它改变了生活、打开了大门、拓展了思维、缓解了压力。它或许是历史上最伟大的人类福祉的放大器之一,也是为数不多能为数十亿人带来实际和持久好处的方式之一。 然而,技术必须始终服务于人类:它是一种工具,是加深我们共同纽带和理解的路径,是激发我们的创造力和想象力的力量。 在AI领域,我们经常会迷失在技术细节中。我们谈论参数、计算能力、训练过程、数据中心和最新技术。在探索新领域时,专注于细节是很自然且不可避免的,因为细节确实重要。但我认为,在深耕技术的同时,我们不应忘记,不仅是我们在构建什么,更重要的是我们为什么要构建它。 在微软AI,我们正在为每个人创造一个AI伴侣。 我坚信,我们可以创造一个更加平静、有帮助和支持性的技术时代,这是以前从未见过的。优秀的技术体验应该关注用户的感受,而不是技术细节。它应着眼于你所经历的,而非我们所构建的。 Copilot会始终站在你这一边,支持你,并与你的利益保持高度一致。它会理解你的生活背景,同时保护你的隐私、数据和安全,记住在任何情况下最有用的细节。它将为你提供一个知识的宇宙,简化和梳理每天的大量信息,并在你需要时提供支持和鼓励。 随着时间的推移,Copilot会适应你的习惯,并发展出围绕你的偏好和需求的功能。我们并非在创造一个静态的工具,而是建立一种动态、不断发展的互动关系。它会始终支持你,帮助你在日常生活中以最理想的状态展现自己,成为促进人类联系和成就的新方式。 在获得你的许可后,Copilot最终将能够代表你采取行动,简化生活中的复杂问题,让你有更多时间专注于对你重要的事情。它将在许多重要时刻为你提供支持。无论是陪伴你去医生那里记录信息并在适当时候跟进,还是为孩子的生日派对做准备,甚至在你面临艰难的生活决策时提供帮助,Copilot都会陪在你身边。 一些人担心AI会削弱我们作为人类的独特性。而我毕生的工作就是确保它恰恰相反。我们选择创造什么,这是我们必须共同完成的任务。我们的职责是确保它始终能够丰富人们的生活,并加强我们与他人的联系,同时支持我们独特而复杂的人性。 这是一场全新的技术变革,不仅仅是“解决问题”,而是支持、教育和帮助你。从这个角度来看,Copilot与过去的互联网和移动技术浪潮截然不同。这是一场从根本上改变我们所有人可能性的开始。随着我们对Copilot的最新更新,你们现在看到的只是我们在这条路上的第一步。 耐心和谨慎是我们部署每个阶段的核心基础。我的承诺是,在每一个阶段都对用户负责,与用户合作并倾听用户的意见。对用户和社会的尊重与深切关怀是我们一切工作的核心。它优先于一切。这是我们共同承诺的旅程,我对能与你们一起踏上这段旅程感到无比激动。 穆斯塔法·苏莱曼
两名大学生利用Meta的智能眼镜展示了一项令人震惊的技术,能够实时“人肉”他人的身份信息
两位哈佛学生展示了一款让人不寒而栗的智能眼镜技术演示,展示了如何利用人脸识别技术即刻获取他人身份、电话号码和住址等敏感信息。令人担忧的是,这项演示所用的都是现成的技术,比如Ray-Ban Meta智能眼镜和公共数据库。 其中一位学生AnhPhu Nguyen在网上发布了一段视频,展示了这项被称为“I-XRAY”的技术如何运作。该技术通过Meta智能眼镜的实时视频直播功能,将视频传输到Instagram,然后计算机程序监控视频并使用AI识别人脸。这些面部照片随后被输入公共数据库,进而找到姓名、住址、电话号码,甚至亲属关系。最终,信息会通过手机应用传回。 在演示中,Nguyen和Caine Ardayfio(该项目的另一位学生)通过眼镜识别了多位同学的身份、住址以及亲属信息。更令人不安的是,他们还在公共交通工具上与陌生人交谈,假装认识他们,实际是通过技术获取的个人信息。 这项技术的背后依赖于像PimEyes这样的面部搜索引擎,《纽约时报》曾形容PimEyes为“精确到令人惊讶”的工具,任何人都能使用它。这让人联想到Clearview AI,后者曾帮助执法机构通过面部识别追踪目标。Nguyen和Ardayfio的演示则是首次将这种技术与消费者产品相结合,让这款隐蔽且易于获取的设备变得更加危险。 两位学生表示,他们开发这项技术的初衷不是为了滥用,因此不会公开发布。他们的目标是引发公众对现有技术的警觉,表明这并非遥远的反乌托邦未来,而是现实中已经可以做到的事。通过大语言模型(LLMs),I-XRAY能够自动将姓名与照片关联起来,从庞大的数据源中提取信息。 智能眼镜的隐私问题由来已久,谷歌眼镜因公众担忧隐私被侵犯而遭遇了失败。尽管现在人们因智能手机、博主和TikTok等普及,已习惯了随时随地被录像,但现代智能眼镜因为外形更为低调,隐私威胁也随之增加。Ray-Ban Meta智能眼镜看起来与普通的Ray-Bans几乎无异,这虽然有助于智能眼镜的普及,但也让人更难察觉到正在被拍摄。虽然眼镜配有隐私灯,录像时会自动亮起,但在明亮的户外环境下,这个灯往往难以被察觉,特别是在拥挤的公共场所。 Meta在隐私政策中呼吁用户尊重他人的隐私,并在录像、直播或拍照时通过手势或语音控制提示他人。然而,现实情况是,不少用户可能不会遵循这些规范。 这次演示敲响了智能眼镜滥用的警钟,但也有一些措施可以保护个人隐私。Nguyen和Ardayfio提供了一些面部搜索和人物搜索数据库的退出方法。然而,完全删除你的网络信息几乎不可能,最多只能降低你的信息的可获得性。
埃隆·马斯克在OpenAI旧总部举办的这场AI派对
这场招募活动表面上看像是旧金山科技初创公司的常规招聘会,现场有免费食物、饮料,甚至还有通过实时编写代码生成的音乐。但现场的安保却显得格外严密:金属探测器、身份检查、保安遍布全场。这是埃隆·马斯克在OpenAI的旧总部举办的一场xAI招聘会。值得注意的是,OpenAI正巧在同一天的另一边举行了年度开发者大会。 活动在晚上8:30进入高潮,马斯克在一群保镖的护送下站上桌子,向在场的工程师们发表演讲,讲述了他创建xAI的初衷。他说xAI的目标是“创建尽可能友善的数字超级智能”,并号召在场的人加入xAI,共同开发这项技术及其应用。 马斯克还预测未来五年内,OpenAI、Anthropic、谷歌和xAI将主导人工智能领域。他还强调了xAI的速度,比较其成长过程就像SR-71“黑鸟”战机一样迅猛。活动的核心目的显然是为xAI的API寻找工程师。 当晚活动结束后,马斯克被火速带离现场,而参与者则带着披萨走入夜幕。就在这个过程中,AI领域的竞争更加激烈,xAI迅速崛起,马斯克也正在调动一切资源,争取在这一赛道上赢得主导地位。 xAI的诞生与快速扩展 xAI在2023年3月启动,最初团队汇集了来自马斯克其他公司的成员,如特斯拉和SpaceX,还包括他17岁的儿子和表亲。xAI的使命非常明确:在短短三个月内开发出足以竞争的语言模型。为了追求速度,xAI依赖外部技术,比如微软的Bing搜索和Meta的Llama模型。 截至2023年底,xAI已经发布了多款模型,虽然这些产品的背后依赖其他公司的技术,但马斯克的目标是尽快推出自家的生成器和更多功能。目前,xAI正在开发语音和搜索功能,未来用户不仅能通过Grok聊天机器人进行对话,还能获取新闻摘要和热门话题的总结。 激烈的AI人才争夺战 在AI领域,马斯克面临着激烈的人才竞争。尽管资金对他来说不是问题,但如何吸引顶尖人才是他目前的挑战。xAI的快速节奏和冒险精神吸引了一部分工程师,他们更愿意在小团队中推进项目,而不是在大公司里经历漫长的研发周期。 对于马斯克而言,打造xAI不仅是为了赚钱,更是为了击败他曾经的合作伙伴——OpenAI。通过这次招聘活动,他向硅谷的工程师们展现了自己的愿景:一个由他掌控并与世界共享的AGI(通用人工智能)。而在这场竞争中,速度和创新将是xAI取胜的关键。
在1万块H100 GPU上训练模型涉及到复杂的硬件架构和并行化策略
在使用1万块H100显卡时,目标是尽可能将网络规模和批处理大小最大化。为此,涉及多个并行化策略: 通过不断优化并行化,确保所有GPU的高效利用,最大化计算资源。 Checkpointing与计算/记忆权衡 为了执行反向传播,需要在前向计算时保存一些中间变量(如save_for_backward)。但当网络足够大时,可以选择释放这些变量,腾出内存以容纳更大的批处理量,并在需要时重新计算。类似于FSDP的技巧,可以将权重分片保存在不同GPU上,节省内存,等需要计算时再从其他GPU获取这些权重。 GPU间的快速通信 在多个GPU之间传输数据时,尽量让通信与计算并行进行。例如,当第N层完成反向传播时,第N-1层的反向传播仍在计算中,这时可以让第N层的GPU们进行梯度的all-reduce操作,从而减少等待时间。 网络拓扑结构的发现与利用 在大规模同步SGD训练中,必须快速传输大量的梯度和优化器状态。这通常涉及多个网络节点,并需要考虑复杂的网络拓扑结构。通过树状的all-reduce算法,可以将通信复杂度降低至log(n),同时尽量减少光纤连接节点间的通信延迟。 NCCL库可以智能发现网络拓扑并优化通信操作,比如all-reduce或scatter/gather。同时,网络设备(如交换机和NIC)的路由算法也需要优化,以实现负载均衡。此外,交换机的HBM内存在处理大规模通信时也非常关键,因为数据包排队时需要足够的缓存空间。 故障恢复 在拥有1万块GPU的环境中,硬件和软件故障几乎是常态。GPU、NIC、网络线缆等可能随时出问题。有些故障可以快速检测到,而有些只能通过延迟判断,比如NCCL的all-reduce操作卡住了。 另外,大规模训练时偶尔会出现内存位翻转导致的数据损坏,进而引发损失爆炸。这种现象在小规模训练中也有,但非常罕见,难以预先通过软件检测。虽然部分硬件具备内置校验功能,但像H100这样的GPU还没有这一特性。 为应对这些故障,建议频繁保存模型状态,并快速从故障中恢复。通常,模型状态会首先保存到CPU内存,然后再异步保存到磁盘或远程存储中。模型状态保存时可以分片处理,不需要每个GPU保存所有权重,而是保存一部分,其他部分可以从其他GPU的检查点中恢复。这样即使某个节点发生故障,恢复时间也会大大缩短。
OpenAI在周四推出了一种与ChatGPT互动的新方式——一种名为“Canvas”的界面
OpenAI在周四推出了一种与ChatGPT互动的新方式——一种名为“Canvas”的界面。这款新产品在常规聊天窗口旁边打开一个独立窗口,为写作和编程项目提供工作空间。用户可以直接在Canvas中生成文本或代码,然后高亮显示部分内容,进行模型编辑。Canvas从周四开始向ChatGPT Plus和Teams用户推出测试版,下周将向企业和教育用户开放。 现在,多个AI厂商都在围绕可编辑工作空间进行布局,将其作为使用生成式AI的实际工具。ChatGPT的新界面提供的功能与Anthropic在今年6月推出的Artifacts,以及备受欢迎的编程助手Cursor类似。OpenAI加快了与竞争对手的步伐,不仅匹配现有功能,还计划推出全新的能力,以吸引更多付费用户。 目前,AI聊天机器人还无法通过单个指令完成大型项目,但它们通常可以提供不错的起点。类似Canvas这样的可编辑工作空间,允许用户修正AI生成内容中的错误,而无需完全重新生成整段代码或文字。 ChatGPT的新可编辑项目窗口让用户能够更自然地与模型协作。OpenAI产品经理Daniel Levine在与TechCrunch的演示中表示,这种方式让人们更直观地使用ChatGPT。 在演示中,Levine需要从ChatGPT的模型选择器中选择“GPT-4 with canvas”,但OpenAI表示,当ChatGPT检测到用户正在处理长文本或复杂的编程任务时,Canvas窗口会自动弹出。用户还可以通过输入“use canvas”来直接打开该项目窗口。 Levine展示了ChatGPT如何通过这些新功能帮助撰写电子邮件。用户可以先让ChatGPT生成一封电子邮件,邮件会在Canvas窗口中弹出。然后,用户可以通过滑动按钮调整文本的长短,或者高亮显示某些句子,要求ChatGPT做出修改,比如“让它听起来更友好”或加入表情符号。用户还可以要求ChatGPT将整个邮件翻译成其他语言。 对于编程项目,Canvas提供了稍微不同的功能。Levine通过指令让ChatGPT生成了一个Python API服务器,生成的代码在Canvas窗口中显示。通过按下“添加注释”按钮,ChatGPT会为代码添加行内文档解释其功能。用户还可以高亮代码的某一部分,让ChatGPT解释其含义或解答相关问题。此外,ChatGPT还推出了“代码审查”按钮,能为用户生成或自写的代码提出修改建议,用户可以选择批准、手动编辑或拒绝。如果用户批准,ChatGPT会尝试自行修复代码中的错误。 一旦Canvas功能脱离测试版,OpenAI计划将其开放给免费用户。
OpenAI在最新的融资轮中成功筹集了66亿美元的资金
过去几周以来的传闻终于尘埃落定,OpenAI在最新的融资轮中成功筹集了66亿美元的资金,使公司估值达到1570亿美元(比之前预期的多出70亿美元)。这次融资不仅使OpenAI估值约为其年收入的40倍,还打破了创投历史的纪录,超越了早前Elon Musk的xAI公司,其今年筹集了60亿美元,但估值仅为240亿美元。 🔑 重点内容: 正如外界所料,投资方包括NVIDIA、软银和微软,但主导这轮融资的是Thrive Capital。Thrive Capital获得了一个特别的交易条款,允许其在2025年以同样的估值再追加10亿美元投资,前提是OpenAI达到预期的收入目标。 这笔资金将帮助OpenAI成为通用人工智能(AGI)领域的领军者,并扩大计算能力。据预测,OpenAI的项目到2029年可能会创造1000亿美元的收入,相当于目前雀巢的年收入。 不过,如果OpenAI在未来两年内未能兑现其转为盈利性企业的承诺(并为CEO Sam Altman分配股权),以及取消投资者回报的上限,投资者有权收回资金。 🤔 为什么值得关注:转型为盈利性公司并取消目前投资回报率上限(现固定为原投资金额的100倍),将使OpenAI在融资方面更加自由。这可能让公司有机会进行更多长期且资本密集型的项目,例如打造自家AI芯片和数据中心,减少对NVIDIA的依赖。同时,通过签署授权协议,OpenAI可以避免法律诉讼风险并获取竞争优势。然而,OpenAI在公司内部还有许多问题需要解决,尤其是如今13位创始成员中仅剩3人还在职,员工对公司发展方向的满意度似乎并不高。
全球首家3D打印酒店
今年早些时候正式公布后,领先的3D打印建筑公司Icon目前正忙于在德州沙漠中建设其雄心勃勃的El Cosmico露营酒店项目。该项目号称是全球首家3D打印酒店,包含露营区、度假屋和共享设施,还将出售一些由知名建筑师设计的永久住宅。 该项目是Icon与知名建筑公司Bjarke Ingels Group(BIG)合作打造的,El Cosmico是对现有的El Cosmico露营酒店的大幅扩展和重新构想,位于马尔法郊外,项目面积超过60英亩(24.3公顷)。 酒店将包括引人注目的弧形和穹顶式度假住宅,其设计灵感来自周围的自然景观,还将设有帐篷区、中央游泳池和公共设施。此外,BIG还设计了一些永久住宅,最多包含四间卧室,拥有广阔的景观视野,这些住宅的售价高达229万美元起。此外,还将为当地社区提供一些经济适用的3D打印住房,其中部分是通过Icon举办的全球设计竞赛选出的。 Icon的3D打印机正在构建El Cosmico的基础结构,之后将由人工施工队完成细节部分。Icon的打印技术也曾用于Wolf Ranch和Wimberly Springs项目,采用其自主研发的Vulcan 3D打印系统。该系统通过人类操作员监督,使用一种类似水泥的专有混合材料Lavacrete,通过喷嘴一层层堆叠构建住宅的基础结构。在打印过程结束后,人工团队将负责安装屋顶、电线、窗户等其他必要设施。 BIG负责人Bjarke Ingels解释道:“我们为新El Cosmico设计的是一次过去与未来的对话。通过挑战Icon 3D打印技术的几何边界,我们设想出流畅、曲线型的建筑结构,这些结构仿佛从空旷的沙漠中自然升起。我们使用当地的沙土和色彩作为打印媒介,圆形建筑仿佛从脚下的土地中生长出来。我们很荣幸能够与El Cosmico的创始人Liz Lambert一起,重新定义沙漠奢华,将其提炼为最纯粹的形式:原始、真实,并与周围环境和谐共生。” 整个El Cosmico扩建项目预计将在2026年完工。
NVLM-D-72B:视觉与文本任务中的全能高手
Nvidia 最近发布了一款强大的开源人工智能模型,挑战了 OpenAI 和谷歌等行业巨头的专有系统。全新推出的 NVLM 1.0 系列大型多模态语言模型,以 NVLM-D-72B 为首,拥有 720 亿参数,展现了卓越的视觉和语言任务处理能力,同时也增强了纯文本任务的表现。https://huggingface.co/nvidia/NVLM-D-72B 研究人员在论文中提到:“我们推出的 NVLM 1.0 系列,作为多模态前沿语言模型,达到了视觉语言任务的最新成果,媲美主流的专有模型(如 GPT-4o)和开放模型。”Nvidia 通过公开模型权重并承诺发布训练代码,打破了将先进 AI 系统封闭的行业惯例。这一举动为研究人员和开发者提供了前所未有的尖端技术访问权限。 在多项视觉与语言任务的基准测试中,NVLM-D 模型与 GPT-4、Claude 3.5 和 Llama 3-V 等 AI 巨头展开了激烈竞争,展现出其出色的性能。NVLM-D-72B 在处理复杂视觉和文本输入时表现出极强的适应性。研究人员展示了模型如何解读表情包、分析图片,并逐步解决数学问题的能力。 特别值得注意的是,NVLM-D-72B 在多模态训练后,纯文本任务的表现不降反升,关键文本基准测试的准确率平均提高了 4.3 个百分点。研究人员强调:“我们的 NVLM-D-1.0-72B 在文本专用的数学和编程测试中,表现显著优于其文本基座。” AI 社群对 Nvidia 的开源举措反应热烈。一位 AI 研究员在社交媒体上表示:“哇!Nvidia 发布了一个 72B 参数的模型,它在数学和编程测试中几乎能与 Llama 3.1 的 405B 模型媲美,还具备视觉能力?”Nvidia 开放如此强大的模型,可能会加速整个 AI 领域的研究与开发,帮助中小型组织和独立研究人员更大程度地推动 AI 进步…
微软推出了全新的 Copilot 体验
在纽约举行的活动上,微软推出了全新的 Copilot 体验,采用卡片式界面,适用于移动端、网页和 Windows 平台。 此次更新的亮点包括Copilot Vision,该功能能够视觉化解释用户环境,还有Copilot Voice,提供四种不同的语音选项进行互动。发现卡片(Discover Cards)会为用户提供个性化的内容推荐,而Copilot Daily 则通过与主流新闻机构合作,提供每日新闻和天气播报,并支持语音朗读。 Copilot 的一大突破是在 Microsoft Edge 中的集成,用户可以无需泄露个人数据的情况下总结网页内容并进行文本翻译。同时,Copilot Labs 推出了实验性功能,包括深入思考(Think Deeper),利用全新的 OpenAI 语言模型 o1,将在多平台上提供。 微软还在创意工具上带来了大幅改进,例如 Paint 和 Photos 应用都将加入生成式填充和生成式擦除功能,用户可以精确添加或移除对象,类似于 Adobe Photoshop 的功能。Photos 应用还会推出超分辨率功能,可在设备上将图像的分辨率提升至原始分辨率的八倍。 通过这次全面升级,微软的 Copilot 和 Windows 生态系统更加灵活、以用户为中心,旨在成为真正的 AI 伴侣。为纪念这一里程碑,AI 领域的 CEO 穆斯塔法·苏莱曼(Mustafa Suleyman)撰写了一篇备忘录,探讨他所谓的“技术范式转变”,即 AI 模型将更深入地理解人类的视觉和听觉体验。