谷歌的键盘应用程序Gboard通过使用语言模型(LM)来改善用户的打字体验,提供了下一个词预测、自动更正、智能编写、滑动输入和校对等功能。我们的研究人员优先考虑开发负责任的方法,既能提高Gboard的LM性能,又能维护最高的隐私标准。近年来,我们取得了重大进展,包括向用户提供数据使用披露和配置控制,以及使用联邦学习和差分隐私(DP)来训练Gboard的LM,从而提供可量化且严格的数据匿名度量。 Gboard的LM设计为使用预定义的常用词列表,称为词汇表。LM的性能取决于这个词汇表的质量,而词汇表随时间可能会变化。不属于词汇表的词被称为词外词(OOV)。OOV词出现的原因有几个,例如,某些语言的词汇表在Gboard中仍在开发中,所以OOV词的比例可能较高。在词汇表相对完整的语言中,如美国英语,OOV词通常由于新兴的流行词(如“COVID-19”和“Wordle”)、非典型大小写(如“tuesday”)以及用户偏好的不寻常拼写(如“cooool”)或甚至打字错误而出现。由于用户在键盘上输入的信息性质敏感,OOV发现是一项具有挑战性的任务。 今天,我们很高兴分享几种通过发现新的常用词来提高LM性能的方法,同时保持强大的数据最小化和DP保证。这些研究工作包括与语言学家合作揭示新的OOV词,使用隐私保护的联邦分析和其他DP算法,以及使用受信任执行环境(TEE)。 与语言学家的合作 发现OOV词的一种方法是通过与外部方负责任的合作获取经过审查的词汇表。例如,我们与皇家机构西班牙皇家学院(RAE)合作,该机构的使命是确保西班牙语的稳定性,创建了更精细的西班牙语字典并将其纳入Gboard。这使得对在西班牙打字的用户来说,自动更正更快、词汇推荐更好,从而改善了Gboard体验。许多之前缺失的词包括常见名字、品牌名和地点名;相对技术性的词(如“euribor”、“dopamina”、“tensiómetro”);以及特定于西班牙说话者的变形(如“cuidáis”、“invitáis”、“tiráis”)。 我们使用之前的训练数据重新训练我们的西班牙语LM,并通过联邦重新训练下游模型,取得了显著的质量改进。OOV词的总比例下降了7.3%。打字词在初始提交后被修改的频率降低,由于使用了更大的词汇表,打字速度也因此得到提升。 隐私保护的联邦分析另一种改进词汇表的方法是从用户设备中发现频繁的OOV词。这本身是一项具有挑战性的任务,因为用户在其设备上键入的内容性 质敏感。因此,我们需要精心设计机制,在数据收集和处理阶段保护用户的敏感信息。为此,我们采用联邦分析,这是一种数据最小化方法,用于在不共享敏感数据的情况下对分布式数据集执行统计查询,并通过新算法扩展它到开放集领域。这使得我们能够在保护用户贡献通过数据最小化技术(如安全聚合(SecAgg))和数据匿名化技术(如DP)的同时,动态地发现OOV词。 我们开发的一项技术是SecAggIBLT,它结合了可逆的布隆查找表(IBLT)和SecAgg。IBLT是一种线性数据结构,允许高效地插入、删除和查找键值对。在这里,用户将其OOV词插入到初始化为零的IBLT中,然后通过SecAgg进行聚合。这保证了即使是诚实但好奇的服务器,也只能看到聚合的IBLT(所有设备上的所有OOV词及其频率),而不是单个用户的贡献。这种方法为用户贡献提供了匿名性,并阻止服务器将特定词与单个用户联系起来。在数据处理阶段,中心DP应用于发现的OOV词及其计数,以确保对少数个体来说独特的OOV词永远不会被发布。DP使用参数(ε,δ)来量化隐私保护(数值越小,保护越强)。它提供了一个正式保证,即发布的数据模式在设备之间足够普遍,从而防止个体识别。 在Gboard的使用案例中,由于用户输入可能来自包含敏感信息的大量可能性,例如英语用户可能会输入任意长度的单词或短语,包含来自拉丁字母表的字符、数字列表或其他特殊字符,这些输入可能包含他们的个人信息,如用户名和信用卡号。因为SecAggIBLT能够发现这样独特的词,它依赖于服务器在SecAgg之后正确应用中心DP来确保用户隐私。本身它并不阻止好奇的服务器检查发现的OOV词,可能访问敏感信息。这要求我们开发算法,用更强的数据最小化和DP保证来发现频繁的OOV词。 为此,我们在现有的研究基础上开发了LDP-TrieHH,通过迭代构建字典树(前缀树)数据结构来学习频繁的单词。LDP-TrieHH在数据收集过程中提供了强大的数据最小化和严格的本地DP(LDP)保证。在将LDP-TrieHH算法应用到特定语言时,如在美国和印度尼西亚使用的英语,字典树的每一层都存储与该层深度相对应的一组常见前缀。字典树从根部开始迭代构建,最大长度为15。在每一层,我们收集来自一组用户的反馈,他们只通过在上一层学到的常见前缀后指示一个字符来贡献他们的数据。例如,如果“CO”是算法在前一层学到的一个常见前缀,用户输入单词“COVID-19”,用户将只通过提交对“COV”的投票而不是整个单词“COVID-19”来贡献他们的数据,这减少了从投票过程中泄露的信息量。 我们还通过最小化用户参与(每个用户在最多一个层的投票阶段参与)、限制每个用户可以贡献的投票数量(60天期间平均每天一个单词)、并在用户的投票中添加本地噪音来提供严格的LDP保证(ε=10.0每个单词),从而进一步保护用户投票的隐私。为此,我们使用子集选择机制,它在LDP下提供最优的效用-隐私权衡。在每一层,我们从大量用户(每层50万)中收集投票,这些投票经过聚合和阈值处理,以过滤掉不常见的前缀。通过这一额外的数据处理步骤,通过聚合分析隐私放大,LDP-TrieHH提供了每个词的中心DP保证(ε=0.315,δ=1e-10),每个用户在60天内最多贡献60个单词(即平均每天一个单词)。为了提高发现词的覆盖率,我们连续运行LDP-TrieHH多次,构建几个具有不同用户集的字典树。在后续运行中,我们要求用户只贡献尚未从前几次运行中学到的OOV词,以更有效地利用每个用户的贡献预算。通过LDP-TrieHH,我们能够发现占英语和印尼语OOV词的16.8%和17.5%。此报告提供了更多细节。 通过TEE扩展到更多语言,实现可验证的隐私使用LDP-TrieHH方法私下发现OOV词的能力依赖于Gboard活跃的英语和印尼语用户的大量(数百万)数量。然而,对于使用量较小的语言,LDP-TrieHH的准确性将不可避免地较低。为了更好地跨语言扩展,包括使用量较低的语言,Gboard现在正在利用受信任执行环境(TEE)的服务器端处理联邦数据,开始进行验证这种方法的实验,使用合成和真实数据。 TEE是常见处理器的安全扩展,通过嵌入的秘密加密密钥(由硬件制造商签名)来促进工作负载的保密性、完整性和可验证性。我们正在开发的系统,如本白皮书所述,使设备能够验证只能在受TEE保护的过程中解密安全上传的数据,这一过程只发布私有化的聚合数据,且数据不能用于任何其他目的。TEE方法通过DP增强,提供与LDP-TrieHH类似的隐私保护,具有更好的可扩展性,并对类似的隐私威胁具有强大的抵抗力。未来几个月将有更多更新。
惊爆:苹果公司即将与OpenAI达成协议,将ChatGPT引入iPhone
据知情人士透露,苹果公司即将与初创企业OpenAI达成协议,将后者的技术应用于iPhone,这是其将人工智能功能引入设备的广泛举措的一部分。 双方一直在敲定使用ChatGPT功能于苹果iOS 18系统的协议条款,这是下一代iPhone操作系统,上述人士要求匿名,因为此事尚未公开。此外,苹果还与Alphabet Inc.的Google就许可其Gemini聊天机器人进行了谈判。这些讨论尚未达成协议,但仍在进行中。 OpenAI的协议将使苹果能够在计划下月宣布的一系列新AI功能中提供一个受欢迎的聊天机器人。据彭博社4月报道,与OpenAI的讨论已加强。尽管如此,目前还不能保证协议会立即宣布。 苹果、OpenAI和Google的代表均拒绝对此发表评论。 苹果计划在6月举行的年度全球开发者大会上,在人工智能领域大放异彩。据彭博社报道,作为推动力的一部分,该公司将通过配备自家处理器的数据中心运行即将推出的人工智能功能。 去年,苹果首席执行官蒂姆·库克表示,他个人使用了OpenAI的ChatGPT,但他补充说,“还有一些问题需要解决。”他承诺,新的AI功能将在“非常周到的基础上”引入苹果的产品。 在上周的苹果财报电话会议上,他辩称苹果在AI领域将具备优势。 库克在财报电话会议中表示:“我们相信人工智能的变革力量和前景,并且我们相信我们拥有的优势将使我们在这个新时代中脱颖而出,包括苹果独特的无缝硬件、软件和服务整合。”
Google与哈佛大学的科学家团队共同创造了一张人脑中一个极小部分的精细地图
一支由哈佛大学和谷歌的科学家领导的团队创建了一张单个立方毫米人脑的三维纳米级分辨率地图。尽管这张地图只涵盖了整个大脑的极小一部分——整个大脑的体积是它的一百万倍——这一小块包含了大约57,000个细胞、约230毫米的血管和近1.5亿个突触。这是迄今为止创建的人类大脑的最高分辨率图片。 为了制作这样详细的地图,团队必须将组织样本切成5000片,并使用高速电子显微镜进行扫描。然后,他们使用了一个机器学习模型帮助电子地将切片重新拼接在一起并标记特征。仅原始数据集就占用了1.4 petabytes的空间。艾伦脑科学研究所的计算神经科学家Michael Hawrylycz表示:“这可能是神经科学中所有工作中最依赖计算机的。”他指出,其中涉及了大量的工作量。 与现有的许多其他脑图谱相比,大部分提供的是更低分辨率的数据。在纳米级别上,研究者可以一次追踪一个神经元到突触的大脑布线,即它们相连的地方。“要真正理解人类大脑是如何工作的,如何处理信息,如何存储记忆,我们最终需要一张具有那种分辨率的地图,”谷歌的高级研究科学家兼论文的合著者Viren Jain表示。这份数据集及其论文的预印本版本已于2021年发布。 脑图谱有许多种形式。有些揭示了细胞是如何组织的,其他的则涵盖了基因表达。这份专注于细胞之间连接的领域称为“连接组学”。大脑的最外层大约包含160亿个神经元,它们彼此连接形成数万亿的连接。一个单一的神经元可能从数百甚至数千个其他神经元那里接收信息,并发送信息给类似数量的神经元。这使得追踪这些连接成为一个极其复杂的任务,即使只是在大脑的一小块区域中。 为了创建这张地图,团队面临了许多挑战。第一个问题是找到大脑组织样本。大脑在死后很快就会开始恶化,所以尸体组织行不通。团队使用的是在进行旨在帮助控制她癫痫的脑手术中切除的一块组织。 研究者们获得样本后,必须小心地将其保存在树脂中,以便将其切成每片厚度大约为人类头发千分之一的薄片。然后他们使用专为此项目设计的高速电子显微镜对这些切片进行成像。 接下来是计算挑战。“你有所有这些在三维空间中四处穿行、形成各种不同连接的线路,”Jain说。谷歌团队使用了机器学习模型来将切片重新拼接在一起,将每一片与下一片对齐,对线路进行颜色编码,并找到连接。这比听起来要困难。“如果你犯了一个错误,那么与该线路相连的所有连接现在都是错误的,”Jain说。 “能够对任何人类大脑样本进行这样深入的重建是一个重要的进步,”马里兰大学的神经科学家Seth Ament说。这张地图是“我们现在能获得的最接近基础真理的东西。”但他也警告说,这是从一个单一个体取得的单一大脑样本。 这张地图可以在一个名为Neuroglancer的网络平台上免费获取,旨在成为其他研究者用来进行自己发现的资源。“现在任何对以这种详细级别研究人类皮层感兴趣的人都可以亲自深入数据。他们可以校对某些结构以确保一切正确,然后发布他们自己的发现,”Jain说。(预印本已至少被引用了136次。) 团队已经发现了一些意外。例如,一些从一个神经元到另一个神经元传递信号的长触须形成了“漩涡”,在那里它们缠绕在一起。轴突通常形成一个突触来传递信息给下一个细胞。团队识别出单个轴突形成了重复连接——在某些情况下,是50个单独的突触。为什么会这样还不清楚,但强大的联系可能有助于促进对某些刺激的非常快速或强烈的反应,Jain说。“这是关于人类皮层组织的一个非常简单的发现,”他说。但“我们之前不知道这一点,因为我们没有这种分辨率的地图。” 数据集充满了惊喜,哈佛大学的神经科学家Jeff Lichtman,他帮助领导了这项研究。他说:“里面有太多与你在教科书上读到的内容不相符的东西。”研究人员可能没有解释他们所看到的,但他们有很多新的问题:“这就是科学前进的方式。” 看看: Gallery | H01 Release
DeepMind的首席执行官Demis Hassabis表示,未来一到两年内,能够独立完成复杂任务的AI代理将成为现实
谷歌DeepMind的首席执行官Demis Hassabis预计,未来的AI系统不仅能够回答问题,还能独立进行规划和行动。 在接受彭博社采访时,Hassabis表示他的公司正在研发类似“智能代理”的系统,有望在一到两年内投入使用。他说:“我对这些大型通用模型的下一个阶段感到非常兴奋。也许今年或明年,我们将看到更多智能代理般的行为。” 他补充道,这些系统不仅可以回答问题,还能够在现实世界中进行规划和行动。Hassabis认为,设定并实现目标的能力将使这些系统成为更有用的日常工具。 DeepMind在强化学习方面有丰富的经验,曾用在其著名的围棋程序AlphaGo中。他表示:“我们正努力研发,其他公司也在努力。我们将过去在游戏中积累的智能代理系统经验,与现代的大型多模态模型结合起来。” 在2023年6月推出Gemini语言模型之前,Hassabis曾暗示《连线》杂志,强化学习技术或将赋予Gemini特殊的功能。通过借鉴AlphaGo的强化学习和树搜索等技术,未来的Gemini将具有更强的解决问题和规划能力。 他的言论表明,DeepMind正逐步开发更加自主的AI系统。如果成功研发出能够在现实世界中自主解决复杂任务的智能代理,其影响将十分深远。从智能个人助手、自动化机器人到科学与研究中的自学习系统,应用前景广泛。 除了Gemini,DeepMind还在研究RT模型,该模型利用大型AI模型处理图像和语言,使机器人在现实世界中更加灵活。DeepMind将语言模型与代理技术结合的方式类似于OpenAI和Anthropic。OpenAI最近也重新涉足机器人领域,将其视觉语言模型与Figure的机器人相结合。 面对AI模型的巨大能源需求,Hassabis认为投入AI的资源最终将对人类有所回报。“我认为我们在生成式AI模型上的投入将最终为药物开发等领域带来极大益处,远远超过其成本。”他相信在能源和气候等领域,AI也能发挥潜力,例如通过更高效的电网、新材料和技术。它可以极具生产力与效益,最终为可持续发展做出贡献。
埃隆·马斯克的Neuralink脑机接口项目遭遇了挫折,可能是因为设计问题
埃隆·马斯克的初创公司Neuralink在首位参与者、29岁的四肢瘫痪患者诺兰·阿巴夫(Noland Arbaugh)接受大脑植入装置后,经历了一个棘手的问题。 1月28日的手术后,马斯克迅速在X(前身是推特)上宣布阿巴夫“恢复良好”,且“初步结果显示神经元尖峰检测很有希望”。然而,几周后,Neuralink在周三表示,设备开始出现故障。 由马斯克联合创办的Neuralink致力于开发脑机接口,将大脑与外部设备直接连接。它的技术通过读取大脑的运动信号,使瘫痪者仅凭意念就能操控光标或用键盘打字。 不过,Neuralink独特的设计似乎成了设备出现机械问题的原因。公司的植入装置由一个硬币大小的外壳组成,位于头骨中,内含电池、处理芯片和其他电子元件。连接在这个外壳上的64根比人类头发还细的“线”,每根包含16个电极。这些线会延伸到大脑组织中,从神经元群中收集信号。然而,据Neuralink所述,一些线未能保持稳定。 “在手术后的几周内,一些线从大脑中缩回,导致有效电极数量减少。”Neuralink在博客中指出。这使得数据传输速率下降,速率越高,光标的控制效果就越好。 Neuralink没有说明有多少线已脱出,也没有解释为何或如何脱出。但由于大脑在头骨中会自然移动,可能是这种移动导致部分线脱落。 Neuralink与马斯克强调其装置相比更传统的Utah阵列具有优势。后者自上世纪80年代末就用于脑机接口研究。它是一个刚性方块,有96个尖刺,每个尖刺顶端带有电极,用于记录信号。然而,它需要电缆连接外部设备,并非无线。 相较而言,Neuralink的装置是无线的,拥有1024个电极。如果全部保持完好,能从大脑中收集更多数据。 Synchron的技术总监瑞基·班纳吉(Riki Banerjee)表示:“Neuralink设计了一种非常新颖的神经接口。他们还在学习,这是过程的一部分。” 其他公司也从现有设备中汲取灵感,例如Synchron与Paradromics。Paradromics的设计基于Utah阵列,但进行了关键改进:它也是无线的,拥有421个电极位于细线末端。Synchron的装置则类似心脏支架,以中空网状管插入颈静脉,再与皮层接触。 尽管遇到挫折,Neuralink仍于3月20日直播演示了阿巴夫通过意念下棋。他还通过植入装置玩了马里奥赛车。阿巴夫在视频中激动地表示:“这简直太酷了。” Neuralink表示通过调整算法提高信号灵敏度,改进光标移动,弥补了电极的损失。 尽管如此,开发脑机接口的道路注定充满挑战。Neuralink的设备设计独特,在商业化进程中势必会遇到更多坎坷。
AlphaFold 3 可以预测所有生命分子的结构和相互作用
在每个植物、动物和人类细胞内部,都有数十亿个分子机器。它们由蛋白质、DNA 等分子构成,但没有任何单一成分是独立运作的。只有了解这些分子如何在数百万种组合中相互作用,才能真正理解生命的运作过程。 近期发布在《Nature》杂志上的一篇论文中,我们介绍了 AlphaFold 3,这是一种革命性的模型,能够以前所未有的精确度预测所有生命分子的结构和相互作用。在预测蛋白质与其他分子类型的相互作用时,与现有预测方法相比,我们至少提高了 50% 的准确度,而在一些关键的交互类型上,预测准确性翻了一倍。 我们希望 AlphaFold 3 能够帮助我们更深入地了解生物世界并推动药物发现。科学家可以通过我们新推出的 AlphaFold 服务器免费使用其大部分功能,这是一个易于使用的研究工具。为了进一步开发 AlphaFold 3 在药物设计方面的潜力,Isomorphic Labs 正与制药公司合作,将其应用于现实世界的药物设计挑战,最终为患者开发出改变生命的新疗法。 我们新的模型基于 2020 年取得蛋白质结构预测突破的 AlphaFold 2。目前,全球数百万研究人员已利用 AlphaFold 2 在疟疾疫苗、癌症治疗和酶设计等领域取得了新发现。AlphaFold 已被引用超过 2 万次,其科学影响力也通过多项奖项得到了认可,最近还获得了生命科学突破奖。AlphaFold 3 进一步拓展了预测范围,不再局限于蛋白质,而是包含广泛的生物分子类型。这样的进步可能会带来更多科学变革,例如开发可再生材料、更具抗逆性的作物,以及加速药物设计和基因组学研究。 AlphaFold 3 如何揭示生命分子结构 通过一组输入的分子列表,AlphaFold 3 可以生成这些分子的三维结构,展示它们如何组合在一起。它可以对大型生物分子(如蛋白质、DNA 和 RNA)以及被称为配体的小型分子进行建模,配体包含许多药物常用的分子。此外,AlphaFold 3 还能够模拟这些分子的化学修饰,它们调控细胞的健康功能,一旦被扰乱就可能导致疾病。 AlphaFold 3 的强大能力来源于其下一代架构和涵盖所有生命分子的训练。模型的核心是改进版的 Evoformer 模块——这是 AlphaFold 2 能取得非凡成就的深度学习架构。在处理输入数据后,AlphaFold 3 使用扩散网络来组装预测结构,类似于 AI 图像生成器中的扩散过程。该过程从原子云开始,经过多步收敛到最终的、最准确的分子结构。 AlphaFold 3…
微软和领英发布了有关工作中 AI 现状的《2024 年工作趋势指数》报告。
微软与领英于周三发布了《2024 年工作趋势指数》报告,标题为“AI 工作已到来,现在迎接真正的挑战。”这份联合报告基于对 31 个国家的 31,000 人的调查、领英的劳动力和招聘趋势、微软 365 的生产力数据,以及对财富 500 强客户的研究,详细展示了 AI 在过去一年里如何影响全球工作、领导力和招聘方式。微软还宣布了 Microsoft 365 Copilot 的新功能,而领英也为 Premium 用户提供了超过 50 门免费的 AI 学习课程,旨在帮助各级专业人士提升他们的 AI 技能。 2024 年,AI 将真正影响工作: AI 提升标准并打破职业瓶颈: AI 重度用户的崛起: 领英首席执行官 Ryan Roslansky 表示:“AI 正在重新定义工作,显然我们需要新的行动计划。构建灵活性而非稳定性,并在内部投资技能建设的领导者,将为组织带来竞争优势,打造更高效、积极和公平的团队。” 有关更多信息,可以访问微软官方博客、《2024 年工作趋势指数》报告,以及领英首席经济学家 Karin Kimbrough 的进一步见解。 https://www.microsoft.com/en-us/worklab/work-trend-index/ai-at-work-is-here-now-comes-the-hard-part
苹果在最新的 iPad 中推出了“极其强大的 AI 芯片”
苹果公司推出了配备“M4”芯片的新款 iPad,标志着这家硅谷巨头愈加专注于人工智能服务。最新的 iPad Pro 设备于周二发布,距离 10 月推出搭载 M3 芯片的 Mac 设备仅数月之遥。 为了满足 AI 开发者对计算能力的旺盛需求,苹果、英伟达等大型科技公司正加快研发强大的处理器,旨在处理海量数据。在过去的几个月中,微软、亚马逊和谷歌都推出了面向 AI 的新处理器,凸显了芯片设计对全球顶级科技公司的重要性。 苹果平台架构副总裁 Tim Millet 在周二的发布会上赞扬了 M4 芯片的中央处理器、图形处理器和专用 AI 功能(称为“神经引擎”)的结合,相较于之前的芯片取得了重大进步。他表示,这些组件使 M4 成为“AI 领域极其强大的芯片”。 随着 iPhone 销量下滑,投资者敦促苹果推出新的 AI 功能,与微软支持的 OpenAI 和谷歌竞争。自 OpenAI 18 个月前推出革命性 ChatGPT 聊天机器人以来,新 AI 应用程序的激增引发了一场争夺强大处理器的竞赛,以构建所谓的大型语言模型——即能够生成类似人类文本和图像的 AI 系统。 苹果自 2010 年起就为 iPhone 设计基于 Arm 的处理器,并在 2020 年推出了首款用于 Mac 计算机的 M1…
RAFT:引领 Llama 在 RAG 中发展
引言 经过广泛训练的预训练模型(如 Meta Llama 2)可以对各种问题生成有用的回答。然而,许多应用场景要求模型针对特定领域进行专业化,并在生成回答时利用领域特定的信息。 目前有两种方法可以实现: 1. 领域特定的监督微调(DSF): 在一组代表领域知识的文档上对现有基础模型进行训练。 2. 检索增强生成(RAG): 将这些文档存储在向量数据库中,在查询时检索与问题语义相似的文档,并将其内容作为 LLM 生成回答的上下文。 本文将探讨这两种方法的局限性,并介绍加州大学伯克利分校的研究人员 Tianjun Zhang 和 Shishir G. Patil 提出的一种更优方法。他们提出的 RAFT 方法(Retrieval Augmented Fine Tuning,检索增强微调)在论文中详细阐述,展示了如何使用 Meta Llama 2 和 Azure AI Studio 上的 MaaS 进行研究和实施。 伯克利团队还发表了一篇博客文章,详细解释了前述方法的优缺点,以及 RAFT 方法如何实现更高效的结果。其 RAFT 实现已在 GitHub 仓库公开。 了解 RAFT 方法 在传统 RAG 中,当模型接到查询时,它会从索引中检索可能包含答案的文档,并使用这些文档的内容作为生成回答的上下文。 在微调的情况下,模型回答问题类似于学生在闭卷考试中作答;而 RAG 则类似于学生参加开卷考试,有完整的教科书可供查阅。开卷考试比闭卷考试更容易,因此 RAG…
微软 AI 研究团队推出 SIGMA:一个开源研究平台,旨在推动混合现实与人工智能交叉领域的研究与创新
生成式 AI、超大型语言模型、视觉模型和多模态模型的突破,为开放领域知识、推理和生成能力奠定了基础,能够支持开放式任务辅助场景。这不仅包括生成相关指令和内容,还为构建能与人类在现实世界中合作的 AI 系统提供了起点。这类应用包括混合现实任务助手、交互机器人、智能制造工厂、自动驾驶车辆等。 为了与人类无缝合作,AI 系统必须能够在多模态流中持续感知和推理其周围环境。这一要求不仅限于目标检测和追踪。为了实现有效的团队合作,所有参与者都必须了解物体的潜在功能、它们之间的关系、空间限制,以及这些因素随时间的变化。 这些系统不仅需要对物理世界进行推理,还需要理解人类行为。推理中应包括对实时协作行为的认知状态和社会规范的判断,并且还需涵盖对身体姿势、声音和动作的低级判断。 借助混合现实和 AI 技术(如大型语言和视觉模型)的组合,微软研究院推出了 SIGMA。这款互动程序可使用 HoloLens 2 指导用户完成流程任务。任务可以由大型语言模型(如 GPT-4)或任务库中手动定义的阶段动态生成。当用户在互动过程中提出开放式问题时,SIGMA 可以利用其强大的语言模型提供答案。此外,SIGMA 可以利用 Detic 和 SEEM 等视觉模型,在用户视野中定位并突出显示与任务相关的物体。 SIGMA 选择了几种设计方式来实现其研究目标。一个例子是客户端-服务器架构。HoloLens 2 设备运行轻量级客户端应用程序,将多个多模态数据流传输到更强大的桌面服务器。这些数据流包括 RGB(红、绿、蓝)、深度、音频、头部、手部和视线追踪信息。桌面服务器将数据和指令传送给客户端应用程序,以便在设备上显示内容,并执行应用程序的基本功能。通过这种设计,研究人员能够超越头戴设备当前的计算限制,并为将该程序扩展到其他混合现实设备打开了可能性。 SIGMA 的基础是名为 Platform for Situated Intelligence(psi)的开源架构,该架构支持多模态综合性 AI 系统的开发和研究。psi 框架提供高性能流媒体和日志基础设施,并允许快速原型制作。数据重放基础设施使数据驱动的应用级开发和调试成为可能。Platform for Situated Intelligence Studio 提供了丰富的可视化、调试、优化和维护支持。 虽然 SIGMA 目前的功能还不够完善,但它为未来混合现实与人工智能融合的研究奠定了基础。许多研究主题,特别是感知,可以使用收集的数据集进行探索,这些问题包括计算机视觉和语音识别。 SIGMA 是微软对该领域持续投入的一个例子,也是该公司探索新型人工智能和混合现实技术的代表。Dynamics 365 Guides 是微软为一线员工提供的另一款企业级混合现实解决方案。客户可以在 Copilot in Dynamics 365 Guides 中使用私有预览功能,获得逐步操作指导和工作流程相关信息。AI…