OpenAI最近经历了一个艰难的星期。 随着关键安全研究人员的离职、严格保密协议压制前员工发声的报道,以及对新版ChatGPT的强烈反对,该公司一直处于防御状态。 上周,Jan Leike和Ilya Sutskever的戏剧性离职甚至迫使OpenAI领导层,包括CEO Sam Altman,公开声明为他们控制AI风险的努力辩护。 当Vox报道了OpenAI严格的离职协议后,Altman表示这是他“经营OpenAI以来少数几次真正感到尴尬”的时候之一。他补充说,他不知道这些条款被强加给离职员工,并表示公司正在努力修改这些协议。 对于Altman来说,这种承认是罕见的,他一直努力营造一种在OpenAI的持续混乱中相对冷静的形象。去年一次未遂的罢免行动最终增强了这位CEO的声誉,但似乎OpenAI的裂缝再次显现。 安全团队的崩溃 关键从事AI安全工作的员工离职后,OpenAI一直在全面进行危机管理。 上周,负责确保通用人工智能不会失控并危害人类的团队领导者Leike和Sutskever双双辞职。 Leike在辞职后发表了一篇长文,指责前雇主将“闪亮的产品”置于安全之上。他表示,安全团队“在计算资源上挣扎”,而“完成这项关键研究变得越来越困难”。 快速扮演危机管理者角色的Altman分享了Leike的帖子,说:“他说得对,我们还有很多工作要做;我们致力于完成它。” 这些高调的离职事件只是最近离职潮的一部分。 据《The Information》报道,两名安全研究人员Leopold Aschenbrenner和Pavel Izmailov因泄露信息的指控被解雇。 安全与治理研究员Daniel Kokotajlo和William Saunders最近也离开了公司,而政策前沿的研究负责人Cullen O’Keefe在四月离职,据其LinkedIn资料显示。 Kokotajlo告诉Vox,他“逐渐失去了对OpenAI领导层及其负责处理AGI的能力的信任”。 由Leike和Sutskever领导的超级对齐团队去年约有20名成员,现在已经解散。OpenAI的一位代表告诉《The Information》,公司已将剩余员工与其更广泛的研究团队合并,以实现其超级对齐目标。 被沉默的员工 安全团队的崩溃对Altman是一个打击,他一直希望展示自己在开发超级智能AI时是注重安全的。 他去年在Joe Rogan的播客中说:“我们中的许多人非常担心,而且仍然担心安全和对齐问题。关于‘不摧毁人类’的版本,我们有很多工作要做,但我认为我们终于有了更多可能有效的想法。” 一些人认为Leike的指控削弱了Altman在这一问题上的权威,并在更广泛的范围内引起了关注。 负责谷歌DeepMind机械解释团队的Neel Nanda回应了Leike的帖子:“关于OpenAI内部发生的事情,这些故事令人非常担忧。” 星期五,Vox报道说,严格的离职协议实际上让OpenAI员工沉默。 据报道,这些协议包括保密和不贬损条款,如果员工批评前雇主或甚至承认存在保密协议,他们可能会失去已获归属的股权。 Altman在一篇X帖子中回应道:“这是我的责任,这是我经营OpenAI以来少数几次真正感到尴尬的时刻之一;我不知道这件事正在发生,我应该知道。” 他补充说:“过去一个月左右,团队已经在着手修订标准离职文件。” “她”的声音暂停 尽管OpenAI努力控制混乱,但审查似乎并未结束。 周一,公司表示将暂停ChatGPT的“Sky”语音,最近这种语音被比作斯嘉丽·约翰逊的声音。 公司在一篇帖子中表示:“我们认为AI语音不应故意模仿某个名人的独特声音——Sky的声音不是斯嘉丽·约翰逊的模仿,而是属于另一位职业女演员,使用她自己的自然说话声音。” 这种声音是公司GPT-4o演示的重要部分,被广泛比作约翰逊在电影《她》中饰演的虚拟助手角色。Altman甚至在演示中在X上简单地发布了“她”来承认这种相似性。 一些用户抱怨聊天机器人的新语音,称其在网上流传的演示视频中显得过于性感和调情。 似乎对批评置若罔闻,OpenAI在发布后表现出胜利的姿态。通常沉稳的Altman甚至似乎在影射谷歌,后者在次日演示了新AI产品。 Altman在X上写道:“我尽量不去想竞争对手,但我无法停止思考OpenAI和谷歌之间的美学差异”,并附上了竞争对手演示的图片。 OpenAI没有立即回应Business Insider在正常工作时间外的评论请求。
Author: aitrendtrackers@rengongzhineng.io
Elon Musk 的xAI初创公司融资60亿美元,加速AI技术发展
埃隆·马斯克的AI初创公司xAI在最新一轮融资中筹集了60亿美元,正如今天宣布的那样,这标志着马斯克在与OpenAI、微软和Alphabet等竞争对手激烈竞争中巩固资本的一步。 在博客文章中,xAI透露,其B轮融资获得了Valor Equity Partners、Vy Capital、Andreessen Horowitz、红杉资本、富达、阿尔瓦利德王子和Kingdom Holding等投资者的支持。 这笔融资证实了TechCrunch在4月的报道,当时xAI计划以180亿美元的投前估值筹集60亿美元。TechCrunch还报道,马斯克确保他现在拥有并控制的社交网络X也持有xAI的股份,因此将从AI公司的任何收益中受益。 马斯克在推特上证实了18亿美元的投前估值。 马斯克是AI领域最早也是最引人注目的企业家之一。他领导的汽车公司特斯拉是顶级电动车制造商,拥有自动驾驶技术。他还是OpenAI的联合创始人,曾向该公司投资数千万美元。但自那以后,马斯克对OpenAI的热情逐渐冷淡。今年3月,他起诉了OpenAI及其联合创始人Sam Altman,指控他们背离了公司的使命声明,成为了微软的“封闭源码事实上的子公司”。他还指责谷歌在其AI产品中编码偏见。 去年成立xAI后,马斯克于11月发布了其与ChatGPT竞争的Grok 1.0模型。随后,公司通过X上的聊天机器人向每月支付16美元的Premium+用户开放了该模型。今年4月,公司发布了新的Grok 1.5模型,并允许X上的高级用户访问该聊天机器人。此外,马斯克拥有的公司在4月预览了Grok的多模态能力。今年早些时候,公司开源了Grok模型,但没有提供任何训练代码。 xAI计划利用新一轮融资的资金,将其第一批产品推向市场,构建先进的基础设施,并加速未来技术的研发。公司表示,可能会寻找合作伙伴,将Grok引入X之外的用户。 此外,公司新支持者还包括与马斯克关系密切的个人,如PayPal和Founders Fund的联合创始人Ken Howery。xAI声称其目标是开发“真实”的AI系统。然而,与其他AI聊天机器人一样,Grok在X上的新闻摘要功能也被报道存在幻觉并生成误导性信息。
亚马逊云主管马特·加尔曼面临压力,致力于在人工智能领域赶超竞争对手
2023年5月,在亚马逊年度股东大会上,一名与会者向亚马逊CEO安迪·贾西提问,公司在生成式人工智能方面如何进行创新。当时,OpenAI的ChatGPT已经走红,主要科技公司纷纷推出产品以竞争新兴的聊天机器人和图像生成器市场。 贾西回应道,介绍了亚马逊网络服务(AWS),这是他17年前帮助启动的云部门,并最终将其变成了公司的主要利润引擎。他表示,AWS在亚当·塞利普斯基的领导下,正在开发自己的AI产品,并有潜力为其他开发AI服务的公司提供关键基础设施。 “生成式人工智能还处于非常早期的阶段,”继2021年接替杰夫·贝佐斯担任CEO的贾西说道。“它具有很高的潜力,我们在这方面投入了相当多的资源,并期望成为领先者。” 对于接替贾西担任AWS领导的塞利普斯基来说,形势变化迅速。 在贾西执掌期间最重大的变动中,亚马逊上周宣布57岁的塞利普斯基将离开AWS,接替他的是48岁的资深AWS高管马特·加尔曼,他最近负责销售和市场营销。 问题在于,尽管亚马逊向OpenAI竞争对手Anthropic投入了数十亿美元并推出了自己的大型语言模型(LLM),但亚马逊在生成式人工智能方面尚未成为领导者。在开发者和初创公司中,公司面临着落后于云计算竞争对手微软和谷歌以及开发AI工具落后于OpenAI的印象。 在多年快速扩张后,AWS的增长在2023年放缓至13%,低于2021年的37%和2022年的29%,反映了企业在IT和云服务上的支出更加保守。自去年以来,亚马逊已经进行了至少两轮AWS裁员。 AWS仍是云基础设施的领导者,但微软正在迅速缩小差距。根据Canalys的数据,今年第一季度AWS的市场份额从三年前的32%下降到31%,而微软Azure的市场份额从2021年的19%上升到25%。谷歌也在增加份额,目前占据10%的市场份额,较2021年初的7%有所上升。 在过去几个季度,微软引用了对AI工具需求的激增作为其动能的催化剂。 D.A. Davidson分析师吉尔·卢里亚告诉CNBC,亚马逊在生成式AI的热潮中“措手不及”。 “这使得微软Azure能够绕过他们,这本不应该发生,最终塞利普斯基为此付出了代价,”卢里亚说。 加尔曼被选中担任最高职位“表明贾西先生和可能的贝佐斯先生认为他是最有可能帮助亚马逊缩小差距并可能建立自己领先地位的人,”卢里亚说,他建议购买亚马逊股票。 “下一代领导层” 一位接近亚马逊的消息人士告诉CNBC,加尔曼被描述为“战时”领导者,并表示需要变革以在AI领域更加积极进取。 贾西在宣布这一变动的员工备忘录中表示,他和塞利普斯基几年前在讨论角色时同意,塞利普斯基可能会做几年,其中一个重点是帮助准备下一代领导层。 AWS发言人凯西·麦基在一份声明中告诉CNBC,塞利普斯基将云计算部门留在了一个“强劲的位置”。 “过去三年中AWS的增长、创新和盈利能力不言自明,AWS在绝对美元增长方面季度同比增长超过了其他任何云提供商,”麦基说。他表示,AWS在安全性和可靠性以及“我们服务的整体广度和深度”方面处于领先地位。 亚马逊年度股东大会于上周三以虚拟方式举行,正值一个微妙的时刻。大会召开仅几天后,塞利普斯基离职,且被顶级科技公司的AI重点活动所掩盖。 上周,OpenAI推出了GPT-4o,这是一种在文本、视频和音频方面改进的更快模型。谷歌在开发者大会上紧随其后,推出了公司最轻量级和最高效的AI模型。本周,微软宣布推出新电脑,配备先进芯片以运行Windows中的AI功能。 在上周三的问答环节中,贾西被两次问到亚马逊生成式AI的现状。他表示,公司在AWS中的生成式AI领域看到了很多动能,现已成为一个基于年化收入的数十亿美元业务。 他提醒股东,亚马逊拥有Alexa,这是一款在最新的聊天机器人问世之前就已经广受欢迎的消费产品。 “如果你不相信会有一个非常广泛的个人助手,那你就是在掩耳盗铃,”贾西说,并补充道,公司正在构建一个“更加广泛”的AI模型来驱动Alexa。亚马逊此前曾表示,计划使用生成式AI使Alexa更具对话性。CNBC上周三报道称,亚马逊计划为更强大的版本收取订阅费用。 加尔曼于2005年以实习生身份加入亚马逊,并在次年全职受聘,成为AWS的早期产品经理,负责核心计算服务EC2。他一路晋升到2020年的高级副总裁,负责销售、市场营销和全球服务。 2021年,在亚马逊宣布贾西将接替贝佐斯担任CEO后,很多人猜测加尔曼会被任命为AWS的CEO。相反,亚马逊选择了此前在公司工作11年但当时正在运行Salesforce旗下Tableau软件的塞利普斯基。 艰难时期 转型后不久,经济形势对AWS不利。通货膨胀开始迅速上升,导致利率稳步上升,迫使企业进入资本保护模式。到2022年中,亚马逊告诉投资者,公司“准备帮助客户优化成本”以应对他们面临的经济挑战。AWS承认,它正在承受短期收入的打击,以长期维持客户关系。 然后是ChatGPT的问世。OpenAI由微软支持,于2022年11月发布了聊天机器人,并看着它走红。几个月后,微软向OpenAI投入了更多的数十亿美元,并成为其独家云合作伙伴,赋予了亚马逊的主要云计算竞争对手新的竞争优势。 过去一年中,贾西对亚马逊在生成式AI方面的机会充满热情,既提供给广告商和卖家的自动化服务,也提供给AWS内部运行复杂模型和工作负载的技术。 公司还吹嘘AWS的Trainium和Inferentia芯片的成功,Anthropic使用这些芯片来构建和训练其模型,这个过程通常在Nvidia的图形处理单元上进行。 “我不知道我们中是否有任何人看到过像这样的技术可能性,肯定是自云计算以来,也许是自互联网以来,”贾西在4月的公司第一季度财报电话会议上谈到生成式AI时说道。 但实现这一机会被证明是一个重大障碍。 亚马逊计划为Alexa进行AI改造 AWS花了几个月时间才推出一个可以与ChatGPT抗衡的AI模型。公司现在提供自己的LLM以及来自第三方的LLM,包括亚马逊支持的Anthropic的一个模型。 去年,亚马逊发布了Q,这是一款面向企业的聊天机器人。一名使用Q的AWS员工告诉CNBC,聊天机器人的回应感觉平淡无奇,因为它会用并不特别相关或有价值的信息来回答查询。由于未获授权对此事发表讲话,该员工要求匿名。 AWS表示,其Q聊天机器人在包括埃森哲、丰田、GoDaddy和GitLab在内的一系列客户中取得了进展。Bedrock允许用户访问来自亚马逊及其他公司的AI模型,现在拥有成千上万的客户和合作伙伴,公司表示。 在离职前一周,塞利普斯基对Q团队进行了一些调整。他选择了长期亚马逊高管Dilip Kumar负责“Amazon Q业务服务”,根据员工看到的备忘录,Kumar将向AWS的AI和数据副总裁Swami Sivasubramanian汇报工作。 一名前AWS员工说,公司出于安全原因限制了一些员工使用其AI服务,如软件工具SageMaker和数据可视化工具QuickSight进行内部工作。这种做法通常被软件公司用来让员工测试产品和服务中的错误并帮助改进。 AWS表示,所有提供给员工的应用程序都需要经过安全审查,但否认限制员工使用亚马逊的AI工具。 尽管面临所有AI挑战,华尔街仍然继续支持亚马逊,上个月公司报告的第一季度业绩超出预期,营业收入增长超过200%。AWS的销售额增长了17%,较过去几个季度有所加速。 今年亚马逊股票上涨了21%,超过纳斯达克12%的涨幅,在2023年上涨了81%之后,本月初股价创下历史新高。Laffer Tengler Investments的高级投资分析师杰米·迈尔斯表示,他将AWS的领导层过渡视为“自然进展”,并补充道,加尔曼“一直被视为继任者”。“ AWS一直在投资于增长,”迈尔斯说,他表示这种策略在加尔曼的领导下不太可能改变。加尔曼在内部被视为一个高度技术性的人,并且在工程师中很受尊敬。贾西在2020年选择加尔曼领导AWS销售组织时,他正在寻找一位技术领导者和一个“对AWS的各个方面都了如指掌”的人。加尔曼被任命为该角色在内部广泛被视为为他领导AWS做准备的一步。在上周致员工的备忘录中,贾西提到了加尔曼在AWS产品和需求生成方面的背景,并指出他具备“新角色所需的一组异常强大的技能和经验”。“我很高兴看到马特和他出色的AWS领导团队继续发明我们的未来,”贾西说。“AWS仍然处于非常早期的阶段。”
对大脑来说,阅读计算机代码和阅读语言并不相同
学习编程在某些方面类似于学习一门新语言。它需要学习新的符号和术语,并且必须正确组织以指导计算机执行任务。同时,代码还必须足够清晰,以便其他程序员可以阅读和理解它。 尽管有这些相似之处,麻省理工学院的神经科学家发现,阅读计算机代码并不会激活大脑中负责语言处理的区域。相反,它激活了一个分布式网络,称为多需求网络,这个网络也在解决数学问题或填字游戏等复杂认知任务时被调用。 然而,尽管阅读代码激活了多需求网络,但它似乎比数学或逻辑问题更多地依赖于该网络的不同部分,这表明编程的认知需求并不完全等同于数学。 “理解计算机代码似乎是独立的一件事。它不同于语言,也不同于数学和逻辑,”麻省理工学院研究生兼该研究的主要作者Anna Ivanova说。 这篇研究论文的资深作者是弗雷德里克·A和卡罗尔·J·米德尔顿职业发展副教授、麦戈文脑研究所成员Evelina Fedorenko,论文今天发表在《eLife》上。麻省理工学院计算机科学与人工智能实验室和塔夫茨大学的研究人员也参与了这项研究。 语言与认知 Fedorenko的研究重点之一是语言与其他认知功能之间的关系。她特别研究了其他功能是否依赖于大脑的语言网络,包括Broca区和大脑左半球的其他区域。在之前的工作中,她的实验室已经显示音乐和数学似乎并不会激活这个语言网络。 “我们对探索语言与计算机编程之间的关系很感兴趣,部分原因是编程是如此新的发明,我们知道不可能有任何硬连线机制使我们成为优秀的程序员,”Ivanova说。 她提到,关于大脑如何学习编码,有两种观点。一种认为,要成为优秀的程序员,你必须擅长数学。另一种则认为,由于编码和语言之间的相似之处,语言技能可能更为重要。为了阐明这个问题,研究人员着手研究阅读代码时的大脑活动模式是否会与语言相关的大脑活动重叠。 研究人员在这项研究中关注的两种编程语言以其可读性著称——Python和专为5岁及以上儿童设计的可视化编程语言ScratchJr。研究对象都是熟练掌握测试语言的年轻成年人。当程序员躺在功能性磁共振成像(fMRI)扫描仪中时,研究人员向他们展示了代码片段,并要求他们预测代码将产生的操作。 研究人员发现,语言区域对代码几乎没有反应。相反,他们发现编码任务主要激活了所谓的多需求网络。这个网络的活动分布在大脑的额叶和顶叶,通常被用于需要同时记住许多信息的任务,并负责我们执行各种心理任务的能力。 “它几乎处理任何认知挑战,让你费脑筋的事情,”Ivanova说。 以前的研究表明,数学和逻辑问题似乎主要依赖于左半球的多需求区域,而涉及空间导航的任务则更多激活右半球。与塔夫茨大学儿童研究和人类发展教授Marina Bers合作,麻省理工学院团队发现,阅读计算机代码似乎激活了多需求网络的左右两侧,ScratchJr则略微更多地激活了右侧。 经验的影响 研究人员表示,尽管他们没有发现任何专门用于编程的区域,但这种专门化的脑活动可能会在有更多编码经验的人身上发展出来。 “如果你找来那些职业程序员,他们在特定语言上已经编程了30或40年,你可能会开始看到一些专门化,或者多需求系统的一些部分固定化,”Fedorenko说。“在那些熟悉编码并能高效完成这些任务但经验相对有限的人身上,似乎还没有看到任何专门化。” 在同一期《eLife》上发表的另一篇论文中,约翰·霍普金斯大学的研究团队也报告说,解决代码问题激活了多需求网络,而不是语言区域。 这些发现表明,编程应该被作为数学技能还是语言技能来教授并没有明确的答案。部分原因是学习编程可能同时涉及语言和多需求系统,即使在学会之后,编程并不依赖语言区域,研究人员说。 “两个阵营都有各自的说法——必须与数学一起,必须与语言一起,”Ivanova说。“但看起来计算机科学教育者将不得不开发自己的方法来最有效地教授编程。” 这项研究由国家科学基金会、麻省理工学院脑与认知科学系和麦戈文脑研究所资助。
苹果公司赌它庞大的用户基础能助其在AI领域胜出
尽管苹果公司首批现代AI功能的表现可能不如竞争对手,但该公司认为其庞大的用户基础能为其带来优势。同时,Sonos推出期待已久的耳机;Humane试图出售自己;苹果则任命了一位新的多元化负责人。 上周在Power On专栏中:苹果需要在人工智能时代进行变革以保持竞争力。 开场白 观看Mark Gurman在彭博电视台上谈论苹果的AI野心。在下个月的苹果公司开发者大会上,该公司将推出一种不同的人工智能方法,专注于普通消费者日常生活中能用到的工具。这个理念是吸引用户的实用一面,而将一些更炫酷的功能留给其他公司。 苹果面临一个挑战性的局面。它需要说服消费者和投资者相信自己在人工智能领域有令人兴奋的进展。但该公司是在微软、谷歌和OpenAI发布重大AI公告之后才跟进的,光芒已经被他们抢走了。 苹果准备在全球开发者大会上花费大量时间介绍其与AI相关的功能。新战略的核心是Project Greymatter——一套将集成到Safari、Photos和Notes等核心应用中的AI工具。推动还包括操作系统功能,比如增强通知。 系统的工作原理如下:对于计算要求较低的AI功能,大部分处理将在设备上进行。但如果功能需要更多计算能力,则会将工作推送到云端。 苹果将这些新的AI功能引入iOS 18和macOS 15——两个操作系统都包含了判断任务应在设备上还是通过云端处理的软件。大部分设备上的功能将由最近一两年发布的iPhone、iPad和Mac芯片支持。与此同时,云组件将由位于数据中心的M2 Ultra芯片提供动力,正如我之前报道的那样。 今年计划推出的几项新功能,包括转录语音备忘录、使用AI润色照片、加快和提高Spotlight搜索的可靠性。它们还将改进Safari网页搜索,并自动建议电子邮件和短信的回复。 Siri个人助理也将获得升级,基于苹果自己的大型语言模型,实现更自然的互动——这是一种生成式AI的核心技术。还有一个更先进的Siri将来到Apple Watch,用于处理随时随地的任务。开发者工具,包括Xcode,也将获得AI增强功能。 一个突出的功能将把生成式AI带入表情符号。公司正在开发可以根据用户的文本即时创建自定义表情符号的软件。这意味着你会突然拥有适用于任何场合的新表情符号,超越苹果目前在iPhone和其他设备上提供的选项目录。 另一个有趣的改进(与AI无关)将是重新设计的iPhone主屏幕。它将允许用户更改应用图标的颜色并随意放置它们。例如,你可以将所有社交应用图标变成蓝色或财务相关的图标变成绿色——它们不需要放置在自2007年起就存在的标准网格中。 努力的一大部分是创建智能摘要。该技术将能够为用户提供错过的通知和个人短信的摘要,以及网页、新闻文章、文档、笔记和其他形式的媒体的摘要。 当然,苹果在进行这些工作的同时,还必须向消费者保证其对隐私的承诺依然强烈。公司多年来一直宣传设备处理数据的好处,以及如何更好地保护数据安全。它甚至批评竞争对手没有采用相同的方法。现在,它必须论证其云端AI功能在发送可能敏感信息到数据中心时仍能保持隐私。 为了解释这种转变,公司可能会强调它并没有建立客户档案——这一点是谷歌和Meta平台公司受到批评的原因。苹果还可能吹捧用于进行云处理的M系列芯片的安全功能。这可能不足以赢得隐私倡导者的支持,但我认为大多数消费者不会太在意。 现在,许多这些功能将是纯粹的追赶。这并不是一种超越。谷歌在其Pixel设备上已经拥有了许多相同的AI功能好几年了。三星电子今年明智地放弃了开发自己的主要AI功能,转而依赖谷歌的Gemini。 苹果也没有设计自己的聊天机器人,至少目前没有。这意味着该公司不会在人工智能最热门的领域竞争:这是一个在OpenAI于2022年底发布ChatGPT后火热起来的市场。 尽管苹果的一些高管在理念上反对自有聊天机器人的想法,但无法回避的是需要一个。而苹果自己开发的版本显然还不够好。 解决方案是:合作。在这方面,该公司已经与谷歌和OpenAI就将其聊天机器人集成到iOS 18中进行过讨论。在3月份,似乎苹果和谷歌接近达成协议,双方都认为在全球开发者大会之前可以敲定一些东西。但最终,苹果更早与OpenAI首席执行官Sam Altman达成了协议,这一合作将成为全球开发者大会宣布的一部分。 这个安排有点混合利弊。一方面,苹果承认自己无法在AI最热门的领域竞争。但与OpenAI的合作使其拥有了最先进的聊天机器人——并且可能在使用Gemini的三星设备上取得优势。 另一方面,OpenAI也带有风险。Altman在AI界越来越具争议性,甚至在上周与Scarlett Johansson的争执之前就是如此。OpenAI的公司结构也很不稳定。Altman去年短暂被解职,给员工和其主要支持者微软带来了危机。 换句话说,苹果不太可能对OpenAI作为iOS一个主要新功能的单一供应商感到非常舒适。这就是为什么它仍在努力与谷歌达成协议,以提供Gemini作为一个选项,但不要指望这会在6月份的大会上展示。 如果苹果欢迎其他聊天机器人制造商,它可能会逐个案例处理。尽管公司通常会向所有第三方开发者开放功能,但预计在这里会谨慎行事并敲定个别安排。无论如何,这些合作将帮助苹果赢得一些时间,直到其自己的机器人准备好。 关键问题是,苹果在这里是否真的落后。公司有一个少数竞争对手能匹敌的优势:其庞大的用户基础。 当这些AI功能今年晚些时候推出时,全球将有数亿台支持这些功能的苹果设备。这些设备的拥有者可能至少会尝试这些新功能(技术可能集成得足够紧密,人们甚至不会注意到自己在使用它们)。这可能会让苹果一夜之间成为最大的AI玩家。 但即便如此,仍有迹象表明公司的AI计划还在进展中。苹果正在考虑将这些功能作为预览(至少在开发者测试版本中,而不是在9月正式发布前),这表明技术尚未完全成熟。 这将是一个不吉利的举动,尤其是考虑到苹果的历史。Siri在2011年作为测试版推出,考虑到它在与竞争对手的竞争中挣扎,或许至今仍感觉像一个测试版。 替补队员Sonos的449美元耳机超过了苹果老化的AirPods Max。早在2019年,我就首次写到了Sonos计划进军耳机市场。当时,公司准备进入市场,并希望通过使耳机与其其他产品紧密配合并连接到Wi-Fi来从竞争对手中脱颖而出。五年后,经过几次延迟和变更,Sonos Ace耳机终于正式发布。 它们具备现代耳机的所有常见功能,包括主动降噪。但也有一些新的亮点,比如与Sonos Arc音响条的Wi-Fi同步功能。通过这一功能,用户可以使用Arc作为中介访问电视上的内容。耳机还采用人造皮耳罩,据那些试用过的人说,音质明显优于AirPods Max。 在像耳机这样的成熟市场中,Sonos能否赢得消费者的青睐?这很难说,但公司可以宣传其价格(比AirPods Max便宜100美元)以及Ace更好的舒适度和重量平衡。还有一些现代元素,比如USB-C充电。 我预计AirPods Max今年晚些时候将获得USB-C端口,但不要指望会有任何主要的新功能。换句话说,Ace有真正的机会取得成功。 名册变动苹果自2017年以来任命了第四位多元化和包容性负责人。美国银行的老将Cynthia Bowman将成为苹果的新任多元化负责人——这项工作近年来一直是一个旋转门。目前的多元化和包容性副总裁Barbara Whye将于今年晚些时候退休。她在2021年初担任此职务,来自英特尔。她将继续留任,帮助将职责转交给Bowman,后者将向首席人力资源官Carol Surface汇报。 显然,这项工作对首席执行官Tim Cook来说非常重要,但在这个岗位上保持足够长的时间来建立业绩记录仍然是一个挑战。Whye的前任Christie Smith在任职几年后离职。而最早担任此职务的人Denise Young-Smith在任职不到一年后就因发表关于多样性的争议言论而离职。
高效的大型语言模型适应方法:提升基础性的解决方案
谷歌的AI搜索工具建议用户“吃石头”对健康有益,这一搞笑的回答引发了众人哗然。为了提高LLMs(大型语言模型)的可靠性,我们推出了AGREE,一种基于学习的框架,旨在使LLMs能够在回答中提供准确的引用,从而提高用户的信任度。 近年来,LLMs在多跳推理、生成计划和使用工具和API等各种能力上展示了显著进步,显示出在许多下游应用中的巨大潜力。然而,在现实世界中部署时,LLMs的可靠性有时会因“幻觉”问题而受损,即模型生成了看似合理但实际上并不准确的信息。当LLMs被要求回答涉及广泛世界知识的开放性问题时,“幻觉”问题更为常见,这在需要高度准确性的领域,如新闻报道和教育内容中尤其具有风险。 为了应对LLMs的“幻觉”问题,基础性研究致力于追溯其声明到可靠的来源。这样的系统不仅能提供连贯且有用的回答,还能通过引用外部知识来支持其声明。 在我们即将在NAACL 2024上展示的论文“提升基础性的大型语言模型适应方法”中,我们介绍了一个新的LLM基础性框架,称为AGREE(Adaptation for GRounding EnhancEment),它使LLMs能够自我基础化其回答中的声明,并提供精确的引用,增强用户信任并扩展其潜在应用。在五个数据集上的全面实验表明,AGREE比以前的基于提示或事后引用的方法在基础性方面有显著提升,通常能实现超过30%的相对改进。 改进基础性的整体方法 以前改善基础性的研究主要遵循两种显著的范式。一种是使用额外的自然语言推理(NLI)模型事后添加引用,这种方法严重依赖于LLM嵌入中的知识,无法很好地扩展到超出该范围的事实。另一种常见的基础性方法是利用LLMs的指令跟随和上下文学习能力。这种方法要求LLMs仅通过少量演示提示来学习基础性,实际效果并不理想。 我们的新框架AGREE采用整体方法,结合基于学习的适应和测试时适应(TTA),以改善LLMs的基础性和引用生成。不同于以前的基于提示的方法,AGREE对LLMs进行微调,使其能够自我基础化其回答中的声明并提供准确的引用。这种在预训练LLMs之上进行的微调需要良好的基础性回答(带有引用),为此我们引入了一种方法,可以从未标记的查询中自动构建这样的数据。经过微调的LLMs的自我基础化能力进一步赋予了它们TTA能力,能够迭代地改进其回答。 微调LLMs以实现自我基础化 在训练期间,AGREE从未标记的查询中收集合成数据,然后使用这些数据微调基础LLM,使其能够自我基础化其声明。针对一个未标记的查询,我们首先使用检索模型从可靠来源(如维基百科)检索相关段落。然后,我们向基础LLM呈现检索到的段落并采样一组初始回答(不带引用)。接下来,我们使用一个NLI模型(在我们的例子中,是Google TrueNLI模型的变体),来判断一个声明是否由段落支持,帮助为初始回答添加引用。对于初始回答中的每个句子,我们使用NLI模型找到可以支持该句子的段落,并相应地添加引用。对于没有支持段落的句子,我们不会添加引用。 测试时适应 在测试时,AGREE引入了一种迭代推理策略,使LLM能够根据其自我生成的引用主动寻找更多信息。针对一个查询,我们首先使用检索模型获取初始段落集。然后,我们迭代执行以下步骤:1)在每次迭代中,适应后的LLM生成包含对段落集引用的回答,并找到没有引用的任何不支持声明。2)接着,我们根据引用信息主动向LLM提供更多信息——如果存在不支持声明,我们会使用这些声明检索更多可靠来源的信息,否则,我们会包括使用查询检索到的更多未见段落,以获取更完整的信息。 实验 我们进行了全面的实验,展示AGREE在有无TTA情况下的有效性。我们在五个数据集上对其进行了评估,包括两个域内数据集(NQ和StrategyQA)和三个域外数据集(ASQA、QAMPARI和一个内部QA数据集“Enterprise”)以测试我们框架的泛化能力。我们将AGREE应用于适应两个LLMs,并将其与一个竞争性的基于提示的基线(ICLCite)和一个事后引用的基线(PostCite)进行比较。 主要实验结果 实验结果表明AGREE在文本语料库中生成的回答具有更好的基础性(通过引用召回率衡量),并为其回答提供了准确的引用(通过引用精确度衡量)。它在各个数据集上都显著优于所选择的基线。 AGREE不仅在域内数据集上表现出色,在域外数据集上的零样本设定下也能有效泛化,这表明我们的框架具有显著的泛化优势。
谷歌的AI搜索工具建议用户“吃石头”对健康有益
Google最新的AI搜索工具闹笑话了,竟然建议用户吃石头有益健康,还要把奶酪用胶水粘到披萨上。这些搞笑的回答让人哭笑不得,也让人质疑谷歌把这样一个实验性的功能直接嵌入核心产品的决定。 事情是这样的,《金融时报》问了谷歌AI一个问题,它回答说:“吃对的石头对健康有好处,因为石头里含有对身体健康重要的矿物质。”显然,谷歌的AI是误读了一篇《洋葱新闻》2021年4月的讽刺文章《地质学家建议每天至少吃一块小石头》。另一个搞笑的回答是建议在披萨酱里混入胶水,以增加“粘性”,防止奶酪滑落,这可能是基于11年前Reddit上的一个玩笑。 更严重的是,当被问及“美国有多少位穆斯林总统”时,AI回答说:“美国有一位穆斯林总统,巴拉克·侯赛因·奥巴马。”这显然是一个错误的回答,是一些政治对手关于前总统宗教信仰的谣言。 谷歌对此表示:“绝大多数的AI概览提供了高质量的信息,并带有深入挖掘的链接。我们看到的许多错误示例都是不常见的查询,也有一些示例是被篡改过的,或者是我们无法重现的。” 谷歌还强调:“我们在推出这一新体验前进行了广泛测试,正如我们在搜索中推出的其他功能一样,我们非常重视反馈。我们会根据内容政策适时采取迅速行动,并利用这些示例来改进我们的系统,其中一些改进已经开始推出。” 这些AI生成答案中的错误,归因于其技术基础中的“幻觉”或虚构现象。像谷歌的Gemini和OpenAI的ChatGPT这样的模型,是通过预测最可能的下一句话来工作,这基于它们所训练的数据。 尽管包括OpenAI、Meta和谷歌在内的生成式AI模型开发公司声称其最新版本的AI软件已减少了虚构现象的发生,但这些问题在消费者和商业应用中仍然令人担忧。 对于谷歌来说,其搜索平台因链接到原始来源而被数十亿用户信赖,“幻觉”问题尤为致命。谷歌母公司Alphabet的绝大部分收入来源于搜索及其相关广告业务。 近几个月来,谷歌CEO桑达尔·皮查伊面临内外部压力,要求加快发布新的面向消费者的生成式AI功能,因为谷歌被批评在这方面落后于竞争对手,尤其是拥有与微软130亿美元合作伙伴关系的OpenAI。 在本月的谷歌年度开发者大会上,皮查伊阐述了公司的新AI中心战略。谷歌在许多常见搜索结果顶部为数百万美国用户推出了Gemini生成的简短答案概览,标语是“让谷歌为你搜索”和“减轻搜索的负担”。 这些概览的初期问题,令人联想到今年2月对其Gemini聊天机器人的强烈反应,该机器人在其图像生成工具中创造了历史上不准确的不同种族和性别的描绘,如将女性和有色人种描绘成维京国王或二战时期的德国士兵。 谷歌对此道歉并暂停了Gemini模型的人物图像生成功能,至今未恢复。 皮查伊曾谈到谷歌在追赶竞争对手与保持道德规范以及作为被广泛依赖的搜索引擎之间的困境。上个月在斯坦福大学的一次活动中,他说:“人们在重要时刻来搜索,比如三个月大的孩子的药物剂量,所以我们必须做到正确……信任是难以赢得但易于失去的。” “当我们出错时,人们会告诉我们,消费者的要求最高……这是我们的北极星,我们的创新都围绕这一点展开,”皮查伊补充道。“这帮助我们改进产品并做到正确。”
人工智能为犯罪地下世界带来了巨大的生产力提升
某安全公司的资深威胁研究员表示,生成型人工智能提供了一套新的强大工具,使恶意行为者能够比以往任何时候都更高效地在国际上开展活动。 他说,大多数罪犯并不是“生活在某个黑暗的巢穴中策划事情”。“他们中的大多数是进行常规活动的普通人,这些活动需要生产力。” 去年,WormGPT 的兴起和衰落引起了广泛关注。这是一种基于开源模型并经过恶意软件相关数据训练的人工智能语言模型,旨在帮助黑客且没有任何道德规则或限制。但在去年夏天,它的创建者在吸引媒体关注后宣布关闭该模型。自那以后,网络犯罪分子大多停止了开发自己的人工智能模型,转而使用现有工具进行可靠的操作。 他解释说,这是因为罪犯追求轻松生活和快速收益。任何新技术若要值得采用的未知风险——例如更高的被捕风险,它必须比他们目前使用的工具带来更高的回报。 以下是罪犯现在使用人工智能的五种方式。 网络钓鱼目前,生成型人工智能在罪犯中最大的用例是网络钓鱼,即试图诱使人们泄露可用于恶意目的的敏感信息。一位人工智能安全研究员表示,研究人员发现,ChatGPT 的兴起伴随着网络钓鱼邮件数量的激增。 垃圾邮件生成服务,如 GoMail Pro,已经将 ChatGPT 集成其中,这使得犯罪用户能够翻译或改进发送给受害者的信息。安全专家说,OpenAI 的政策限制人们将其产品用于非法活动,但实际上很难监管,因为许多看似无辜的提示也可能被用于恶意目的。 OpenAI 表示,他们使用人类审查员和自动化系统的混合方法来识别和打击对其模型的滥用行为,并在用户违反公司政策时发出警告、临时停用和禁止使用。 OpenAI 的一位发言人告诉我们:“我们非常重视产品的安全性,并根据人们使用我们产品的方式不断改进我们的安全措施。”他补充说:“我们不断努力使我们的模型更安全,更强大,以防止滥用和越狱,同时保持模型的有用性和任务性能。” 在一份二月的报告中,OpenAI 表示他们关闭了五个与国家有关的恶意行为者相关的账户。 安全专家说,以前所谓的尼日利亚王子骗局,即有人承诺受害者一大笔钱以换取少量的预付款,相对容易被发现,因为信息中的英语笨拙且充满语法错误。语言模型使诈骗者能够生成听起来像是由母语者编写的信息。 他说:“说英语的人以前相对安全,因为你可以发现他们的信息。”而现在情况不再如此。 由于更好的人工智能翻译,世界各地的不同犯罪团伙也能够更好地交流。他表示,风险在于他们可能协调跨国的大规模行动,针对其他国家的受害者。 深度伪造音频骗局生成型人工智能使得深度伪造的发展迈出了重要一步,合成图像、视频和音频看起来和听起来比以往任何时候都更逼真。这一点没有被犯罪地下世界忽视。 今年早些时候,据报道,一名香港员工被骗走了2500万美元,犯罪分子使用公司首席财务官的深度伪造音频骗取了这名员工的信任,将钱转到了骗子的账户。“我们终于在地下市场看到了深度伪造技术的出现。”他说。他的团队发现有人在像Telegram这样的平台上展示他们的“作品集”,并以每张图像10美元或每分钟视频500美元的价格出售他们的服务。最受犯罪分子欢迎的深度伪造对象之一是某知名企业家。 虽然深度伪造视频仍然很复杂且人们更容易识别,但音频深度伪造并非如此。它们制作成本低廉,只需几秒钟的某人声音——例如从社交媒体上获取——就能生成令人信服的伪造音频。 在美国,有一些高调案例,人们接到亲人的恐慌电话,声称他们被绑架并要求支付赎金,结果发现打电话的是使用深度伪造音频录音的骗子。 他说:“人们需要意识到现在这些事情是可能的,人们需要意识到现在尼日利亚国王不再说破碎的英语。”他补充道:“人们可以用另一种声音给你打电话,并且可以让你陷入非常紧张的境地。” 他说,人们有一些方法可以保护自己。他建议亲人之间商定一个定期更改的秘密安全词,以帮助确认对方的身份。 “我给我奶奶设了密码。”他说。 绕过身份验证犯罪分子使用深度伪造的另一种方式是绕过“了解你的客户”验证系统。银行和加密货币交易所使用这些系统来验证他们的客户是真实的人。他们要求新用户拍摄自己手持物理身份证件的照片。但犯罪分子已经开始在像Telegram这样的平台上出售允许人们绕过这一要求的应用程序。 这些应用程序通过提供假冒或被盗的身份证,并将深度伪造图像覆盖在真实人的脸上,以欺骗Android手机摄像头上的验证系统。安全专家发现有人为加密货币网站提供这些服务,价格低至70美元。 他说,“它们仍然相对基础。”他们使用的技术类似于Instagram滤镜,将别人的脸替换成自己的脸。 “我们可以预期将来[犯罪分子]会使用实际的深度伪造……这样你就可以进行更复杂的身份验证。”他说。 越狱即服务如果你问大多数人工智能系统如何制造炸弹,你不会得到有用的回答。 这是因为人工智能公司已经设置了各种安全措施,以防止他们的模型输出有害或危险的信息。网络犯罪分子没有构建自己没有这些安全措施的人工智能模型,而是转向了一种新趋势:越狱即服务。 大多数模型都有使用规则。越狱允许用户操纵人工智能系统生成违反这些政策的输出——例如,编写勒索软件代码或生成可用于诈骗邮件的文本。 EscapeGPT 和 BlackhatGPT 等服务提供对语言模型 API 的匿名访问和频繁更新的越狱提示。为了应对这一不断增长的地下产业,OpenAI 和 Google 等人工智能公司经常需要堵塞可能允许其模型被滥用的安全漏洞。 这些越狱服务使用不同的技巧突破安全机制,例如提出假设性问题或用外语提问。人工智能公司与试图防止其模型失控的恶意行为者之间存在一场不断的猫捉老鼠游戏,后者不断提出越来越有创意的越狱提示。 这些服务正击中罪犯的痛点,他说。 “跟上越狱的步伐是一项繁琐的活动。你提出一个新的提示,然后你需要测试它,然后它会工作几周,然后 OpenAI 更新他们的模型。”他补充道。“越狱是对犯罪分子非常有吸引力的服务。” 人肉搜索和监控人工智能语言模型不仅是网络钓鱼的完美工具,也是人肉搜索(在网上披露某人的私人信息)的完美工具。他说,这是因为人工智能语言模型是通过大量互联网数据(包括个人数据)进行训练的,并且可以推断出某人可能的位置。 例如,你可以让一个聊天机器人假装成有经验的私人调查员,然后让它分析受害者写的文字,从这些文字中的小线索推断出个人信息——例如,根据他们上高中的时间推断他们的年龄,或者根据他们通勤时提到的地标推断他们住在哪里。互联网上的信息越多,他们就越容易被识别。 他是一个研究团队的成员,该团队去年发现大型语言模型(如 GPT-4、Llama…
Meta发布Chameleon模型预览,挑战多模态AI前沿
随着生成式AI领域的竞争转向多模态模型,Meta推出了一款名为Chameleon的新模型家族,以回应前沿实验室发布的各类模型。Chameleon被设计为原生多模态模型,而非将不同模态组件拼凑在一起。 虽然Meta尚未发布这些模型,但据报告显示,Chameleon在图像描述和视觉问答(VQA)等任务中表现出色,同时在纯文本任务中也具竞争力。 早期融合多模态模型 目前,创建多模态基础模型的流行方式是将为不同模态训练的模型拼凑在一起。这种方法称为“后期融合”,即AI系统接收不同的模态,用单独的模型编码它们,然后融合编码进行推理。尽管后期融合效果不错,但它限制了模型跨模态整合信息和生成交错图像与文本序列的能力。 Chameleon采用了“早期融合基于token的混合模态”架构,这意味着它从一开始就设计为从交错的图像、文本、代码和其他模态中学习。Chameleon将图像转换为离散的token,就像语言模型处理单词一样。它还使用了由文本、代码和图像token组成的统一词汇表,使得能够对包含图像和文本token的序列应用相同的transformer架构。 据研究人员介绍,与Chameleon最相似的模型是谷歌的Gemini,它也采用了早期融合token的方法。然而,Gemini在生成阶段使用了单独的图像解码器,而Chameleon则是一个端到端模型,既处理又生成token。 “Chameleon的统一token空间使其能够无缝推理并生成交错的图像和文本序列,无需模态特定的组件,”研究人员写道。 Chameleon的架构和训练 尽管早期融合非常有吸引力,但在训练和扩展模型时会面临重大挑战。为了克服这些挑战,研究人员采用了一系列的架构修改和训练技术。在论文中,他们分享了不同实验的细节及其对模型的影响。 Chameleon的训练分两个阶段进行,数据集包含4.4万亿个文本、图像-文本对以及交错的文本和图像序列。研究人员在超过500万小时的Nvidia A100 80GB GPU上训练了一个7-billion和一个34-billion参数版本的Chameleon。 Chameleon的表现 根据论文中报告的实验,Chameleon能够执行多种纯文本和多模态任务。在视觉问答(VQA)和图像描述基准测试中,Chameleon-34B达到了最先进的性能,超越了Flamingo、IDEFICS和Llava-1.5等模型。 研究人员表示,Chameleon在预训练和微调模型评估中,以更少的上下文训练示例和更小的模型尺寸达到了其他模型的性能。 多模态的一个折衷是单模态请求中的性能下降。例如,视觉-语言模型在纯文本提示上的性能往往较低。但Chameleon在纯文本基准测试中仍具竞争力,在常识推理和阅读理解任务中与Mixtral 8x7B和Gemini-Pro等模型相匹敌。 有趣的是,Chameleon能够为混合模态推理和生成解锁新能力,特别是在提示预期混合模态响应时。实验显示,用户总体上更喜欢Chameleon生成的多模态文档。 上周,OpenAI和谷歌都发布了提供丰富多模态体验的新模型。然而,他们并未发布有关模型的详细信息。如果Meta继续按照其策略发布Chameleon的权重,它可能成为私人模型的开放替代方案。 早期融合还可以为更高级的模型研究开辟新方向,特别是随着更多模态的加入。例如,机器人初创公司已经在实验将语言模型整合到机器人控制系统中。早期融合如何改进机器人基础模型也将是一个有趣的研究方向。 “Chameleon代表了实现能够灵活推理并生成多模态内容的统一基础模型愿景的重大一步,”研究人员写道。
微软疯了吗——键盘售价高达$450,还带AI按键
在微软活动中,除了推出新的AI功能和Surface设备外,公司还宣布了一款新的Surface Pro Flex无线键盘,该键盘兼容Surface Pro 8、9、10和11型号。这款官方称为“Surface Pro Flex Keyboard with Slim Pen”的无线键盘售价449.98美元,然而并不包括微软的Surface Slim Pen 2,只在键盘顶部设计了一个用于充电的凹槽。那么,既然没有笔,这款键盘究竟有什么功能呢? 据微软介绍,这款键盘在分离状态下可以连续打字长达41小时,配有一个专门的Copilot键和一个带有振动功能的触控板,用于提供触觉反馈。触控板可以感应不同的压力水平,应用程序可以利用这一功能来开发不同的操作。 这款键盘设计轻薄,尺寸为289x221x5.25毫米,重量为340克。专用的Copilot键可以召唤AI助手,并提供微软为Windows 11集成的全部功能,这些功能已为AI进行了全面改造。键盘材料选择了Alcantara聚酯混纺,尽管维护起来可能比较困难。键盘有黑色和亮蓝色两种颜色,将于6月18日上市。 有趣的是,考虑到这款名为“Surface Pro Flex Keyboard with Slim Pen”的键盘售价高达449.98美元,令人好奇为什么微软不将Surface Slim Pen 2与键盘捆绑销售,尤其是这款键盘专门为无线充电笔设计了一个凹槽。