随着人工智能越来越多地融入商业运营和日常生活,公司必须意识到潜在风险并遵守当地法律,否则可能面临严厉的后果,包括法律诉讼和巨额罚款。 虽然跟上风险变化不易,但却是必要的。位于沙特阿拉伯利雅得的公司SAIF CHECK (https://www.saifcheck.ai/)使用Meta Llama 3构建了一个模型评估系统,帮助解决这一挑战。SAIF CHECK与中东和北非地区的客户合作,提供评估、审计和认证服务,帮助公司检查其AI模型在法律、监管、隐私和数据安全方面的风险。 公司的一大工作部分是扫描全球监管环境,然后创建、获取和整理描述这些监管环境的具体文档。SAIF CHECK将这些发现整合到其不断增长的知识库中,涵盖各种监管领域。基于Llama 3的系统能够快速更新综合知识库,使机器代理能够理解客户AI模型的环境及其监管环境。通过使用在大量AI法规语料库上训练的检索增强生成(RAG)框架,该系统支持简便的对话查询,能够对用户的监管问题给出相关答案。 “SAIF CHECK的目标是使模型评估成为一个技术或非技术用户都能完成的对话工作流程,”SAIF CHECK的创始人兼CEO Shaista Hussain博士说,“我们已将Llama 3集成到一个系统中,该系统设计用于保留客户的独特业务背景(运营国家、监管机构),同时从多种来源检索和综合信息。” 保持上下文的幽灵注意力 SAIF CHECK团队首次关注到Llama是在阅读了2023年Llama 2团队发表的论文时。Hussain表示,他们特别感兴趣于Llama团队解决对话AI系统常见问题的方法——这些系统往往在对话过程中会忘记上下文。例如,如果告诉AI模型只用俳句回复,它可能在几次对话后就忘记这个初始指令,除非每次新请求时重复指令。重复指令会占用宝贵的tokens,限制对话的整体长度。 为解决这一问题,Llama团队开发了一种名为幽灵注意力(GAtt)的训练技术,使用人类反馈的强化学习来微调模型的响应,牢记初始指令。结果是,AI模型在多轮对话中更能保持初始指令。 “因为我们的AI模型评估调查在多次运行中进行,我们利用Llama的GAtt机制,帮助控制多轮对话的流程,”Hussain说,“通过这样做,我们的平台可以为用户提供更精确和信息丰富的响应,提高我们服务的输出质量。” 为了定制Llama以适应其用例,SAIF CHECK通过加法微调过程配置了多层。使用Llama 3 Instruct,生成层接收用户的提示和上下文,其输出被输入一个受SAIF CHECK综合知识库中各种监管机构和国家特定监管文档训练的监管分类器。这使得模型能够将提示和上下文分类到特定的国家和监管机构中。 通过伦理对齐建立信心 在了解了用于训练Llama的负责任AI原则后,团队决定使用Llama模型进行文本生成。Meta在蓝队和红队对其Llama模型进行显著努力,这让SAIF CHECK团队有信心Llama模型与他们的优先事项一致。 “使用Llama,我们在核心流程中使用了一个伦理训练和来源的模型,使我们的流程与我们的价值观一致,”Hussain说。 她承认,正确定位文档、查询它们以及生成适合每个人上下文和具体要求的响应仍然是挑战。 “每个机器学习模型都是不同的,每家公司使用其模型的过程也独一无二,”她补充道。 Hussain对团队的“分块”文档内容的方法充满信心,认为这一策略将取得成功。 “我们相信Llama是验证我们关于分块策略假设并监控我们服务响应效果的优秀模型,”她说。 AI与人类合作的未来 Llama的负责任基础和透明性对团队的价值观和他们对AI如何在全球产生影响的看法至关重要。SAIF CHECK认为,AI的真正作用在于补充和增强人类对计算机的使用。 为此,人们需要信任他们使用的AI模型。这种信任是SAIF CHECK的基石——无论是他们自己的AI模型,还是他们为客户验证的模型。 “由于Llama是开源的,我们可以清楚地看到其发展过程,信任其文档,并确信在理解和实施这一模型进入现实世界服务方面,我们不是孤军奋战,”Hussain说。
Author: aitrendtrackers@rengongzhineng.io
Anthropic推出Claude 3.5 Sonnet:AI竞赛中的新锐竞争者
AI军备竞赛持续加速:Anthropic推出了最新型号Claude 3.5 Sonnet,据称在各种任务上可媲美甚至超越OpenAI的GPT-4o或Google的Gemini。这款新型号已在网页和iOS上向Claude用户开放,并且开发者也可以使用。 Claude 3.5 Sonnet将成为系列中的中端型号——Anthropic将其最小型号命名为Haiku,中端型号为Sonnet,最高端型号为Opus。(虽然这些名字有点怪,但每个AI公司似乎都有自己独特的命名方式,所以就不计较了。)公司表示,3.5 Sonnet的表现优于3 Opus,并且其基准测试显示差距相当大。新型号的速度也比之前快了一倍,这可能是更大的亮点。 尽管AI模型的基准测试结果应谨慎对待,因为测试种类繁多,很容易选择对自己有利的结果,而且模型和产品变化如此之快,几乎没有哪家能够长期领先。不过,Claude 3.5 Sonnet看起来确实令人印象深刻:在九项总体基准测试中,有七项超越了GPT-4o、Gemini 1.5 Pro和Meta的Llama 3 400B,在五项视觉基准测试中,有四项胜出。当然,不要过于解读这些数据,但似乎Anthropic确实在这个领域打造了一个有力的竞争者。 新模型能带来哪些实际好处?Anthropic表示,Claude 3.5 Sonnet在编写和翻译代码、多步骤工作流处理、图表解读以及图像文字转录方面会表现更好。这个改进版的Claude在理解幽默和模拟人类写作方面也更胜一筹。 除了新模型,Anthropic还推出了一个名为Artifacts的新功能。通过Artifacts,用户可以查看和互动Claude请求的结果:如果要求模型设计某物,现在可以在应用中看到并直接编辑。如果Claude为用户写了一封邮件,用户可以在Claude应用中编辑邮件,而无需复制到文本编辑器。这是一个小但巧妙的功能——这些AI工具需要超越简单的聊天机器人,而像Artifacts这样的功能正是让应用更有用的方向。 Artifacts实际上是Claude长期愿景的一个信号。Anthropic长期以来表示主要关注企业用户(尽管聘请了Instagram联合创始人Mike Krieger等消费技术人才),并在发布Claude 3.5 Sonnet的新闻稿中表示,计划将Claude打造成一个工具,让公司“安全地集中管理知识、文档和持续工作于一个共享空间”。这听起来更像是Notion或Slack,而不是ChatGPT,Anthropic的模型则是整个系统的核心。 目前,新模型是最大的新闻。这里的改进速度令人惊叹:Anthropic在三月推出Claude 3 Opus时,曾自豪地表示其表现与GPT-4和Gemini 1.0相当,随后OpenAI和Google发布了更好的版本。现在,Anthropic已采取了下一步行动,其竞争对手也很快会有回应。虽然Claude的讨论热度不如Gemini或ChatGPT,但它绝对在竞赛中占有一席之地。
Mistral AI完成6亿欧元B轮融资,估值达60亿美元
Mistral AI完成B轮融资,筹集6亿欧元 Mistral AI近日完成了备受关注的B轮融资,筹集了6亿欧元(约合6.4亿美元),资金来源包括股权和债务。本轮融资由General Catalyst领投。根据TechCrunch此前的报道,本轮融资后,这家初创公司的估值已达到60亿美元。 Mistral AI是一家相对较新的人工智能公司。大约一年前,公司完成了1.12亿美元的种子轮融资,旨在建立一个欧洲的竞争对手,与OpenAI、Anthropic等AI巨头抗衡。 公司由Meta和Google DeepMind的前员工联合创立,致力于开发基础模型,目标是与目前性能最好的模型竞争,如OpenAI的GPT-4、Anthropic的Claude 3和Meta的Llama 3。 Mistral AI还在开源许可下发布了预训练和微调模型,开放了模型权重。例如,Mistral 7B、Mistral 8x7B和Mistral 8x22B在Apache 2.0许可下发布,这是一种除了归属外没有使用或复制限制的开源许可。 Mistral AI最先进的模型,如Mistral Large,是专有模型,设计为API优先的产品。公司的第一个代码生成AI模型Codestral则有更严格的许可,其输出不能用于商业活动。 公司提供的Mistral Large可以通过API使用,用户需按使用量付费。公司还提供一个名为Le Chat的聊天助手,目前免费使用。Mistral AI还与云服务提供商如Microsoft Azure建立了分销合作伙伴关系——微软也是Mistral AI的一个小股东。 Mistral AI的联合创始人兼首席执行官Arthur Mensch在声明中表示:“看到新老投资者重新对我们的业务充满信心并提供新的支持,我感到非常高兴。这轮融资使我们处于一个独特的位置,可以推动AI的前沿发展,并将最先进的技术带到每个人手中。这也保证了公司的持续独立性,仍完全由创始人控制。” 本轮融资的领投方General Catalyst是初创公司的现有投资者。根据《金融时报》的报道,Mistral AI在本轮融资中筹集了4.68亿欧元的股权资金和1.32亿欧元的债务资金(分别约合5亿美元和1.4亿美元)。投资者名单长达数页,包括Lightspeed Venture Partners、Andreessen Horowitz、Nvidia、Samsung Venture Investment Corporation和Salesforce Ventures。 其他投资者还包括Belfius、Bertelsmann Investment、BNP Paribas、Bpifrance(通过其数字风险基金)、思科、Eurazeo、Headline、Hanwha Asset Management的风险基金、IBM、Korelya Capital、Latitude、Millennium New Horizons、Sanabil Investments、ServiceNow和SV Angel。 Mistral AI在过去18个月发布基础模型方面表现令人印象深刻。现在,让我们拭目以待它是否能吸引企业客户,将这些工程成果转化为收入。
AI驱动的“黑匣子”可能使手术更安全
当Teodor Grantcharov第一次坐下来观看自己做手术的视频时,他差点儿把VHS录像带扔出窗外。“我觉得我的表现非常棒,”Grantcharov说,然后停顿了一下,“直到我看到了视频。”回想起25年前那次手术,他记得自己解剖时的粗糙、使用的错误工具以及将30分钟的手术拖延至90分钟的低效操作。“我不想让任何人看到。” 这种反应并不罕见。手术室一直以其神秘性著称——手术室里发生的事情就留在手术室里——因为外科医生 notoriously 拒绝承认自己的错误。Grantcharov开玩笑说,当你问“世界上前三名外科医生是谁?”时,一个典型的外科医生“总是很难确定另外两个人是谁。” 然而,在最初的羞辱过后,Grantcharov开始看到了记录手术的价值。“有许多小细节通常需要多年甚至几十年的实践才能意识到,有些外科医生从未达到那个境界,”他说。“突然间,我一夜之间就看到了所有这些见解和机会。” 然而,这里有一个大问题:那是90年代,花几个小时回放模糊的VHS录像并不是一个现实的质量改进策略。要大规模确定他那些相对平凡的失误发生的频率——更不用说每年导致大约2.2万美国人死亡的更严重的医疗错误了——几乎是不可能的。许多这些错误发生在手术台上,从将手术海绵遗留在患者体内到进行错误的手术。 尽管患者安全运动推动了统一的清单和其他手动防故障措施来防止此类错误,但Grantcharov认为,“只要成功与失败之间的唯一屏障是人类,就会有错误。”提高安全性和手术效率成了他个人的执念。他希望通过开发一个正确的系统来创建和分析记录,使错误难以发生。 经过多年努力,现任斯坦福大学外科教授的Grantcharov相信他终于开发出了实现这一梦想的技术:手术室等效于飞机的黑匣子。它通过全景摄像机、麦克风和麻醉监视器记录手术室中的一切,然后使用人工智能帮助外科医生理解这些数据。 Grantcharov的公司Surgical Safety Technologies并不是唯一一家使用AI来分析手术的公司。许多医疗设备公司已经进入了这个领域,包括Medtronic的Touch Surgery平台、强生的C-SATS以及Intuitive Surgical的Case Insights。 然而,大多数这些技术仅关注患者体内发生的事情,仅捕捉术中视频。Grantcharov希望全面捕捉手术室的情况,从门被打开的次数到手术期间非手术相关的对话数量。“人们简化了手术,仅仅关注技术技能,”他说。“你需要全面研究手术室环境。” 技术的挑战与隐私问题 尽管技术已经就绪,但成功不仅仅是拥有正确的技术。记录一切的想法带来了许多关于隐私的棘手问题,并可能引发纪律处分和法律责任的威胁。由于这些担忧,一些外科医生拒绝在黑匣子设备在场时进行手术,有些系统甚至被破坏。此外,一些医院不知道如何处理这些新数据,或者如何避免淹没在大量统计数据中。 尽管如此,Grantcharov预测他的系统可以为手术室带来与黑匣子为航空业带来的相同变化。1970年,每百万次航班中有6.5次致命事故;今天,这一数字已降至不到0.5次。“航空业通过数据实现了从反应性到前瞻性的转变,”他说,“从安全到超安全。” Grantcharov的黑匣子目前已在美国、加拿大和西欧的近40家机构部署,包括Mount Sinai、Duke和Mayo Clinic等。但这些医院是站在安全新纪元的边缘,还是在制造困惑和恐惧的环境? 消除手术室的秘密 手术室可能是医院里最被测量的地方,但也是最难以捕捉的地方之一。从团队表现到器械处理,有“很多大数据我们甚至没有记录下来,”范德比尔特大学医学中心的伦理学家和头颈外科医生Alexander Langerman说。“相反,我们依赖的是外科医生的事后回忆。” 实际上,当出现问题时,外科医生应在医院的每周发病和死亡会议上回顾病例,但这些错误往往未被报告。即使外科医生在患者的电子病历中输入了所需的笔记,“这无疑是——我这并不是恶意的——为了他们的最佳利益而做的,”Langerman说。“这让他们看起来很不错。” 手术室并不总是如此神秘。 在19世纪,手术经常在大型圆形剧场中进行,是公开的表演,有一般入场费用。腹部外科医生Lawson Tait在描述1860年代的一次手术时回忆道:“连上层画廊的每一个座位都满了,大概有七八百名观众。” 然而,到了20世纪初,手术室变得越来越小,公众——以及其带来的细菌——的接触也减少了。“立即就有一种感觉,觉得少了什么,少了公众的监督。你无法知道在那些小房间里发生了什么,”麦吉尔大学的医学史学家Thomas Schlich说。 而且几乎不可能回头。在1910年代,一位波士顿外科医生Ernest Codman提出了一种称为最终结果系统的监督形式,记录每次手术(包括失败、问题和错误)并追踪患者结果。Schlich说,马萨诸塞州总医院没有接受这一提议,Codman愤而辞职。 这种不透明性是20世纪医学职业化更大转变的一部分,特点是技术进步、全科医生的减少以及医疗机构的官僚化。所有这些都拉开了患者和医生之间的距离。同时,特别是从20世纪60年代起,医疗领域开始出现医疗事故诉讼的增加,这至少部分是由于患者在出问题时试图找到答案。 这种关于透明度的斗争理论上可以通过手术录像来解决。但Grantcharov很快意识到,让外科医生使用黑匣子的唯一方法是让他们感到受保护。为此,他设计了一个系统,可以记录动作,但隐藏患者和工作人员的身份,甚至在30天内删除所有录音。他的想法是,不应惩罚个人的错误。“我们想知道发生了什么,以及如何建立一个使这种情况难以发生的系统,”Grantcharov说。错误并不是因为“外科医生早上醒来想,‘我要制造一些灾难性事件,’”他补充道。“这是一个系统问题。” 全视角的AI Grantcharov的手术室黑匣子实际上不是一个盒子,而是一台平板电脑,一个或两个天花板麦克风和最多四个壁装圆顶摄像机,据报道,每个手术室每天可以分析超过50万个数据点。“三天内,我们的视频处理量相当于整个Netflix目录,”他说。 黑匣子平台利用了多个计算机视觉模型,最终生成一系列短视频剪辑和统计数据仪表盘,如失血量、使用的器械以及发生的声音干扰次数。系统还识别并分解手术的关键环节(如解剖、切除和闭合),这样外科医生不需要观看整个三到四小时的录音,可以跳到手术中出血严重或手术订书机失火的部分。 关键是,录音中的每个人都被匿名化;一个算法会扭曲人们的声音并模糊他们的面孔,将他们变成阴影般的黑白人物。“对于这样的事情,隐私和保密性至关重要,”Grantcharov说,他声称匿名化过程是不可逆的。“即使你知道发生了什么,你也无法真正对个人使用它。” 另一个AI模型负责评估表现。目前,这主要通过衡量对手术安全检查清单的合规性来实现——这个问卷应该在每种手术操作中口头勾选完成。(这个清单长期以来与减少手术感染和总体死亡率相关联。)Grantcharov的团队目前正在努力训练更复杂的算法,以检测腹腔镜手术中的错误,如使用过大的器械力量、错误地持握器械或未能保持手术区域的清晰视野。然而,评估这些表现指标比衡量检查清单的合规性要困难得多。“有些事情是可以量化的,有些事情需要判断,”Grantcharov说。 每个模型的训练过程需要长达六个月,依赖于一支位于多伦多的12名分析员团队进行劳动密集型的过程。虽然许多通用AI模型可以通过标记日常物品(如椅子)的临时工进行训练,但外科手术模型需要由了解他们所见的人的数据注释——无论是外科医生在特定情况下,还是受过适当训练的其他标注员。他们审查了数百,甚至数千小时的手术室视频,手动记录哪种液体是血液,或者哪种工具是手术刀。随着时间的推移,模型可以“学习”自行识别出血或特定器械。 “老大哥在看着你” 纽约长岛犹太医学中心是北岸医疗系统的一部分,是第一个试点手术室黑匣子的医院,始于2019年2月。然而,推出并非一帆风顺,技术并不是唯一的障碍。 “在结直肠手术室,摄像机被破坏了,”北岸泌尿外科主席Louis Kavoussi回忆道——摄像机被故意调转和拔掉。在他自己的手术室里,工作人员在工作时变得沉默,担心说错话。“除非你在上高尔夫或网球课,否则你不希望有人盯着你做的每一件事,”Kavoussi说,他后来加入了Surgical Safety Technologies的科学顾问委员会。 尽管Grantcharov承诺不会使用该系统来惩罚个人,但对一些手术室工作人员来说,这并没有带来太大的安慰。2023年11月,当两台黑匣子设备安装在Faulkner医院时,这使外科部门陷入了危机。“每个人都非常害怕,”一位要求匿名的手术技师说,因为她没有被授权公开讲话。“我们被监视着,觉得如果我们做错了什么,我们的工作就会有危险。” 她并没有做任何非法的事情,也没有发表仇恨言论;她只是想和朋友开玩笑,抱怨老板,并做自己而不必担心管理员在背后窥探。“你非常清楚自己在被监视,这一点都不含糊,”她说。最初的几天尤其具有挑战性,外科医生拒绝在装备有黑匣子的房间里工作,手术室工作人员也抵制这些手术:“每天早上肯定是一场斗争。” 在某种程度上,身份保护只是半措施。在30天录音自动删除之前,Grantcharov承认,医院管理员仍然可以看到手术室编号、手术时间和患者的病历号,因此,即使手术室人员技术上是去标识化的,他们实际上并非真正匿名。结果是,一种“老大哥在看着你”的感觉出现了。Duke大学医院的临床操作副主席Christopher Mantyh说,该医院在七个手术室安装了黑匣子。他将在部门会议上引用汇总数据,讨论质量改进,但当出现具体问题时,如无菌操作的中断或感染群集时,他会查看录音并“直接找外科医生。” 在许多方面,这正是Faulkner医院护士Donovan所担心的。她并不相信医院会保护工作人员的身份,担心这些录音会被用来对付他们——无论是通过内部纪律处分还是在患者的医疗事故诉讼中。2023年2月,她和近60名同事向医院的外科主任发送了一封信,反对黑匣子。此后,她向州政府提交了一份申诉,仲裁程序定于10月进行。 根据2021年Medscape的一项调查,超过75%的外科医生报告称至少被起诉过一次,法律问题尤其显得重要。对普通人来说,任何手术视频“看起来都像是一场恐怖秀,”范德比尔特的Langerman说。“一些原告律师会拿到这些视频,然后一些陪审团会看到一堆血迹,他们不知道自己在看什么。”这种前景将每个录音都变成了潜在的法律争斗。 然而,从纯粹的逻辑角度来看,30天的删除政策可能会使这些录音免受医疗事故诉讼的影响。犹他大学法学教授Teneille Brown指出,在这一时间范围内,患者几乎不可能找到法律代理,通过必要的利益冲突检查,然后提交对黑匣子数据的发现请求。尽管为了绕过司法系统而删除数据可能会引发批评,但Brown认为Surgical…
自然语言处理领域的重大挑战:解码器 Transformer 的局限性
自然语言处理(NLP)领域面临的一个主要挑战是解决解码器 Transformer 模型的局限性。这些模型构成了大型语言模型(LLM)的基础,但存在代表性崩溃和过度压缩等重大问题。代表性崩溃是指不同输入序列产生几乎相同的表示,而过度压缩则导致由于信息的单向流动而对特定标记的敏感性丧失。这些挑战严重阻碍了LLM执行准确计数或复制序列等基本任务,这对AI应用中的各种计算和推理任务至关重要。 目前解决这些挑战的方法包括增加模型复杂性和增强训练数据集。已经探索了使用更高精度的浮点格式和更复杂的位置编码等技术。然而,这些方法计算成本高,通常不适合实时应用。现有的方法还包括使用辅助工具来帮助模型执行特定任务。尽管做出了这些努力,由于解码器 Transformer 架构和常用的低精度浮点格式的固有局限性,代表性崩溃和过度压缩等根本问题仍然存在。 研究者们提出了一种理论信号传播分析方法,以研究解码器 Transformer 内部的信息处理方式。他们关注最后一层中最后一个标记的表示,这对下一个标记的预测至关重要。该方法识别并形式化了代表性崩溃和过度压缩现象。研究表明,代表性崩溃发生在由于低精度浮点计算导致不同输入序列产生几乎相同的表示。通过分析早期标记的信息被不成比例地压缩,从而导致模型敏感性降低来解释过度压缩。这种方法提供了一个新的理论框架来理解这些限制,并提供了简单但有效的解决方案来缓解这些问题。 该方法包括详细的理论分析和实证证据。研究者们使用数学证明和实验数据来展示代表性崩溃和过度压缩现象。他们利用当代LLM验证了他们的发现,并说明低浮点精度如何加剧这些问题。分析包括检查注意力权重、层归一化效应和位置编码衰减。研究者们还讨论了实际影响,如量化和标记化对模型性能的影响,并提出在长序列中添加额外标记作为防止代表性崩溃的实际解决方案。 结果表明,由于代表性崩溃和过度压缩,解码器 Transformer 模型在需要计数和复制序列的任务中表现出显著的性能问题。在当代大型语言模型(LLM)上进行的实验显示,随着序列长度的增加,准确性显著下降,模型难以区分不同的序列。实证证据支持理论分析,表明低精度浮点格式加剧了这些问题,导致下一个标记预测中的频繁错误。重要的是,提出的解决方案,如在序列中引入额外标记和调整浮点精度,得到了实验证明,显著提高了模型在处理长序列时的性能和鲁棒性。这些发现强调了需要解决LLM中的根本架构限制,以提高其在实际应用中的准确性和可靠性。 总之,该论文对解码器 Transformer 模型固有的局限性进行了详细分析,特别关注代表性崩溃和过度压缩问题。通过理论探索和实证验证,作者展示了这些现象如何损害LLM在计数和复制序列等基本任务中的表现。研究确定了低精度浮点格式加剧的关键架构缺陷,并提出了有效的解决方案来缓解这些问题,包括引入额外标记和精度调整。这些干预措施显著提高了模型性能,使其在实际应用中更加可靠和准确。这些发现强调了解决这些根本问题的重要性,以推进LLM在自然语言处理任务中的能力。
Elon Musk威胁禁止苹果设备进入其业务场所,因Siri与ChatGPT集成
在苹果WWDC主题演讲后,苹果确认与OpenAI达成合作,Siri将连接到ChatGPT。对此,Elon Musk威胁将禁止所有苹果设备进入他的业务场所。 Musk说了什么? 在宣布之后,Musk在他的社交平台X上发文,猛烈抨击苹果与ChatGPT的集成,称其为“不可接受的安全漏洞”,并警告说“如果苹果在操作系统级别集成OpenAI”,苹果设备将被禁止进入他的业务场所,访客必须在门口存放他们的苹果设备,这些设备将被放置在法拉第笼中。 Musk为何反对苹果与ChatGPT的集成? 尽管大多数Siri查询将由Apple Intelligence回答,但苹果建立了一种算法,可以自动连接到ChatGPT来回答用户的广泛问题。尽管这看似增强了Siri的功能,Musk认为这侵犯了隐私,因为苹果实际上是将用户数据交给了一个“他们自己不了解也无法创建的第三方”,并猛烈抨击这种行为“不保护隐私”。 “苹果根本不知道一旦他们将你的数据交给OpenAI后实际发生了什么。他们是在出卖你。” Musk的担忧是否有道理:这种集成是否意味着用户隐私的侵犯? 虽然Musk的担忧不无道理——苹果不可能完全了解OpenAI的内部运作——但OpenAI和苹果都确认了该集成包含隐私保护措施,例如请求不会被OpenAI存储,用户的IP地址也会被隐藏。 如果Siri无法回答用户的查询,它将始终询问用户是否同意将问题分享给ChatGPT,并在苹果设备内呈现答案(双方都不会存储用户数据),这样用户可以选择是否分享他们的数据,并遵守OpenAI的数据隐私规则。 这种方法看起来是可行的,这让公众质疑Musk威胁禁止苹果设备进入其业务场所的动机:他是否真的关心用户隐私——即使在苹果和OpenAI确认了严格的数据安全协议后——还是这只是他与OpenAI因其优先考虑商业成功而非人类福祉的持续纷争和诉讼的一部分?
OpenAI宣布与苹果合作并迎来两位高管加盟
周一,OpenAI宣布了两项重要消息:公司聘请了两位高管,并与苹果达成了合作协议,将实现ChatGPT与Siri的集成。 公司表示,前Nextdoor首席执行官兼Square财务主管Sarah Friar将加入OpenAI担任首席财务官。Friar还共同担任斯坦福数字经济实验室的联席主席。OpenAI在博客中写道:“她将领导财务团队,通过持续投资于我们的核心研究能力,确保我们能够满足不断增长的客户需求以及复杂的全球环境。” 此外,OpenAI还聘请了前Planet Labs总裁Kevin Weil担任新的首席产品官。Weil曾任Twitter高级副总裁以及Facebook和Instagram副总裁。Weil的产品团队将专注于“将我们的研究应用于有益于消费者、开发者和企业的产品和服务”,公司在博客中写道。 随着OpenAI的大型语言模型在科技行业的重要性日益增加,以及生成性人工智能市场的快速竞争,公司正在加强其高层管理团队。自2022年末推出ChatGPT以来,OpenAI一直处于高速增长模式,但也因争议不断,许多员工最近选择离职。 今年5月,一群现任和前任OpenAI员工发表了一封公开信,表达了对AI行业快速发展缺乏监管和吹哨人保护的担忧。他们写道:“AI公司有强大的经济动机来避免有效的监督,我们认为定制的公司治理结构不足以改变这一现状。” 周一,OpenAI还宣布了与苹果的新合作伙伴关系。根据该合作协议,ChatGPT将集成到iOS、iPadOS和macOS的更新中,用户将在今年晚些时候体验到这些功能。 OpenAI在另一篇博客文章中表示,此次集成将允许用户在苹果的写作工具功能中访问ChatGPT的能力,如图像和文档理解、文本生成和图像创建功能。“当有需要时,Siri也可以利用ChatGPT的智能,”OpenAI写道。“在任何问题发送给ChatGPT之前,苹果用户会被询问是否同意,并且Siri会直接呈现答案。”
苹果WWDC 2024:引领未来的软件革命
又到了每年这个时候!苹果的全球开发者大会(WWDC)如约而至。WWDC是苹果一年中最重要的发布平台之一,通常会发布设备的新软件更新。 WWDC 2024也不例外。今年的大会可以说是近年来苹果最大、最重要的一次。iOS、iPadOS、watchOS等众多更新让人应接不暇。幸运的是,这里汇总了所有的发布信息。 visionOS 2 对于Apple Vision Pro,苹果推出了visionOS 2。这个新版本在照片处理方面有了提升,通过机器学习可以将旧照片转换为空间照片,只需点击一下,就能让记忆以自然的深度和维度呈现。此外,照片应用本身也进行了优化,改进了组织方式。 SharePlay也有了新的变化,当进行FaceTime通话时,每个人都可以共享和互动空间照片、视频和全景图。如果大家都使用Apple Vision Pro,还能以真实尺寸观看这些内容。 新手势也被加入到visionOS 2中,可以通过手势访问主屏幕,查看日期和时间,控制音量,并检查电池电量。还可以打开控制中心,快速访问通知、Mac虚拟显示等常用功能。 此外,开发者还将获得新的框架和API。 iOS 18 iPhone的主屏幕在iOS 18中得到了很好的更新。现在可以随意放置应用图标,暗模式下图标颜色和阴影也会改变。更棒的是,可以根据心情为应用上色。 控制中心重新设计,可以通过在主屏幕上向下滑动来访问新的控制组,还包括一个新的控制库,提供可定制和易于访问的内容。此外,还有一个新的控制中心API供开发者使用。 隐私更新方面,应用现在可以通过Face ID、密码或Touch ID锁定,防止他人查看敏感信息。 消息应用新增了多个功能,包括增强的Tapbacks,可以使用任何表情或贴纸。还可以定时发送消息,支持文本加粗和下划线格式,并可以使用文本效果自定义消息。 通过卫星发送消息也即将上线,确保用户永远不会与重要联系人失联。这些消息是端到端加密的。 邮件应用现在可以按类别分组,创建每类邮件的摘要,例如所有航班信息可以归类在一起,并可以随时重新分类。 地图应用将新增地形图和徒步路线,可以离线下载。钱包应用引入了Tap to Cash功能,私密地收发款项。活动票务功能也将得到增强,日志应用也将有改进和更先进的搜索功能。 照片应用也会有很好的更新,改进了图片和视频的组织方式。新功能”最大改版”将自动按最近日子、旅行和人宠分类,并提供固定收藏集,快速访问最重要的相册或收藏集。此外,一个新的轮播功能将展示精选内容,每天都有新惊喜。 音频和家居 苹果电视(tvOS 18)也迎来了更新。AirPods可以通过摇头等动作与Siri沟通,无需发声。语音隔离技术将提高通话质量,还有一个个性化空间音频的游戏设置。 Apple TV新增功能包括在观看节目或电影时查看屏幕上的人物信息,甚至识别正在播放的音乐。这些信息也会显示在iPhone上的遥控应用中。 Apple TV还将支持21:9格式,适用于投影仪。屏保更易查找,新增了肖像画廊,还有史努比屏保。语音对话也在tvOS 18中得到了改进。 watchOS 11 Apple Watch的watchOS 11更新引入了新的训练负荷功能,帮助用户了解锻炼强度对身体的影响。可以在活动应用中查看训练负荷。 现在可以更改活动环设置,例如在某些不想锻炼的日子调整设置,依然保持活动环完整。 一个新的Vitals应用即将上线,可以在手腕上一览关键健康指标,变化时会提醒用户。 健康应用的怀孕功能也得到了增强,当在iPhone或iPad的健康应用中输入怀孕信息,周期追踪将显示孕周并监控所有健康图表。 watchOS 11的互动性得到了提升,任务处理更轻松,无需手机。在智能堆栈下,小组件将根据时间、位置等自动变化。 照片表盘也进行了更改,可以使用机器学习找到“完美”的照片,从数千张照片中智能分析并选择最佳构图、框架和图像质量。 iPadOS 18 iPad的新软件更新带来了iOS 18中的功能和一些新特性。首先是一个新的浮动标签栏,可以自定义,旨在让用户更专注于应用。 文档浏览器也进行了更新,使用户更快地返回最近的文档。 动画效果全方面提升。…
生成式人工智能重置:从初期热潮到战略扩展
“是时候对生成式人工智能(生成 AI)进行重置了。随着企业意识到捕捉生成 AI 的巨大潜在价值比预期更困难,2023 年的最初热情和一阵忙碌的活动正在让位于重新思考和重新校准。 2024 年即将成为生成 AI 证明其价值的一年,企业应牢记在数字和 AI 转型中学到的艰难教训:竞争优势来自于建立组织和技术能力,以广泛创新、部署和改进大规模解决方案——实际上,是为了分布式的数字和 AI 创新重新构建业务。 让我们简要看看这对一家太平洋地区的电信公司意味着什么。该公司聘请了一位首席数据和 AI 官,任务是“使组织能够通过数据和 AI 创造价值。”首席数据和 AI 官与业务部门合作,制定了战略愿景并实施了用例的路线图。经过对企业内部领域(即客户旅程或功能)和用例机会的扫描,领导层优先选择了家庭服务/维护领域作为试点,并作为更大一系列举措的一部分进行扩展。他们特别针对开发生成 AI 工具,以帮助调度员和服务操作员更好地预测服务家庭时所需的呼叫类型和零件。 领导层设立了具有共享目标和激励措施的跨职能产品团队来构建生成 AI 工具。作为提升整个企业更好地使用数据和生成 AI 工具技能的一部分,他们还设立了一个数据和 AI 学院,调度员和服务操作员作为培训的一部分报名参加。为了为生成 AI 提供技术和数据基础设施,首席数据和 AI 官还选择了一个大型语言模型(LLM)和能够满足该领域需求并服务于企业其他部分的云提供商。首席数据和 AI 官还监督了数据架构的实施,以便快速且负责任地提供构建生成 AI 工具所需的干净可靠的数据(包括服务历史和库存数据库)。打破生成 AI 机会的关键是公司需要以下列方式重新构建工作方式。 找出生成 AI 助理可以为您提供真正竞争优势的地方围绕生成 AI 的广泛兴奋及其相对易用性导致了组织内一阵实验热潮。然而,这些举措中的大多数不会产生竞争优势。例如,一家银行购买了数万份 GitHub Copilot 许可证,但由于对如何使用该技术没有清晰的认识,进展缓慢。我们经常看到的另一个无重点的努力是公司试图将生成 AI 纳入其客户服务能力。对于大多数公司而言,客户服务是一种商品能力,而不是核心业务的一部分。尽管生成 AI 可能在此类情况下有助于提高生产力,但它不会创造竞争优势。 要创造竞争优势,公司应首先理解成为“接受者”(使用可用工具,通常通过 API 和订阅服务)、“塑造者”(将可用模型与专有数据集成)和“制造者”(构建 LLM)的区别。目前,对于大多数公司而言,制造者方法成本太高,因此企业的最佳选择是在提高生产力的同时实施接受者模式,并构建塑造者应用以获得竞争优势。…
谷歌AI助力软件工程的进展及未来展望
谷歌AI助力软件工程的进展及未来展望 回顾与现状 在2019年,无论是在谷歌还是其他地方,软件工程师们虽然听说过机器学习的进步,特别是深度学习在计算机视觉和语言翻译领域的显著效果,但他们很难想象这些技术会如何在软件开发中产生影响。仅仅五年后的2024年,AI辅助写代码已成为软件工程师中的热门话题,许多人都在使用基于机器学习的自动补全工具,无论是公司内部工具(如谷歌的内部代码补全)还是商业产品。 谷歌在这篇博客中,介绍了内部软件开发工具的最新AI改进,并讨论了未来五年的预期变化。团队负责谷歌工程师大部分时间所用的软件开发环境,包括内循环(如IDE、代码审查、代码搜索)和外循环界面(如缺陷管理、规划)。通过这些改进,直接提升了开发者的生产力和满意度,这是谷歌密切关注的两个指标。 挑战 AI技术发展迅速,预测哪些想法应该首先探索一直是个挑战。技术上可行的演示与成功产品化之间通常存在显著差距。谷歌遵循三条准则来将想法应用于产品: 将LLM应用于软件开发 随着Transformer架构的出现,谷歌开始探索如何将大型语言模型(LLM)应用于软件开发。基于LLM的内联代码补全是AI在软件开发中最受欢迎的应用:使用代码本身作为训练数据是自然的应用方式。用户体验感觉自然,因为单词级自动补全已是IDE多年的核心功能。此外,可以使用一个粗略的影响衡量方法,例如由AI生成的新字符的百分比。因此,这一LLM应用成为首个部署的合理选择。 早期的博客介绍了谷歌如何通过代码补全提升用户体验及其影响测量。从那时起,企业环境中类似的快速增长也得以实现,软件工程师的接受率达到了37%,帮助完成了50%的代码字符。换句话说,现在代码中的字符有一半是由AI辅助完成的,而不是开发者手动输入的。虽然开发者仍需花时间审查建议,但他们有更多时间专注于代码设计。 关键改进 关键改进来自模型(更大的模型具有改进的编码能力,提供给模型的上下文构建的启发式方法,以及基于接受、拒绝和纠正的使用日志调整模型)和用户体验。这一循环对于从实际行为中学习,而不是从合成公式中学习至关重要。 谷歌利用多年来精心整理的跨多个工具的高质量内部软件工程活动日志。这些数据使谷歌能够表示细粒度的代码编辑、构建结果、解决构建问题的编辑、代码复制粘贴操作、修复粘贴代码、代码审查、解决审查问题的编辑以及代码提交到存储库的变更。训练数据是带有特定任务注释的代码对齐语料库。数据收集过程的设计、训练数据的形状以及基于这些数据训练的模型在DIDACT博客中进行了描述。谷歌继续利用这些强大的数据集与更新一代的基础模型进行探索。 下一个重大部署是解决代码审查评论(超过8%现在通过AI辅助完成)和自动适应周围上下文的粘贴代码(现在负责IDE中约2%的代码)。其他部署包括用自然语言指示IDE进行代码编辑和预测构建失败的修复。其他应用,例如预测代码可读性提示,遵循类似模式也是可能的。 学习成果 到目前为止,谷歌的工作教会了几件事: 展望未来 受到迄今成功的鼓舞,谷歌正在加倍努力,将最新的基础模型(Gemini系列)与开发者数据(如上所述的DIDACT的一部分)结合,推动现有和新的ML在谷歌软件工程中的应用。 在整个行业中,基于ML的代码补全为软件开发者提供了重大推动。虽然在代码生成方面仍有改进的机会,但预计下一波收益将来自更广泛的软件工程活动的ML辅助,例如测试、代码理解和代码维护;后者在企业环境中特别重要。这些机会为谷歌的持续工作提供了信息。谷歌还强调了两个行业趋势: 为了扩展上述成功并迈向下一代能力,从事该主题的实践者和研究人员社区将受益于共同基准的帮助,以推动该领域向实际工程任务发展。迄今为止,基准主要集中在代码生成(如HumanEval)。然而,在企业环境中,针对更广泛任务的基准可能特别有价值,例如代码迁移和生产调试。一些基准,例如用于错误解决的基准(如SWEBench),以及针对这些基准的原型(如来自Cognition AI)已经发布。谷歌鼓励社区共同提出更多基准,以涵盖更广泛的软件工程任务。