欧盟委员会周一表示,苹果应用商店的规则非法压制竞争,这使得美国巨头苹果公司与这个强大贸易集团之间的多年来的争斗升级。此前,苹果公司曾威胁因担心反垄断法规会迫使其在隐私和安全功能上做出妥协,而拒绝推出其备受期待的Apple Intelligence AI产品。 欧盟委员会作为欧盟的执行机构,同时也是其技术和竞争监管机构,指出苹果应用商店的政策似乎违反了该集团旨在促进技术行业竞争并保护小型企业免受大平台压制的《数字市场法》规则。 这一初步调查结果是在该集团于三月份发起的调查后得出的,声称应用商店的规则不允许开发者自由地引导客户使用苹果生态系统外的替代支付方式或内容。 委员会还表示,苹果向开发者收取的费用“超出了合理报酬所需的范围”。 这些调查结果已发送给苹果公司,公司有一年时间进行辩护,最终裁决将在2025年3月25日前做出。 欧盟反垄断负责人玛格丽特·维斯塔格在一份声明中表示,“开发者社区和消费者迫切希望提供应用商店的替代方案”,并补充说该集团将努力“确保苹果不破坏这些努力”。 苹果公司在一月份宣布对应用商店进行变更以遵守《数字市场法》,允许开发者引导客户使用苹果生态系统外的支付选项。苹果公司对福布斯表示,公司“相信我们的计划符合法律规定,并估计超过99%的开发者将在我们新制定的商业条款下支付与此前相同或更少的费用。” 欧盟声称,苹果的政策阻止开发者直接与用户互动或推广优惠。维斯塔格表示,这种能力被称为引导,“对确保应用开发者减少对‘守门人’应用商店的依赖和消费者意识到更好的优惠至关重要。”监管机构认为,反引导措施阻碍了小型企业在大型平台(如应用商店)内的竞争能力。这一初步调查结果增加了苹果在全球范围内日益增多的反垄断问题。该科技巨头的数字商店还在日本、英国以及特别是在美国面临审查,在美国,它正与《堡垒之夜》制造商Epic Games进行一场旷日持久的法律战。美国还因苹果公司涉嫌在智能手机市场上维持非法垄断而起诉了该公司。六月,苹果公司表示将因《数字市场法》的合规问题而拒绝向欧盟设备推出最新的AI更新,加剧了与监管机构的紧张关系。公司未解释这些功能(包括与ChatGPT制造商OpenAI的合作和屏幕共享)如何违反该集团的规则,从外部看也无法立即看出明显的冲突。 尽管欧盟已对Meta、X和TikTok等公司可能违反《数字市场法》进行了调查,但周一的通知是布鲁塞尔首次认定某家公司违反了这部具有里程碑意义的技术法案。违规行为将面临严厉的经济处罚,如果在最终裁决中被判有罪,苹果将面临高达其全球年收入10%的罚款,对于重复违规者,罚款可高达20%。根据不同的规定,欧盟在三月份对苹果公司处以超过18亿欧元(约合19亿美元)的罚款,原因是其“滥用在通过应用商店向iPhone和iPad用户分发音乐流媒体应用市场中的主导地位。” 3830亿美元。这是苹果公司去年报告的收入。根据《数字市场法》,初次违规的最高罚款为10%,即383亿美元。 “苹果的新口号应该是‘与众不同’,”欧盟内部市场专员蒂埃里·布雷顿表示。“我们有理由相信,应用商店不允许应用开发者自由与其用户沟通的规则违反了《数字市场法》,”他补充道,集团“决心”利用法规下的强大工具“最终为创新者和消费者开辟真正的机会。”
Google DeepMind发布V2A技术:突破性视听同步创作新纪元
声音是丰富人类体验、增强沟通和为媒体增添情感深度不可或缺的要素。尽管AI在多个领域取得了显著进展,但要在视频生成模型中加入如人类创作般复杂和细腻的声音依然具有挑战性。为这些无声视频制作配乐是使生成影片更逼真的重要一步。 Google DeepMind推出了视频转音频(V2A)技术 (https://deepmind.google/discover/blog/generating-audio-for-video/),实现同步视听创作。通过结合视频像素和自然语言指令,V2A为屏幕上的动作创建沉浸式音频。团队尝试了自回归和扩散方法,发现扩散方法在生成同步音视频方面的效果最为逼真和现实。 V2A技术的第一步是压缩输入视频。通过扩散模型,音频被反复清理以去除背景噪音。视觉输入和自然语言提示引导这一过程,生成符合指令的真实同步音频。音频输出过程的最后一步包括解码、生成波形并将音频与视觉数据合并。 在反复将视频和音频提示输入扩散模型之前,V2A会对它们进行编码。接下来是创建压缩音频并将其解码为波形。研究人员通过增加信息,如对话转录和AI生成的详尽声音描述注释,来补充训练过程,提高模型生成高质量音频的能力,并训练其制作特定声音。 该技术通过训练视频、音频和附加注释,学会响应转录或注释中的信息,通过将不同的音频事件与不同的视觉场景关联来生成合适的声音。V2A技术可以与视频生成模型如Veo配对,为镜头添加戏剧性配乐、真实音效或符合视频角色和基调的对话。 V2A技术能够为经典视频,如无声电影和档案片段,创建配乐,开启了创意可能性的世界。最令人兴奋的是,它可以根据用户需求为任何视频输入生成无限多的音轨。用户可以定义“正向提示”以引导输出所需声音,或“负向提示”以避免不想要的噪音。这种灵活性赋予用户对V2A音频输出前所未有的控制权,激发实验精神,帮助他们快速找到与创意愿景完美匹配的声音。 团队致力于持续研究和开发以解决一系列问题。他们意识到音频输出的质量依赖于视频输入,视频中超出模型训练分布的失真或伪影会导致明显的音频劣化。他们正在改进配音视频的唇同步。通过分析输入的转录内容,V2A旨在创造与角色口型完美同步的语音。团队也注意到,当视频模型与转录内容不一致时,会出现怪异的唇同步现象,他们正在积极解决这些问题,展示了他们对保持高标准和不断改进技术的承诺。 团队积极寻求知名创作者和电影制作人的意见,认识到他们对V2A技术发展的宝贵见解和贡献。这种合作方式确保了V2A技术能够积极影响创意社区,满足他们的需求并提升他们的作品。为了进一步保护AI生成内容不被滥用,他们在V2A研究中整合了SynthID工具箱,并对所有内容进行了水印处理,展示了他们对技术伦理使用的承诺。
Delphi-2M:基于病史预测未来健康的改进GPT架构
人工智能在利用大量健康记录预测疾病进展,从而实现个性化医疗方面具有巨大潜力。理解由生活方式、遗传和社会经济因素影响的多病共存现象,对于量身定制的医疗保健和预防措施至关重要。尽管现有的预测算法可以针对特定疾病进行预测,但在预测多种疾病方面仍存在空白。最近的进展,如受大规模语言模型启发的Transformer模型,有望通过对健康数据中的复杂时间依赖性进行建模来克服这些挑战。然而,这些模型在多病共病预测中的全部潜力尚未得到充分探索。 来自各个机构的研究人员开发了Delphi-2M,这是一种基于GPT架构的高级AI模型,用于预测大规模人群的疾病进展。基于来自40万名英国生物银行参与者的数据,Delphi-2M通过分析过去的健康记录、人口统计数据和生活方式因素,预测超过1000种疾病和死亡。它为个人生成详细的未来健康轨迹,并提供疾病簇及其时间依赖影响的洞察。经过对190万丹麦记录的验证,未进行参数更改的Delphi-2M准确地建模了人群健康,并揭示了过去事件如何影响未来健康结果,使其成为个性化医疗预测的有力工具。 Delphi-2M模型准确预测了1000多种疾病的发病率,与观察到的年龄和性别趋势高度一致。它在验证队列中有效地模拟了不同的疾病模式,如儿童期水痘高峰和其他疾病的年龄相关上升。Delphi-2M的预测随着新数据的不断更新,显示出像败血症这样疾病的显著个体差异。其AUC平均为0.8,表现与如Framingham心血管疾病等成熟的风险模型相当。Delphi-2M通过与英国生物银行数据的校准和纵向验证,确认了其在预测短期和长期疾病轨迹方面的可靠性,提供了全面的多病预测。 像Delphi-2M这样的生成模型可以基于过去的病史预测未来的疾病轨迹。在对10万条来自英国生物银行的采样轨迹进行评估时,Delphi-2M准确地反映了70岁以下的疾病发病率和发生率。其在第一年的平均准确率为17%,在20年内下降到14%,超越了基本的年龄-性别模型。它能够区分高风险和低风险群体,有效预测二十年内的疾病负担。此外,Delphi-2M生成的合成轨迹不会重复训练数据,具有实际应用价值,如训练新模型,从而保护数据隐私并拓展潜在应用。 Delphi,作为一个经过改进的GPT-2模型,旨在通过分析顶级ICD-10诊断序列,辅以性别、BMI、吸烟和饮酒等生活方式数据,预测健康轨迹。使用英国生物银行的训练数据和丹麦健康记录进行的外部验证。Delphi用连续的基于年龄的编码取代了GPT-2的离散位置编码,并引入了一个额外的头来预测事件之间的时间。这使得Delphi能够准确地建模健康事件的时间和顺序,在预测疾病发作和进展方面超越了标准GPT模型。 Delphi-2M,作为基于GPT-2的模型,通过学习40万名英国生物银行参与者的1000多种疾病的健康数据模式,预测多种疾病的进展。它在预测疾病轨迹和估计长期疾病负担方面表现出色。在丹麦健康数据上测试时,它在不进行进一步训练的情况下证明了其适应性。虽然有效,但它继承了训练数据中的偏见,使用时需谨慎。Delphi-2M的灵活架构允许未来整合基因组学和可穿戴设备等额外健康数据,使其成为医疗规划、个性化医疗和理解复杂疾病交互的有前途的工具。
AI风险管理新利器:SAIF CHECK利用Meta Llama 3保障合规与安全
随着人工智能越来越多地融入商业运营和日常生活,公司必须意识到潜在风险并遵守当地法律,否则可能面临严厉的后果,包括法律诉讼和巨额罚款。 虽然跟上风险变化不易,但却是必要的。位于沙特阿拉伯利雅得的公司SAIF CHECK (https://www.saifcheck.ai/)使用Meta Llama 3构建了一个模型评估系统,帮助解决这一挑战。SAIF CHECK与中东和北非地区的客户合作,提供评估、审计和认证服务,帮助公司检查其AI模型在法律、监管、隐私和数据安全方面的风险。 公司的一大工作部分是扫描全球监管环境,然后创建、获取和整理描述这些监管环境的具体文档。SAIF CHECK将这些发现整合到其不断增长的知识库中,涵盖各种监管领域。基于Llama 3的系统能够快速更新综合知识库,使机器代理能够理解客户AI模型的环境及其监管环境。通过使用在大量AI法规语料库上训练的检索增强生成(RAG)框架,该系统支持简便的对话查询,能够对用户的监管问题给出相关答案。 “SAIF CHECK的目标是使模型评估成为一个技术或非技术用户都能完成的对话工作流程,”SAIF CHECK的创始人兼CEO Shaista Hussain博士说,“我们已将Llama 3集成到一个系统中,该系统设计用于保留客户的独特业务背景(运营国家、监管机构),同时从多种来源检索和综合信息。” 保持上下文的幽灵注意力 SAIF CHECK团队首次关注到Llama是在阅读了2023年Llama 2团队发表的论文时。Hussain表示,他们特别感兴趣于Llama团队解决对话AI系统常见问题的方法——这些系统往往在对话过程中会忘记上下文。例如,如果告诉AI模型只用俳句回复,它可能在几次对话后就忘记这个初始指令,除非每次新请求时重复指令。重复指令会占用宝贵的tokens,限制对话的整体长度。 为解决这一问题,Llama团队开发了一种名为幽灵注意力(GAtt)的训练技术,使用人类反馈的强化学习来微调模型的响应,牢记初始指令。结果是,AI模型在多轮对话中更能保持初始指令。 “因为我们的AI模型评估调查在多次运行中进行,我们利用Llama的GAtt机制,帮助控制多轮对话的流程,”Hussain说,“通过这样做,我们的平台可以为用户提供更精确和信息丰富的响应,提高我们服务的输出质量。” 为了定制Llama以适应其用例,SAIF CHECK通过加法微调过程配置了多层。使用Llama 3 Instruct,生成层接收用户的提示和上下文,其输出被输入一个受SAIF CHECK综合知识库中各种监管机构和国家特定监管文档训练的监管分类器。这使得模型能够将提示和上下文分类到特定的国家和监管机构中。 通过伦理对齐建立信心 在了解了用于训练Llama的负责任AI原则后,团队决定使用Llama模型进行文本生成。Meta在蓝队和红队对其Llama模型进行显著努力,这让SAIF CHECK团队有信心Llama模型与他们的优先事项一致。 “使用Llama,我们在核心流程中使用了一个伦理训练和来源的模型,使我们的流程与我们的价值观一致,”Hussain说。 她承认,正确定位文档、查询它们以及生成适合每个人上下文和具体要求的响应仍然是挑战。 “每个机器学习模型都是不同的,每家公司使用其模型的过程也独一无二,”她补充道。 Hussain对团队的“分块”文档内容的方法充满信心,认为这一策略将取得成功。 “我们相信Llama是验证我们关于分块策略假设并监控我们服务响应效果的优秀模型,”她说。 AI与人类合作的未来 Llama的负责任基础和透明性对团队的价值观和他们对AI如何在全球产生影响的看法至关重要。SAIF CHECK认为,AI的真正作用在于补充和增强人类对计算机的使用。 为此,人们需要信任他们使用的AI模型。这种信任是SAIF CHECK的基石——无论是他们自己的AI模型,还是他们为客户验证的模型。 “由于Llama是开源的,我们可以清楚地看到其发展过程,信任其文档,并确信在理解和实施这一模型进入现实世界服务方面,我们不是孤军奋战,”Hussain说。
Anthropic推出Claude 3.5 Sonnet:AI竞赛中的新锐竞争者
AI军备竞赛持续加速:Anthropic推出了最新型号Claude 3.5 Sonnet,据称在各种任务上可媲美甚至超越OpenAI的GPT-4o或Google的Gemini。这款新型号已在网页和iOS上向Claude用户开放,并且开发者也可以使用。 Claude 3.5 Sonnet将成为系列中的中端型号——Anthropic将其最小型号命名为Haiku,中端型号为Sonnet,最高端型号为Opus。(虽然这些名字有点怪,但每个AI公司似乎都有自己独特的命名方式,所以就不计较了。)公司表示,3.5 Sonnet的表现优于3 Opus,并且其基准测试显示差距相当大。新型号的速度也比之前快了一倍,这可能是更大的亮点。 尽管AI模型的基准测试结果应谨慎对待,因为测试种类繁多,很容易选择对自己有利的结果,而且模型和产品变化如此之快,几乎没有哪家能够长期领先。不过,Claude 3.5 Sonnet看起来确实令人印象深刻:在九项总体基准测试中,有七项超越了GPT-4o、Gemini 1.5 Pro和Meta的Llama 3 400B,在五项视觉基准测试中,有四项胜出。当然,不要过于解读这些数据,但似乎Anthropic确实在这个领域打造了一个有力的竞争者。 新模型能带来哪些实际好处?Anthropic表示,Claude 3.5 Sonnet在编写和翻译代码、多步骤工作流处理、图表解读以及图像文字转录方面会表现更好。这个改进版的Claude在理解幽默和模拟人类写作方面也更胜一筹。 除了新模型,Anthropic还推出了一个名为Artifacts的新功能。通过Artifacts,用户可以查看和互动Claude请求的结果:如果要求模型设计某物,现在可以在应用中看到并直接编辑。如果Claude为用户写了一封邮件,用户可以在Claude应用中编辑邮件,而无需复制到文本编辑器。这是一个小但巧妙的功能——这些AI工具需要超越简单的聊天机器人,而像Artifacts这样的功能正是让应用更有用的方向。 Artifacts实际上是Claude长期愿景的一个信号。Anthropic长期以来表示主要关注企业用户(尽管聘请了Instagram联合创始人Mike Krieger等消费技术人才),并在发布Claude 3.5 Sonnet的新闻稿中表示,计划将Claude打造成一个工具,让公司“安全地集中管理知识、文档和持续工作于一个共享空间”。这听起来更像是Notion或Slack,而不是ChatGPT,Anthropic的模型则是整个系统的核心。 目前,新模型是最大的新闻。这里的改进速度令人惊叹:Anthropic在三月推出Claude 3 Opus时,曾自豪地表示其表现与GPT-4和Gemini 1.0相当,随后OpenAI和Google发布了更好的版本。现在,Anthropic已采取了下一步行动,其竞争对手也很快会有回应。虽然Claude的讨论热度不如Gemini或ChatGPT,但它绝对在竞赛中占有一席之地。
Mistral AI完成6亿欧元B轮融资,估值达60亿美元
Mistral AI完成B轮融资,筹集6亿欧元 Mistral AI近日完成了备受关注的B轮融资,筹集了6亿欧元(约合6.4亿美元),资金来源包括股权和债务。本轮融资由General Catalyst领投。根据TechCrunch此前的报道,本轮融资后,这家初创公司的估值已达到60亿美元。 Mistral AI是一家相对较新的人工智能公司。大约一年前,公司完成了1.12亿美元的种子轮融资,旨在建立一个欧洲的竞争对手,与OpenAI、Anthropic等AI巨头抗衡。 公司由Meta和Google DeepMind的前员工联合创立,致力于开发基础模型,目标是与目前性能最好的模型竞争,如OpenAI的GPT-4、Anthropic的Claude 3和Meta的Llama 3。 Mistral AI还在开源许可下发布了预训练和微调模型,开放了模型权重。例如,Mistral 7B、Mistral 8x7B和Mistral 8x22B在Apache 2.0许可下发布,这是一种除了归属外没有使用或复制限制的开源许可。 Mistral AI最先进的模型,如Mistral Large,是专有模型,设计为API优先的产品。公司的第一个代码生成AI模型Codestral则有更严格的许可,其输出不能用于商业活动。 公司提供的Mistral Large可以通过API使用,用户需按使用量付费。公司还提供一个名为Le Chat的聊天助手,目前免费使用。Mistral AI还与云服务提供商如Microsoft Azure建立了分销合作伙伴关系——微软也是Mistral AI的一个小股东。 Mistral AI的联合创始人兼首席执行官Arthur Mensch在声明中表示:“看到新老投资者重新对我们的业务充满信心并提供新的支持,我感到非常高兴。这轮融资使我们处于一个独特的位置,可以推动AI的前沿发展,并将最先进的技术带到每个人手中。这也保证了公司的持续独立性,仍完全由创始人控制。” 本轮融资的领投方General Catalyst是初创公司的现有投资者。根据《金融时报》的报道,Mistral AI在本轮融资中筹集了4.68亿欧元的股权资金和1.32亿欧元的债务资金(分别约合5亿美元和1.4亿美元)。投资者名单长达数页,包括Lightspeed Venture Partners、Andreessen Horowitz、Nvidia、Samsung Venture Investment Corporation和Salesforce Ventures。 其他投资者还包括Belfius、Bertelsmann Investment、BNP Paribas、Bpifrance(通过其数字风险基金)、思科、Eurazeo、Headline、Hanwha Asset Management的风险基金、IBM、Korelya Capital、Latitude、Millennium New Horizons、Sanabil Investments、ServiceNow和SV Angel。 Mistral AI在过去18个月发布基础模型方面表现令人印象深刻。现在,让我们拭目以待它是否能吸引企业客户,将这些工程成果转化为收入。
AI驱动的“黑匣子”可能使手术更安全
当Teodor Grantcharov第一次坐下来观看自己做手术的视频时,他差点儿把VHS录像带扔出窗外。“我觉得我的表现非常棒,”Grantcharov说,然后停顿了一下,“直到我看到了视频。”回想起25年前那次手术,他记得自己解剖时的粗糙、使用的错误工具以及将30分钟的手术拖延至90分钟的低效操作。“我不想让任何人看到。” 这种反应并不罕见。手术室一直以其神秘性著称——手术室里发生的事情就留在手术室里——因为外科医生 notoriously 拒绝承认自己的错误。Grantcharov开玩笑说,当你问“世界上前三名外科医生是谁?”时,一个典型的外科医生“总是很难确定另外两个人是谁。” 然而,在最初的羞辱过后,Grantcharov开始看到了记录手术的价值。“有许多小细节通常需要多年甚至几十年的实践才能意识到,有些外科医生从未达到那个境界,”他说。“突然间,我一夜之间就看到了所有这些见解和机会。” 然而,这里有一个大问题:那是90年代,花几个小时回放模糊的VHS录像并不是一个现实的质量改进策略。要大规模确定他那些相对平凡的失误发生的频率——更不用说每年导致大约2.2万美国人死亡的更严重的医疗错误了——几乎是不可能的。许多这些错误发生在手术台上,从将手术海绵遗留在患者体内到进行错误的手术。 尽管患者安全运动推动了统一的清单和其他手动防故障措施来防止此类错误,但Grantcharov认为,“只要成功与失败之间的唯一屏障是人类,就会有错误。”提高安全性和手术效率成了他个人的执念。他希望通过开发一个正确的系统来创建和分析记录,使错误难以发生。 经过多年努力,现任斯坦福大学外科教授的Grantcharov相信他终于开发出了实现这一梦想的技术:手术室等效于飞机的黑匣子。它通过全景摄像机、麦克风和麻醉监视器记录手术室中的一切,然后使用人工智能帮助外科医生理解这些数据。 Grantcharov的公司Surgical Safety Technologies并不是唯一一家使用AI来分析手术的公司。许多医疗设备公司已经进入了这个领域,包括Medtronic的Touch Surgery平台、强生的C-SATS以及Intuitive Surgical的Case Insights。 然而,大多数这些技术仅关注患者体内发生的事情,仅捕捉术中视频。Grantcharov希望全面捕捉手术室的情况,从门被打开的次数到手术期间非手术相关的对话数量。“人们简化了手术,仅仅关注技术技能,”他说。“你需要全面研究手术室环境。” 技术的挑战与隐私问题 尽管技术已经就绪,但成功不仅仅是拥有正确的技术。记录一切的想法带来了许多关于隐私的棘手问题,并可能引发纪律处分和法律责任的威胁。由于这些担忧,一些外科医生拒绝在黑匣子设备在场时进行手术,有些系统甚至被破坏。此外,一些医院不知道如何处理这些新数据,或者如何避免淹没在大量统计数据中。 尽管如此,Grantcharov预测他的系统可以为手术室带来与黑匣子为航空业带来的相同变化。1970年,每百万次航班中有6.5次致命事故;今天,这一数字已降至不到0.5次。“航空业通过数据实现了从反应性到前瞻性的转变,”他说,“从安全到超安全。” Grantcharov的黑匣子目前已在美国、加拿大和西欧的近40家机构部署,包括Mount Sinai、Duke和Mayo Clinic等。但这些医院是站在安全新纪元的边缘,还是在制造困惑和恐惧的环境? 消除手术室的秘密 手术室可能是医院里最被测量的地方,但也是最难以捕捉的地方之一。从团队表现到器械处理,有“很多大数据我们甚至没有记录下来,”范德比尔特大学医学中心的伦理学家和头颈外科医生Alexander Langerman说。“相反,我们依赖的是外科医生的事后回忆。” 实际上,当出现问题时,外科医生应在医院的每周发病和死亡会议上回顾病例,但这些错误往往未被报告。即使外科医生在患者的电子病历中输入了所需的笔记,“这无疑是——我这并不是恶意的——为了他们的最佳利益而做的,”Langerman说。“这让他们看起来很不错。” 手术室并不总是如此神秘。 在19世纪,手术经常在大型圆形剧场中进行,是公开的表演,有一般入场费用。腹部外科医生Lawson Tait在描述1860年代的一次手术时回忆道:“连上层画廊的每一个座位都满了,大概有七八百名观众。” 然而,到了20世纪初,手术室变得越来越小,公众——以及其带来的细菌——的接触也减少了。“立即就有一种感觉,觉得少了什么,少了公众的监督。你无法知道在那些小房间里发生了什么,”麦吉尔大学的医学史学家Thomas Schlich说。 而且几乎不可能回头。在1910年代,一位波士顿外科医生Ernest Codman提出了一种称为最终结果系统的监督形式,记录每次手术(包括失败、问题和错误)并追踪患者结果。Schlich说,马萨诸塞州总医院没有接受这一提议,Codman愤而辞职。 这种不透明性是20世纪医学职业化更大转变的一部分,特点是技术进步、全科医生的减少以及医疗机构的官僚化。所有这些都拉开了患者和医生之间的距离。同时,特别是从20世纪60年代起,医疗领域开始出现医疗事故诉讼的增加,这至少部分是由于患者在出问题时试图找到答案。 这种关于透明度的斗争理论上可以通过手术录像来解决。但Grantcharov很快意识到,让外科医生使用黑匣子的唯一方法是让他们感到受保护。为此,他设计了一个系统,可以记录动作,但隐藏患者和工作人员的身份,甚至在30天内删除所有录音。他的想法是,不应惩罚个人的错误。“我们想知道发生了什么,以及如何建立一个使这种情况难以发生的系统,”Grantcharov说。错误并不是因为“外科医生早上醒来想,‘我要制造一些灾难性事件,’”他补充道。“这是一个系统问题。” 全视角的AI Grantcharov的手术室黑匣子实际上不是一个盒子,而是一台平板电脑,一个或两个天花板麦克风和最多四个壁装圆顶摄像机,据报道,每个手术室每天可以分析超过50万个数据点。“三天内,我们的视频处理量相当于整个Netflix目录,”他说。 黑匣子平台利用了多个计算机视觉模型,最终生成一系列短视频剪辑和统计数据仪表盘,如失血量、使用的器械以及发生的声音干扰次数。系统还识别并分解手术的关键环节(如解剖、切除和闭合),这样外科医生不需要观看整个三到四小时的录音,可以跳到手术中出血严重或手术订书机失火的部分。 关键是,录音中的每个人都被匿名化;一个算法会扭曲人们的声音并模糊他们的面孔,将他们变成阴影般的黑白人物。“对于这样的事情,隐私和保密性至关重要,”Grantcharov说,他声称匿名化过程是不可逆的。“即使你知道发生了什么,你也无法真正对个人使用它。” 另一个AI模型负责评估表现。目前,这主要通过衡量对手术安全检查清单的合规性来实现——这个问卷应该在每种手术操作中口头勾选完成。(这个清单长期以来与减少手术感染和总体死亡率相关联。)Grantcharov的团队目前正在努力训练更复杂的算法,以检测腹腔镜手术中的错误,如使用过大的器械力量、错误地持握器械或未能保持手术区域的清晰视野。然而,评估这些表现指标比衡量检查清单的合规性要困难得多。“有些事情是可以量化的,有些事情需要判断,”Grantcharov说。 每个模型的训练过程需要长达六个月,依赖于一支位于多伦多的12名分析员团队进行劳动密集型的过程。虽然许多通用AI模型可以通过标记日常物品(如椅子)的临时工进行训练,但外科手术模型需要由了解他们所见的人的数据注释——无论是外科医生在特定情况下,还是受过适当训练的其他标注员。他们审查了数百,甚至数千小时的手术室视频,手动记录哪种液体是血液,或者哪种工具是手术刀。随着时间的推移,模型可以“学习”自行识别出血或特定器械。 “老大哥在看着你” 纽约长岛犹太医学中心是北岸医疗系统的一部分,是第一个试点手术室黑匣子的医院,始于2019年2月。然而,推出并非一帆风顺,技术并不是唯一的障碍。 “在结直肠手术室,摄像机被破坏了,”北岸泌尿外科主席Louis Kavoussi回忆道——摄像机被故意调转和拔掉。在他自己的手术室里,工作人员在工作时变得沉默,担心说错话。“除非你在上高尔夫或网球课,否则你不希望有人盯着你做的每一件事,”Kavoussi说,他后来加入了Surgical Safety Technologies的科学顾问委员会。 尽管Grantcharov承诺不会使用该系统来惩罚个人,但对一些手术室工作人员来说,这并没有带来太大的安慰。2023年11月,当两台黑匣子设备安装在Faulkner医院时,这使外科部门陷入了危机。“每个人都非常害怕,”一位要求匿名的手术技师说,因为她没有被授权公开讲话。“我们被监视着,觉得如果我们做错了什么,我们的工作就会有危险。” 她并没有做任何非法的事情,也没有发表仇恨言论;她只是想和朋友开玩笑,抱怨老板,并做自己而不必担心管理员在背后窥探。“你非常清楚自己在被监视,这一点都不含糊,”她说。最初的几天尤其具有挑战性,外科医生拒绝在装备有黑匣子的房间里工作,手术室工作人员也抵制这些手术:“每天早上肯定是一场斗争。” 在某种程度上,身份保护只是半措施。在30天录音自动删除之前,Grantcharov承认,医院管理员仍然可以看到手术室编号、手术时间和患者的病历号,因此,即使手术室人员技术上是去标识化的,他们实际上并非真正匿名。结果是,一种“老大哥在看着你”的感觉出现了。Duke大学医院的临床操作副主席Christopher Mantyh说,该医院在七个手术室安装了黑匣子。他将在部门会议上引用汇总数据,讨论质量改进,但当出现具体问题时,如无菌操作的中断或感染群集时,他会查看录音并“直接找外科医生。” 在许多方面,这正是Faulkner医院护士Donovan所担心的。她并不相信医院会保护工作人员的身份,担心这些录音会被用来对付他们——无论是通过内部纪律处分还是在患者的医疗事故诉讼中。2023年2月,她和近60名同事向医院的外科主任发送了一封信,反对黑匣子。此后,她向州政府提交了一份申诉,仲裁程序定于10月进行。 根据2021年Medscape的一项调查,超过75%的外科医生报告称至少被起诉过一次,法律问题尤其显得重要。对普通人来说,任何手术视频“看起来都像是一场恐怖秀,”范德比尔特的Langerman说。“一些原告律师会拿到这些视频,然后一些陪审团会看到一堆血迹,他们不知道自己在看什么。”这种前景将每个录音都变成了潜在的法律争斗。 然而,从纯粹的逻辑角度来看,30天的删除政策可能会使这些录音免受医疗事故诉讼的影响。犹他大学法学教授Teneille Brown指出,在这一时间范围内,患者几乎不可能找到法律代理,通过必要的利益冲突检查,然后提交对黑匣子数据的发现请求。尽管为了绕过司法系统而删除数据可能会引发批评,但Brown认为Surgical…
自然语言处理领域的重大挑战:解码器 Transformer 的局限性
自然语言处理(NLP)领域面临的一个主要挑战是解决解码器 Transformer 模型的局限性。这些模型构成了大型语言模型(LLM)的基础,但存在代表性崩溃和过度压缩等重大问题。代表性崩溃是指不同输入序列产生几乎相同的表示,而过度压缩则导致由于信息的单向流动而对特定标记的敏感性丧失。这些挑战严重阻碍了LLM执行准确计数或复制序列等基本任务,这对AI应用中的各种计算和推理任务至关重要。 目前解决这些挑战的方法包括增加模型复杂性和增强训练数据集。已经探索了使用更高精度的浮点格式和更复杂的位置编码等技术。然而,这些方法计算成本高,通常不适合实时应用。现有的方法还包括使用辅助工具来帮助模型执行特定任务。尽管做出了这些努力,由于解码器 Transformer 架构和常用的低精度浮点格式的固有局限性,代表性崩溃和过度压缩等根本问题仍然存在。 研究者们提出了一种理论信号传播分析方法,以研究解码器 Transformer 内部的信息处理方式。他们关注最后一层中最后一个标记的表示,这对下一个标记的预测至关重要。该方法识别并形式化了代表性崩溃和过度压缩现象。研究表明,代表性崩溃发生在由于低精度浮点计算导致不同输入序列产生几乎相同的表示。通过分析早期标记的信息被不成比例地压缩,从而导致模型敏感性降低来解释过度压缩。这种方法提供了一个新的理论框架来理解这些限制,并提供了简单但有效的解决方案来缓解这些问题。 该方法包括详细的理论分析和实证证据。研究者们使用数学证明和实验数据来展示代表性崩溃和过度压缩现象。他们利用当代LLM验证了他们的发现,并说明低浮点精度如何加剧这些问题。分析包括检查注意力权重、层归一化效应和位置编码衰减。研究者们还讨论了实际影响,如量化和标记化对模型性能的影响,并提出在长序列中添加额外标记作为防止代表性崩溃的实际解决方案。 结果表明,由于代表性崩溃和过度压缩,解码器 Transformer 模型在需要计数和复制序列的任务中表现出显著的性能问题。在当代大型语言模型(LLM)上进行的实验显示,随着序列长度的增加,准确性显著下降,模型难以区分不同的序列。实证证据支持理论分析,表明低精度浮点格式加剧了这些问题,导致下一个标记预测中的频繁错误。重要的是,提出的解决方案,如在序列中引入额外标记和调整浮点精度,得到了实验证明,显著提高了模型在处理长序列时的性能和鲁棒性。这些发现强调了需要解决LLM中的根本架构限制,以提高其在实际应用中的准确性和可靠性。 总之,该论文对解码器 Transformer 模型固有的局限性进行了详细分析,特别关注代表性崩溃和过度压缩问题。通过理论探索和实证验证,作者展示了这些现象如何损害LLM在计数和复制序列等基本任务中的表现。研究确定了低精度浮点格式加剧的关键架构缺陷,并提出了有效的解决方案来缓解这些问题,包括引入额外标记和精度调整。这些干预措施显著提高了模型性能,使其在实际应用中更加可靠和准确。这些发现强调了解决这些根本问题的重要性,以推进LLM在自然语言处理任务中的能力。
Elon Musk威胁禁止苹果设备进入其业务场所,因Siri与ChatGPT集成
在苹果WWDC主题演讲后,苹果确认与OpenAI达成合作,Siri将连接到ChatGPT。对此,Elon Musk威胁将禁止所有苹果设备进入他的业务场所。 Musk说了什么? 在宣布之后,Musk在他的社交平台X上发文,猛烈抨击苹果与ChatGPT的集成,称其为“不可接受的安全漏洞”,并警告说“如果苹果在操作系统级别集成OpenAI”,苹果设备将被禁止进入他的业务场所,访客必须在门口存放他们的苹果设备,这些设备将被放置在法拉第笼中。 Musk为何反对苹果与ChatGPT的集成? 尽管大多数Siri查询将由Apple Intelligence回答,但苹果建立了一种算法,可以自动连接到ChatGPT来回答用户的广泛问题。尽管这看似增强了Siri的功能,Musk认为这侵犯了隐私,因为苹果实际上是将用户数据交给了一个“他们自己不了解也无法创建的第三方”,并猛烈抨击这种行为“不保护隐私”。 “苹果根本不知道一旦他们将你的数据交给OpenAI后实际发生了什么。他们是在出卖你。” Musk的担忧是否有道理:这种集成是否意味着用户隐私的侵犯? 虽然Musk的担忧不无道理——苹果不可能完全了解OpenAI的内部运作——但OpenAI和苹果都确认了该集成包含隐私保护措施,例如请求不会被OpenAI存储,用户的IP地址也会被隐藏。 如果Siri无法回答用户的查询,它将始终询问用户是否同意将问题分享给ChatGPT,并在苹果设备内呈现答案(双方都不会存储用户数据),这样用户可以选择是否分享他们的数据,并遵守OpenAI的数据隐私规则。 这种方法看起来是可行的,这让公众质疑Musk威胁禁止苹果设备进入其业务场所的动机:他是否真的关心用户隐私——即使在苹果和OpenAI确认了严格的数据安全协议后——还是这只是他与OpenAI因其优先考虑商业成功而非人类福祉的持续纷争和诉讼的一部分?
OpenAI宣布与苹果合作并迎来两位高管加盟
周一,OpenAI宣布了两项重要消息:公司聘请了两位高管,并与苹果达成了合作协议,将实现ChatGPT与Siri的集成。 公司表示,前Nextdoor首席执行官兼Square财务主管Sarah Friar将加入OpenAI担任首席财务官。Friar还共同担任斯坦福数字经济实验室的联席主席。OpenAI在博客中写道:“她将领导财务团队,通过持续投资于我们的核心研究能力,确保我们能够满足不断增长的客户需求以及复杂的全球环境。” 此外,OpenAI还聘请了前Planet Labs总裁Kevin Weil担任新的首席产品官。Weil曾任Twitter高级副总裁以及Facebook和Instagram副总裁。Weil的产品团队将专注于“将我们的研究应用于有益于消费者、开发者和企业的产品和服务”,公司在博客中写道。 随着OpenAI的大型语言模型在科技行业的重要性日益增加,以及生成性人工智能市场的快速竞争,公司正在加强其高层管理团队。自2022年末推出ChatGPT以来,OpenAI一直处于高速增长模式,但也因争议不断,许多员工最近选择离职。 今年5月,一群现任和前任OpenAI员工发表了一封公开信,表达了对AI行业快速发展缺乏监管和吹哨人保护的担忧。他们写道:“AI公司有强大的经济动机来避免有效的监督,我们认为定制的公司治理结构不足以改变这一现状。” 周一,OpenAI还宣布了与苹果的新合作伙伴关系。根据该合作协议,ChatGPT将集成到iOS、iPadOS和macOS的更新中,用户将在今年晚些时候体验到这些功能。 OpenAI在另一篇博客文章中表示,此次集成将允许用户在苹果的写作工具功能中访问ChatGPT的能力,如图像和文档理解、文本生成和图像创建功能。“当有需要时,Siri也可以利用ChatGPT的智能,”OpenAI写道。“在任何问题发送给ChatGPT之前,苹果用户会被询问是否同意,并且Siri会直接呈现答案。”