加州大学圣克鲁兹分校的研究人员在大语言模型领域取得了突破性成果。通常,运行先进模型如ChatGPT 3.5需要巨大的能源和财务成本——每天约70万美元的能源费用,导致显著的碳足迹。然而,一篇新的预印本论文显示,高性能语言模型可以在只需一个灯泡的能源下运行。 消除昂贵元素:矩阵乘法 在他们的创新方法中,研究人员解决了运行大语言模型最昂贵的部分:矩阵乘法。通过消除这一步骤并采用定制硬件,他们发现,一个十亿参数规模的语言模型仅需13瓦特的功率运行。这一效率比传统硬件高出50倍以上。 “我们以更低的成本达到了同样的性能——我们所做的只是从根本上改变了神经网络的工作方式,”该论文的主要作者、加州大学圣克鲁兹分校Baskin工程学院电气和计算机工程系助理教授Jason Eshraghian解释道。该团队不仅重新设计了算法,还构建了定制硬件以最大化效率。 了解成本 现代神经网络严重依赖矩阵乘法,其中单词在矩阵中表示为数字,通过相乘生成语言。这些操作通常在GPU上进行,GPU专门处理大型数据集,但由于需要在物理分离的单元之间移动数据,因此能耗很高。 创新方法:三进制数 团队采用了一种使用三进制数(负一、零、正一)的方法,将计算简化为数字求和而非相乘。这一方法受到之前工作的启发,但更进一步,完全消除了矩阵乘法。研究人员制定了一种策略,叠加矩阵并仅执行最关键的操作,保持性能的同时降低成本。 定制硬件开发 为了进一步提升能源效率,团队使用现场可编程门阵列(FPGAs)创建了定制硬件。这种高度可定制的硬件允许研究人员利用重新设计的神经网络的所有节能功能。结果是,一个模型可以以比人类阅读速度更快的速度生成单词,只需13瓦特的功率——相比标准GPU所需的700瓦特,这一改进令人震惊。“我们用更便宜的操作取代了昂贵的操作,”该论文的第一作者、BSE和Eshraghian小组的研究生Rui-Jie Zhu说。 未来的影响 研究人员认为,未来还有更大的效率提升潜力。“这些数字已经非常稳固,但很容易使它们变得更好,”Eshraghian指出。“如果我们能在13瓦特内做到这些,想象一下如果我们有一个整个数据中心的计算能力可以做到什么。我们有这么多资源,但让我们有效地使用它们。” 这项创新工作为更可持续的AI发展铺平了道路,减少了能源消耗和环境影响。研究人员已将他们的模型开源,邀请在这个有前景的领域进一步发展。 参阅:https://arxiv.org/abs/2406.02528
Author: aitrendtrackers@rengongzhineng.io
Nvidia 2024 年度股东大会总结
在周三举行的年度股东大会上,英伟达(Nvidia)首席执行官黄仁勋(Jensen Huang)强调了公司在人工智能(AI)时代的卓越定位。黄仁勋表示,英伟达即将推出的Blackwell平台可能成为公司乃至整个行业历史上“最成功的产品”。股东们投票批准了高管薪酬、投资者提出的一项咨询建议、董事会的连任以及一家会计师事务所的任命。 英伟达股东批准高管薪酬和其他提案 在周三举行的年度股东大会上,英伟达股东批准了四项提案。首席执行官黄仁勋在会上强调了公司新推出的Blackwell平台,以及随着AI技术的发展,公司将获得的机会。 英伟达报告称,黄仁勋在2024财年的总薪酬为3420万美元,比2023财年增加了近60%。由于英伟达的高管薪酬结构主要与绩效挂钩,因此股票的迅速上涨提升了他的薪酬。 股东们还投票重新选举了公司董事会的12名现任董事,并批准普华永道(PwC)为公司2025财年的独立注册会计师事务所。 投资者约翰·切维登(John Chevedden)提出的咨询提案也得到了批准,该提案要求董事会用简单多数投票标准取代超级多数投票规定。 Blackwell可能成为“最成功的产品” 黄仁勋在大会上表示,“Blackwell架构平台可能是我们历史上最成功的产品”,并补充说它可能是计算机历史上最成功的产品。分析师称,英伟达即将推出的Blackwell系统是硅谷“最雄心勃勃的项目”。 黄仁勋强调,Blackwell将被“每个主要的云服务提供商、服务器制造商和领先的AI公司”采用,包括亚马逊(Amazon)、谷歌(Google)、Meta、微软(Microsoft)、ChatGPT的开发者OpenAI、特斯拉(Tesla)以及埃隆·马斯克(Elon Musk)的xAI。 英伟达在AI“下一波浪潮”中的角色 黄仁勋利用这次股东大会强调了公司在AI繁荣中增长的机会,包括在机器人和主权AI领域。 他说,“下一波AI将自动化价值50万亿美元的重工业”,并指出机器人工厂将“协调制造机器人的机器人来制造产品,这些产品本身也是机器人”,而英伟达将从中受益。 黄仁勋还指出,随着对主权AI需求的增加,即一个国家利用自身基础设施和数据生产AI的能力,公司将有更多机会获得增长。
与Claude协作开展项目
Claude的愿景一直是创建能够与人们协同工作并显著提升他们工作流程的人工智能系统。朝着这一方向迈进,Claude.ai的专业版和团队版用户现在可以将他们的聊天组织到项目中,将精选的知识和聊天活动整合到一个地方,并且可以让团队成员查看他们与Claude的最佳聊天记录。借助这一新功能,Claude可以促进创意生成、更具战略性的决策,并取得卓越成果。 项目功能在Claude.ai上对所有专业版和团队版用户开放,并且可以由最新发布的Claude 3.5 Sonnet驱动,该版本在各种基准测试中表现优异。每个项目包括一个200K上下文窗口,相当于一本500页的书,因此用户可以添加所有相关文档、代码和见解,以提高Claude的有效性。 避免冷启动问题 项目功能允许用户将内部知识作为Claude输出的基础——无论是风格指南、代码库、访谈记录,还是过去的工作。这种增加的上下文使得Claude能够在各项任务中提供专家级的帮助,从编写营销团队的电子邮件到编写数据分析师的SQL查询。 此外,用户可以为每个项目定义自定义指令,以进一步定制Claude的响应,包括指示Claude使用更正式的语气或从特定角色或行业的角度回答问题。借助项目功能,用户可以更快地开始工作,并在任何任务上扩展自己的技能。 与Claude并肩工作 Artifacts帮助用户更好地与Claude协作,通过帮助用户查看、编辑和构建与Claude共同创建的内容。用户只需要求Claude生成代码片段、文本文档、图形、图表或网站设计等内容,Artifacts便会在对话旁的专用窗口中出现。 Artifacts特别增强了Claude为开发者提供的编码功能,提供了更大的代码窗口和实时预览功能,从而简化了前端的审查过程。用户可以通过左侧面板的账户菜单加入Artifacts的功能预览。 激发灵感并分享 Claude团队用户还可以将与Claude进行的最佳对话的快照分享到团队的共享项目活动中。活动馈送帮助每个团队成员在不同的工作方式中获得灵感,并帮助整个团队提升与AI协作的技能。 与Claude共同创作的工作成果的分享可以改善如产品开发和研究等领域的创新,将整个公司的组织知识汇聚在一起,产生更高质量的输出。 客户聚焦:North Highland 在North Highland这家领先的变革和转型咨询公司,数百名员工跨越咨询、业务发展和营销团队使用Claude来提升工作效率。从撰写提案到分析复杂文件如10-K,团队利用Claude来增强和扩展他们的专家服务。 “Claude团队计划正在改变我们在North Highland的工作方式。Claude是一位真正杰出的作家,帮助我们的团队将内容创作和分析任务的完成速度提高了5倍——将过去需要两周的写作和研究工作缩短到几分钟。通过Claude,我们正在为未来的工作做好准备,在日常挑战中找到更多的乐趣,并跃入AI辅助协作和创造力的未来。” – Luka Anic,North Highland的技术AI项目和产品经理 Claude的未来工作展望 这些关于共享知识和协作的最新功能将Claude融入现有的团队流程,使用户能够节省时间并提升工作质量。通过利用Claude的准确性和高级编码与写作能力,项目功能可以放大团队的潜力。此外,作为对用户隐私承诺的一部分,任何在项目中共享的数据或聊天记录在未经用户明确同意的情况下不会用于训练我们的生成模型。 在未来几个月里,Claude 团队将继续使Claude更易于使用,同时扩展用户可以通过与流行应用和工具的本地集成带入Claude的项目知识类型。Claude 团队期待看到您的团队如何与Claude合作。
量子计算与AI融合:IBM引领未来计算新纪元
过去一年里,越来越多的人开始关注量子计算机如何融入并连接经典计算架构。量子计算机可以作为加速器,执行某些任务的复杂计算,这些任务即使是经典超级计算机也无法完成。在开发量子算法和电路的过程中,经典计算机或服务器用于预处理,而后处理则用于管理错误、改进结果并完成处理任务。正如不断增长的AI应用案例所表明的那样,AI可以增强经典计算能力,因此,AI也有可能增强量子计算能力,目前有多家公司正致力于实现这一目标。 尽管许多人和公司开始将量子和AI合并成一个术语,但这两者是截然不同的技术。AI是指在经典计算平台上开发和运行的神经网络模型,这些平台由CPU、GPU、NPU、DSP、FPGA等传统二进制处理逻辑元件驱动。量子计算机则使用超导transmon量子比特等替代计算架构,通过量子物理解决非常复杂的问题。尽管两者需要不同的硬件、软件和支持系统,但两者的整合正在推进,特别是为了量子计算的利益。IBM是推动AI与量子计算相结合的公司之一。 IBM被认为是量子计算领域的领导者,硬件、软件和系统技术不断进步,已在全球部署了量子计算机。IBM在AI技术方面也处于领先地位,其watsonx平台自2011年在《危险边缘》节目中获胜以来,取得了许多进展。此后,watsonx发展成为一个可扩展的企业平台,提供AI工作室、数据、治理和助手解决方案。现在,IBM将这两项技术结合起来,以增强量子计算并加速其采用。 最近,在与IBM的讨论中,该公司概述了如何将其AI技术整合到Qiskit软件中,以改进SDK工具和OpenQASM3(开放量子汇编语言)的易用性。IBM正在利用其Granite AI模型的watsonx生成AI平台,生成能够提供开发者支持和量子代码辅助的数字代理。 此外,IBM正在研究和开发新的AI模型,以改进电路优化、资源管理以及提高错误抑制、缓解和校正的能力。 作为其致力于将AI整合到量子计算中的一部分,IBM还推出了带有Visual Studio扩展的Qiskit代码助手服务,并计划推出两个量子聊天机器人——一个用于帮助开发人员,另一个用于IBM量子服务的一般用户。 在电路优化方面,AI模型可以作为插件嵌入到Qiskit SDK中,通过编译器服务或与启发式方法结合使用。根据IBM的说法,编译器服务提供了更好的抽象电路到量子ISA电路的映射,电路尺寸提高了40%,质量更好,处理速度提高了2到5倍。 在资源管理方面,IBM正在开发AI解决方案,以更好地估算量子运行时间,标记可能失败的工作负载,并对电路进行分区以进行并行处理,从而更好地利用经典和量子资源。这包括利用AI超级计算机。 未来的异构数据中心将包含量子处理单元(QPU),结合IBM在本十年末达到1亿门量子逻辑门和2033年左右达到10亿门的激进路线图,量子计算正迅速朝着在未来几年部署实用量子应用迈进。结果,我们可能会在本十年末看到结合最新CPU、AI加速器和QPU性能的异构数据中心。
Open AI 前 Superalignment部门研究员Leopold Aschenbrenner的关于Superintelligence的长文
全文:https://situational-awareness.ai/ “到了这个时候,你可能会觉得我和所有科幻迷都完全疯了。但是,请稍微想一下:如果他们是对的呢?这些人发明并构建了这项技术,他们认为在这个十年内会开发出通用人工智能。虽然意见有很大的分歧,但他们中的许多人都非常认真地对待超级智能可能会像我在这系列文章中描述的那样发展。 几乎可以肯定的是,我对这个故事的重要部分有误,如果现实真的如此疯狂,那么误差范围会非常大。而且,正如我在开头所说的,我认为有很多种可能性。但我认为具体化很重要。在这系列文章中,我描述了我目前认为在这个十年内最有可能发生的情景。 因为——它开始变得真实,非常真实。几年前,对我来说,这些想法虽然认真对待,但还是抽象的,被隔离在模型和概率估计中。现在感觉非常直观。我可以看到通用人工智能将如何被构建。不再是关于人类大脑大小的估计和假设以及理论推测——我基本上可以告诉你通用人工智能将在哪个集群上进行训练,何时会被构建,使用的大致算法组合,未解决的问题以及解决它们的路径,还有那些重要人物的名单。我能看到它,真的非常直观。当然,在2023年初全面押注Nvidia是很棒的,但历史的负担是沉重的,我不会选择这样的生活。 最可怕的认识是,没有什么精英团队来处理这个问题。小时候,人们对世界有一种美好的看法,认为当事情变得严重时,会有英雄科学家、超级能干的军人、冷静的领导者来拯救世界。事实并非如此。世界非常小,当面具脱落时,通常只是幕后的一些人在努力防止事情崩溃。 现在,可能只有几百个人知道即将发生的事情,他们了解情况将会多么疯狂,拥有情况意识的人。我可能认识或与所有有可能运行这个项目的人只有一步之遥。那些在幕后拼命维持局面的人,就是你和你的朋友以及他们的朋友。就是这样,仅此而已。 有一天,这将超出我们的掌控。但现在,至少在接下来的几年中,世界的命运掌握在这些人手中。 我们能驯服超级智能,还是会被它驯服? 人类能再次避开自我毁灭的命运吗? 赌注不止于此。 这些人伟大且值得尊敬,但他们只是普通人。很快,人工智能将接管世界,但我们还会经历最后一次较量。愿他们的最后管理为人类带来荣耀。” 文章《Situational Awareness: The Decade Ahead》详细探讨了未来十年人工智能(AI)和人工通用智能(AGI)的发展及其可能带来的影响,分为几个主要部分进行阐述: 导论 文章介绍了AGI竞赛的紧迫性和重要性。预计到2025/26年,AGI将超越许多大学毕业生的能力,并在十年内达到超级智能的水平。这场竞赛将引发前所未有的国家安全和经济挑战,特别是在世界Super Power之间。 从GPT-4到AGI:计算量的增长 从AGI到超级智能:智能爆炸 挑战 项目(The Project) 自由世界必须获胜 结论 最终,文章强调了AGI和超级智能发展的紧迫性和复杂性。为了应对这些挑战,各国必须在技术、安全和政策方面做好充分准备,以应对可能出现的种种复杂局面。 更多详细信息请访问Situational Awareness。
Etched公司推出了专为变压器模型设计的定制芯片Sohu。Sohu的速度非常快——在Llama 70B模型上每秒可处理超过500,000个token。🤯 这一速度比NVIDIA即将推出的顶级GPU GB200快了一个数量级。
2022年,押注变革世界的变压器架构。 在过去两年里,Sohu,全球首款专为变压器设计的专用芯片(ASIC),应运而生。这意味着Sohu无法运行大多数传统的AI模型,如驱动Instagram广告的DLRMs、AlphaFold 2这样的蛋白质折叠模型或是Stable Diffusion 2等旧版图像模型。也无法运行CNN、RNN或LSTM。 然而,对于变压器,Sohu是有史以来最快的芯片,速度远超其他。Sohu每秒超过50万个token的Llama 70B吞吐量,使得许多在GPU上无法实现的产品成为可能。Sohu比NVIDIA的下一代Blackwell (GB200) GPU还要快且便宜一个数量级。 如今,每个最先进的AI模型都是变压器:ChatGPT、Sora、Gemini、Stable Diffusion 3等等。如果变压器被SSMs、RWKV或任何新架构取代,Sohu将变得毫无用处。 但如果赌对了,Sohu将改变世界。以下是我们做出这一赌注的原因。 规模是超级智能的关键 五年间,AI模型在大多数标准化测试中变得比人类更聪明。这是因为Meta使用了比OpenAI在GPT-2上多50000倍的计算资源来训练Llama 400B(2024年的最先进模型,比大多数人类更聪明)。 通过为AI模型提供更多计算资源和更好的数据,它们会变得更聪明。规模是几十年来唯一持续有效的策略,每个大型AI公司(Google、OpenAI / Microsoft、Anthropic / Amazon等)将在未来几年内投入超过1000亿美元以继续扩展。我们正处于史上最大的基础设施建设时期。 GPU遇到瓶颈 圣克拉拉的秘密是GPU并没有变得更好,而是变得更大。芯片每单位面积的计算能力(TFLOPS)在四年内几乎没有提升。 NVIDIA的B200、AMD的MI300、Intel的Gaudi 3和Amazon的Trainium2都使用双芯片方案来“加倍”性能。2022-2025年,除了Etched,所有GPU性能提升都是依靠这种技巧。 随着摩尔定律的放缓,唯一的提升性能的方法是专业化。 专用芯片的必然性 在变压器流行之前,许多公司构建了灵活的AI芯片和GPU来处理各种架构,如NVIDIA的GPU、Google的TPU、Amazon的Trainium、AMD的加速器等。没有公司曾构建过专用算法的AI芯片(ASIC),因为芯片项目成本高达5000万至1亿美元,且需要多年才能投入生产。 但现在情况发生了变化: 变压器的巨大护城河 变压器在硬件上的优势:能够最快、最便宜地运行在硬件上的模型才是赢家。变压器足够强大、有用且盈利,能在替代品准备好之前主导每个主要AI计算市场。 每个大型AI产品:从代理到搜索再到聊天,都是由变压器驱动的。AI实验室已经投入数亿美元进行研发,以优化GPU以适应变压器。 认识Sohu Sohu是全球首款变压器ASIC。一个8xSohu服务器可以替代160个H100 GPU。通过专业化,Sohu实现了前所未有的性能。一个8xSohu服务器每秒可以处理超过500,000个Llama 70B token。 由于Sohu只能运行一个算法,大多数控制流逻辑可以被移除,从而拥有更多的数学单元。因此,Sohu的FLOPS利用率超过90%(相比GPU的约30%)。 软件运作 在GPU和TPU上,软件非常复杂。处理任意的CUDA和PyTorch代码需要极其复杂的编译器。第三方AI芯片(AMD、Intel、AWS等)在软件上花费了数十亿美元,但收效甚微。 由于Sohu只运行变压器,所以只需为变压器编写软件!大多数公司使用特定的变压器推理库,如TensorRT-LLM、vLLM或HuggingFace的TGI。 Etched将成为第一 如果这个赌注现在看起来很疯狂,想象一下在2022年做出这一赌注的情景。当时,ChatGPT还不存在!图像和视频生成模型是U-Nets,无人驾驶汽车由CNN驱动,变压器架构还远未普及。 幸运的是,局势已经向Etched倾斜。每个领域的顶级模型——从语言到视觉——现在都是变压器。这一收敛不仅验证了Etched的赌注,也使得Sohu成为本十年最重要的硬件项目。 如果Etched赌对了,Sohu将改变世界。AI模型一夜之间变得快20倍且便宜,这会带来什么?Gemini需要超过60秒来回答一个视频问题,编码代理的成本比软件工程师还高,视频模型每秒只能生成一帧,甚至OpenAI在ChatGPT用户达到1000万时也耗尽了GPU容量,这只是世界的0.15%。 但有了Sohu,这一切将变得即时。实时视频、通话、代理和搜索将真正实现。 很快就能见证这些变化。申请Sohu开发者云的早期访问 (https://docs.google.com/forms/d/e/1FAIpQLSfNy_O_4UHUjzCgcEbYR5IEd2bSkkGpLbiw1i51BpWHMW3GwA/viewform),共同解决当代最重要的问题。
加州拟议AI监管法案引发科技界激烈争议
前OpenAI员工签署公开信呼吁更多举报人保护,加州立法者提议AI监管法案 四年来,雅各布·希尔顿在湾区最具影响力的初创公司之一OpenAI工作。他的研究帮助测试和改进了如ChatGPT等AI模型的真实性。他相信人工智能可以造福社会,但也认识到如果不加以监管,这项技术可能带来的严重风险。 希尔顿是本月签署公开信的13名现任和前任OpenAI及谷歌员工之一,这封公开信呼吁更多的举报人保护,指出广泛的保密协议是个问题。 33岁的希尔顿现在是一名位于伯克利的非营利机构Alignment Research Center的研究员,他表示:“基本情况是,员工是最接近这项技术的人,也是因揭发问题而遭到报复风险最大的人。” 加州立法者行动 加州立法者正通过约50项与人工智能相关的法案,试图解决这些问题。许多法案旨在为快速发展的技术设置保障措施,立法者认为这些技术可能会对社会造成伤害。 然而,代表大型科技公司的团体认为,这些提议的立法可能会抑制创新和创造力,使加州失去竞争优势,并显著改变AI在该州的开发方式。 这些法案涵盖了广泛的AI相关担忧,包括工作替代、数据安全和种族歧视等问题。一项由Teamsters共同发起的法案,旨在对无人驾驶重型卡车进行人工监督。由服务员工国际联盟支持的法案试图禁止在提供公共福利服务的呼叫中心用AI系统自动化或替代工作。由参议员斯科特·维纳(D-San Francisco)撰写的另一项法案要求开发大型AI模型的公司进行安全测试。 立法推动的背景 在拜登政府期间,联邦和州的民主党人对大型科技公司变得更加积极。维纳表示:“我们已经看到,其他技术出现了大问题后,我们才开始采取行动。社交媒体对社会贡献了许多好处……但也带来了显著的负面影响,而我们并没有采取措施减少或减轻这些危害。现在我们正在亡羊补牢。我不希望再这么做。” AI技术的快速发展 AI工具正在快速进步,它们可以给孩子读睡前故事、在快餐店整理订单并帮助制作音乐视频。一些科技爱好者对AI的潜在好处感到兴奋,但也有人担心工作流失和安全问题。 旧金山非营利机构Center for AI Safety的负责人丹·亨德里克斯表示:“几乎所有人,包括许多专家,都对技术进步的速度感到惊讶。如果我们再拖延几年不采取任何行动,可能会为时已晚。” 维纳的法案SB1047由Center for AI Safety支持,呼吁构建大型AI模型的公司进行安全测试,并有能力关闭他们直接控制的模型。法案的支持者表示,这将保护免于AI被用于制造生物武器或关闭电网等情况。法案还要求AI公司实施匿名举报机制。州检察长可以起诉以执行安全规则。 法案的争议 包括Meta、谷歌和OpenAI在内的科技公司的行业团体TechNet反对这项法案,认为立法者应谨慎行事。Meta和OpenAI未回应置评请求,谷歌拒绝置评。TechNet的加州和西南地区执行董事迪伦·霍夫曼表示:“过快行动会带来自己的后果,可能会抑制和遏制这项技术带来的某些好处。” 法案已通过州议会隐私与消费者保护委员会,接下来将进入州议会司法委员会和拨款委员会,如果通过,将提交州议会全体表决。 民众的支持 维纳的法案支持者表示,他们是回应公众的愿望。根据Center for AI Safety Action Fund委托的对800名加州潜在选民的调查,86%的参与者表示,制定AI安全法规对该州来说是一个重要优先事项,77%的参与者支持对AI系统进行安全测试的提议。 希尔顿表示:“目前的现状是,在安全和保障方面,我们依赖这些公司自愿作出的公开承诺。但问题的一部分在于没有好的问责机制。” 其他相关立法 另一项对工作场所影响广泛的法案是AB 2930,旨在防止“算法歧视”,即自动化系统在招聘、薪酬和解雇方面基于种族、性别或性取向对某些人不利。 去年,反歧视法案在立法会议上未通过,今年重新提出后,初期获得了高知名度科技公司Workday和微软的支持,但他们对会增加公司责任的修正案表示担忧。 Workday公共政策负责人钱德勒·摩尔斯表示:“我们正在评估我们对新修正案的立场。” 微软拒绝置评。 好莱坞的呼声 AI的威胁也是好莱坞工会的呼吁重点。美国编剧工会和美国电影电视演员联合会在去年的罢工期间为其成员争取到了AI保护,但技术风险超出了工会合同的范围。演员工会全国执行董事邓肯·克拉布特里-爱尔兰表示:“我们需要公共政策赶上来,开始制定这些规范,以减少AI领域的无序环境。” 科技公司敦促谨慎对待过度监管。技术行业组织进步商会的托德·奥博伊尔表示,如果政府监管过于严厉,加州的AI公司可能会选择迁往其他地方。他警告道:“我们不应该让对假设性危害的恐惧驱动政策制定,当我们拥有这项在最初阶段就能创造巨大繁荣的变革性技术时。” 红木城云计算公司Box的首席执行官阿伦·莱维表示:“我们需要更强大的模型,然后逐步评估风险。”
欧盟指控苹果应用商店规则非法压制竞争,面临巨额罚款风险
欧盟委员会周一表示,苹果应用商店的规则非法压制竞争,这使得美国巨头苹果公司与这个强大贸易集团之间的多年来的争斗升级。此前,苹果公司曾威胁因担心反垄断法规会迫使其在隐私和安全功能上做出妥协,而拒绝推出其备受期待的Apple Intelligence AI产品。 欧盟委员会作为欧盟的执行机构,同时也是其技术和竞争监管机构,指出苹果应用商店的政策似乎违反了该集团旨在促进技术行业竞争并保护小型企业免受大平台压制的《数字市场法》规则。 这一初步调查结果是在该集团于三月份发起的调查后得出的,声称应用商店的规则不允许开发者自由地引导客户使用苹果生态系统外的替代支付方式或内容。 委员会还表示,苹果向开发者收取的费用“超出了合理报酬所需的范围”。 这些调查结果已发送给苹果公司,公司有一年时间进行辩护,最终裁决将在2025年3月25日前做出。 欧盟反垄断负责人玛格丽特·维斯塔格在一份声明中表示,“开发者社区和消费者迫切希望提供应用商店的替代方案”,并补充说该集团将努力“确保苹果不破坏这些努力”。 苹果公司在一月份宣布对应用商店进行变更以遵守《数字市场法》,允许开发者引导客户使用苹果生态系统外的支付选项。苹果公司对福布斯表示,公司“相信我们的计划符合法律规定,并估计超过99%的开发者将在我们新制定的商业条款下支付与此前相同或更少的费用。” 欧盟声称,苹果的政策阻止开发者直接与用户互动或推广优惠。维斯塔格表示,这种能力被称为引导,“对确保应用开发者减少对‘守门人’应用商店的依赖和消费者意识到更好的优惠至关重要。”监管机构认为,反引导措施阻碍了小型企业在大型平台(如应用商店)内的竞争能力。这一初步调查结果增加了苹果在全球范围内日益增多的反垄断问题。该科技巨头的数字商店还在日本、英国以及特别是在美国面临审查,在美国,它正与《堡垒之夜》制造商Epic Games进行一场旷日持久的法律战。美国还因苹果公司涉嫌在智能手机市场上维持非法垄断而起诉了该公司。六月,苹果公司表示将因《数字市场法》的合规问题而拒绝向欧盟设备推出最新的AI更新,加剧了与监管机构的紧张关系。公司未解释这些功能(包括与ChatGPT制造商OpenAI的合作和屏幕共享)如何违反该集团的规则,从外部看也无法立即看出明显的冲突。 尽管欧盟已对Meta、X和TikTok等公司可能违反《数字市场法》进行了调查,但周一的通知是布鲁塞尔首次认定某家公司违反了这部具有里程碑意义的技术法案。违规行为将面临严厉的经济处罚,如果在最终裁决中被判有罪,苹果将面临高达其全球年收入10%的罚款,对于重复违规者,罚款可高达20%。根据不同的规定,欧盟在三月份对苹果公司处以超过18亿欧元(约合19亿美元)的罚款,原因是其“滥用在通过应用商店向iPhone和iPad用户分发音乐流媒体应用市场中的主导地位。” 3830亿美元。这是苹果公司去年报告的收入。根据《数字市场法》,初次违规的最高罚款为10%,即383亿美元。 “苹果的新口号应该是‘与众不同’,”欧盟内部市场专员蒂埃里·布雷顿表示。“我们有理由相信,应用商店不允许应用开发者自由与其用户沟通的规则违反了《数字市场法》,”他补充道,集团“决心”利用法规下的强大工具“最终为创新者和消费者开辟真正的机会。”
Google DeepMind发布V2A技术:突破性视听同步创作新纪元
声音是丰富人类体验、增强沟通和为媒体增添情感深度不可或缺的要素。尽管AI在多个领域取得了显著进展,但要在视频生成模型中加入如人类创作般复杂和细腻的声音依然具有挑战性。为这些无声视频制作配乐是使生成影片更逼真的重要一步。 Google DeepMind推出了视频转音频(V2A)技术 (https://deepmind.google/discover/blog/generating-audio-for-video/),实现同步视听创作。通过结合视频像素和自然语言指令,V2A为屏幕上的动作创建沉浸式音频。团队尝试了自回归和扩散方法,发现扩散方法在生成同步音视频方面的效果最为逼真和现实。 V2A技术的第一步是压缩输入视频。通过扩散模型,音频被反复清理以去除背景噪音。视觉输入和自然语言提示引导这一过程,生成符合指令的真实同步音频。音频输出过程的最后一步包括解码、生成波形并将音频与视觉数据合并。 在反复将视频和音频提示输入扩散模型之前,V2A会对它们进行编码。接下来是创建压缩音频并将其解码为波形。研究人员通过增加信息,如对话转录和AI生成的详尽声音描述注释,来补充训练过程,提高模型生成高质量音频的能力,并训练其制作特定声音。 该技术通过训练视频、音频和附加注释,学会响应转录或注释中的信息,通过将不同的音频事件与不同的视觉场景关联来生成合适的声音。V2A技术可以与视频生成模型如Veo配对,为镜头添加戏剧性配乐、真实音效或符合视频角色和基调的对话。 V2A技术能够为经典视频,如无声电影和档案片段,创建配乐,开启了创意可能性的世界。最令人兴奋的是,它可以根据用户需求为任何视频输入生成无限多的音轨。用户可以定义“正向提示”以引导输出所需声音,或“负向提示”以避免不想要的噪音。这种灵活性赋予用户对V2A音频输出前所未有的控制权,激发实验精神,帮助他们快速找到与创意愿景完美匹配的声音。 团队致力于持续研究和开发以解决一系列问题。他们意识到音频输出的质量依赖于视频输入,视频中超出模型训练分布的失真或伪影会导致明显的音频劣化。他们正在改进配音视频的唇同步。通过分析输入的转录内容,V2A旨在创造与角色口型完美同步的语音。团队也注意到,当视频模型与转录内容不一致时,会出现怪异的唇同步现象,他们正在积极解决这些问题,展示了他们对保持高标准和不断改进技术的承诺。 团队积极寻求知名创作者和电影制作人的意见,认识到他们对V2A技术发展的宝贵见解和贡献。这种合作方式确保了V2A技术能够积极影响创意社区,满足他们的需求并提升他们的作品。为了进一步保护AI生成内容不被滥用,他们在V2A研究中整合了SynthID工具箱,并对所有内容进行了水印处理,展示了他们对技术伦理使用的承诺。
Delphi-2M:基于病史预测未来健康的改进GPT架构
人工智能在利用大量健康记录预测疾病进展,从而实现个性化医疗方面具有巨大潜力。理解由生活方式、遗传和社会经济因素影响的多病共存现象,对于量身定制的医疗保健和预防措施至关重要。尽管现有的预测算法可以针对特定疾病进行预测,但在预测多种疾病方面仍存在空白。最近的进展,如受大规模语言模型启发的Transformer模型,有望通过对健康数据中的复杂时间依赖性进行建模来克服这些挑战。然而,这些模型在多病共病预测中的全部潜力尚未得到充分探索。 来自各个机构的研究人员开发了Delphi-2M,这是一种基于GPT架构的高级AI模型,用于预测大规模人群的疾病进展。基于来自40万名英国生物银行参与者的数据,Delphi-2M通过分析过去的健康记录、人口统计数据和生活方式因素,预测超过1000种疾病和死亡。它为个人生成详细的未来健康轨迹,并提供疾病簇及其时间依赖影响的洞察。经过对190万丹麦记录的验证,未进行参数更改的Delphi-2M准确地建模了人群健康,并揭示了过去事件如何影响未来健康结果,使其成为个性化医疗预测的有力工具。 Delphi-2M模型准确预测了1000多种疾病的发病率,与观察到的年龄和性别趋势高度一致。它在验证队列中有效地模拟了不同的疾病模式,如儿童期水痘高峰和其他疾病的年龄相关上升。Delphi-2M的预测随着新数据的不断更新,显示出像败血症这样疾病的显著个体差异。其AUC平均为0.8,表现与如Framingham心血管疾病等成熟的风险模型相当。Delphi-2M通过与英国生物银行数据的校准和纵向验证,确认了其在预测短期和长期疾病轨迹方面的可靠性,提供了全面的多病预测。 像Delphi-2M这样的生成模型可以基于过去的病史预测未来的疾病轨迹。在对10万条来自英国生物银行的采样轨迹进行评估时,Delphi-2M准确地反映了70岁以下的疾病发病率和发生率。其在第一年的平均准确率为17%,在20年内下降到14%,超越了基本的年龄-性别模型。它能够区分高风险和低风险群体,有效预测二十年内的疾病负担。此外,Delphi-2M生成的合成轨迹不会重复训练数据,具有实际应用价值,如训练新模型,从而保护数据隐私并拓展潜在应用。 Delphi,作为一个经过改进的GPT-2模型,旨在通过分析顶级ICD-10诊断序列,辅以性别、BMI、吸烟和饮酒等生活方式数据,预测健康轨迹。使用英国生物银行的训练数据和丹麦健康记录进行的外部验证。Delphi用连续的基于年龄的编码取代了GPT-2的离散位置编码,并引入了一个额外的头来预测事件之间的时间。这使得Delphi能够准确地建模健康事件的时间和顺序,在预测疾病发作和进展方面超越了标准GPT模型。 Delphi-2M,作为基于GPT-2的模型,通过学习40万名英国生物银行参与者的1000多种疾病的健康数据模式,预测多种疾病的进展。它在预测疾病轨迹和估计长期疾病负担方面表现出色。在丹麦健康数据上测试时,它在不进行进一步训练的情况下证明了其适应性。虽然有效,但它继承了训练数据中的偏见,使用时需谨慎。Delphi-2M的灵活架构允许未来整合基因组学和可穿戴设备等额外健康数据,使其成为医疗规划、个性化医疗和理解复杂疾病交互的有前途的工具。