本周二,微软在最新的年度报告中将人工智能初创公司OpenAI列入竞争对手名单。这份名单多年来一直包括亚马逊、苹果、谷歌和Meta等巨头。 微软与OpenAI有长期合作关系,作为其独家云提供商,并在产品中使用其AI模型,为商业客户和消费者服务。微软是OpenAI最大的投资者,据报道已向该公司注资130亿美元。 但此次新列入竞争对手名单表明两家公司开始进入彼此的领域。 在文件中,微软将OpenAI——ChatGPT聊天机器人的创建者——认定为AI产品和搜索及新闻广告领域的竞争对手。上周,OpenAI宣布了一个名为SearchGPT的搜索引擎原型。 一些公司选择支付费用以访问OpenAI的模型,另一些则通过微软的Azure OpenAI服务获取这些模型。对于那些寻求ChatGPT替代品的公司,微软的Copilot聊天机器人也可以通过Bing搜索引擎和Windows操作系统获得。 OpenAI的一位发言人告诉CNBC,两家公司之间的关系没有任何变化,他们的合作伙伴关系是以相互竞争为前提建立的。发言人表示,微软仍然是OpenAI的好伙伴。 尽管如此,这一年充满了戏剧性。 据报道,微软CEO萨提亚·纳德拉在11月OpenAI董事会推翻CEO Sam Altman之前没有被告知。Altman迅速复职后,OpenAI给予微软一个无投票权的董事会席位。微软本月早些时候放弃了这一职位。 今年3月,纳德拉聘请了DeepMind联合创始人穆斯塔法·苏莱曼。DeepMind是一家在OpenAI之前成立的AI研究公司,2014年被谷歌收购。苏莱曼联合创办并领导了初创公司Inflection AI,被任命为微软AI新部门的CEO,几名Inflection的员工也加入了他。 纳德拉仍与Altman关系密切。 “我喜欢Sam的一点是,他每天都打电话给我说,‘我需要更多,我需要更多,我需要更多,’”纳德拉在接受《纽约时报》采访时说道。
Author: aitrendtrackers@rengongzhineng.io
Google Gemini 1.5 Pro登顶Chatbot竞技场:多语言和技术任务表现卓越
Chatbot竞技场传来激动人心的消息! @GoogleDeepMind的新款Gemini 1.5 Pro(实验版0801)在过去一周内进行了测试,获得了超过12,000次社区投票。首次,Google Gemini成功登顶,超越了GPT-4o和Claude-3.5,以惊人的1300分位居榜首,并在视觉排行榜上也名列第一。 Gemini 1.5 Pro(0801)在多语言任务方面表现出色,并在数学、复杂提示和编程等技术领域表现强劲。 恭喜@GoogleDeepMind取得这一显著成就! Gemini(0801)类别排名: 快来体验这个模型. Gemini 1.5 Pro(实验版0801)在视觉排行榜上排名第一。 Gemini显示出强大的多语言能力:中文、日文、德文、俄文表现排名第一。 但在编程和复杂提示领域,Claude 3.5 Sonnet、GPT-4o和Llama 405B仍然领先。 总体胜率热图:Gemini 1.5 Pro(0801)对阵GPT-4o的胜率为54%,对阵Claude-3.5-Sonnet的胜率为59%。
欧盟推出《AI法案》:新规严控高风险AI应用
🔑 重点内容: 今年3月,欧盟宣布正在制定新的风险导向立法——《AI法案》,以规范在欧盟开发、使用和应用AI系统,确保其安全可信。欧洲委员会在5月通过了该法案,现已正式生效。 该立法采用“风险导向”方法,对“高风险”AI(如关键基础设施和生物识别系统)实施严格监管,而“低风险”AI(如聊天机器人)则监管较少。 新法案禁止使用生物识别数据(如种族和性取向)预测犯罪的AI系统,以及用于认知行为操控和社会评分的AI系统。 欧盟给科技公司3-6个月的时间遵守新规,否则将面临潜在罚款,金额从810万美元(或全球年营业额的1%)到3800万美元(或全球年营业额的7%)不等。 🤔 为什么值得关注:尽管此新法规旨在保护欧盟及其公民,但它将对全球科技公司产生重大影响,特别是在美国。大多数先进的AI系统来自美国公司(如苹果、OpenAI、谷歌和Meta),其中Meta和苹果已经因“欧洲监管环境的不确定性”而推迟了在欧盟推出其AI系统的计划。
英特尔大裁员:15,000员工受影响,削减支出计划启动
英特尔在周四的一份员工备忘录中宣布,将裁员超过15%,即15,000名员工。这次大规模裁员是为了在2025年之前削减100亿美元支出的计划的一部分,此前公司的第二季度财报和前景都很惨淡。 CEO帕特·基辛格在备忘录中表示:“我们的收入没有达到预期——我们尚未充分受益于像AI这样的强劲趋势。我们的成本过高,利润率太低。我们需要采取更大胆的行动来解决这两个问题——特别是在考虑到我们2024年下半年的财务业绩和前景比之前预期的更加严峻。” 基辛格描述,英特尔在利用AI热潮方面一直不如其他硬件公司,如Nvidia。英特尔大约25年前引领了科技行业的CPU芯片革命,但在接受智能手机和AI等新一波计算技术方面行动迟缓。基辛格表示,尽管在2020年至2023年间,英特尔的员工增长了10%,但年收入却下降了240亿美元。与此形成鲜明对比的是,其他芯片制造商在AI热潮中收入和估值都飙升至惊人的高度。 英特尔报告称,与去年同期相比,第二季度收入下降了1%。公司将损失归因于与其AI PC产品相关的毛利率压力。公司还将从2024年第四季度开始暂停股东分红,并预计下半年的趋势将比之前预期的更具挑战性。 除了裁员之外,英特尔将在下周为员工提供“自愿离职”计划申请,根据备忘录,公司还将为符合条件的员工宣布一项全公司的增强退休计划。
TikTok每月2千万美元的AI支出:微软的风险
据匿名消息来源透露,TikTok通过微软购买OpenAI模型,每月花费2000万美元,截至今年三月。这个数字占微软AI收入的约25%。 这对微软来说是个风险。TikTok的母公司字节跳动正努力开发自己的AI模型。据《The Verge》去年12月报道,字节跳动甚至在利用OpenAI的技术实现这一目标。如果成功,TikTok将不再需要OpenAI,也不再需要微软。 这种困境在快速发展的人工智能领域并不新鲜。Nvidia也面临类似风险。这家AI芯片制造商的业务高度集中在巨头科技公司中,但这些客户,包括微软在内,已经在使用Nvidia的硬件开发自己的AI芯片。这让投资者和分析师担心,最终,Nvidia的一些客户将不再需要其产品。 希望对微软来说,字节跳动开发AI模型的过程会比较慢。就在昨天,微软在第四季度财报中公布的AI云销售未能达到分析师的高预期。周三收盘后,微软股价下跌了6%。周四早盘,股价略有回升,约为418美元。 其他被报道通过微软购买OpenAI模型的大客户包括AT&T、可口可乐、富达、沃尔沃和沃尔玛。其他OpenAI企业客户,如Zoom、Klarna和Salesforce,则直接从这家AI初创公司购买软件。
更小、更安全、更透明:Google发布的Gemma推动负责任AI的进步
在六月,Google推出了全新的Gemma 2,这款顶级的开源模型拥有270亿(27B)和90亿(9B)参数。自发布以来,27B模型迅速成为LMSYS Chatbot Arena排行榜上的高分选手,甚至在真实对话中超越了许多比它大两倍的流行模型。 但Gemma不仅仅是为了性能。它的基础是负责任的AI,优先考虑安全性和可访问性。为了支持这一承诺,Google隆重宣布三个新的Gemma 2系列成员: 有了这些新增功能,研究人员和开发人员现在可以创建更安全的客户体验,深入了解模型,并自信地在设备上负责任地部署强大的AI,开启创新的新可能性。 Gemma 2 2B: 下一代性能体验,现已上线 Google很高兴介绍备受期待的Gemma 2家族新成员——Gemma 2 2B模型。这个轻量级模型通过从更大模型中学习,产生了出色的效果。实际上,Gemma 2 2B在Chatbot Arena上超越了所有GPT-3.5模型,展示了其卓越的对话AI能力。 图表:LMSYS Chatbot Arena排行榜得分LMSYS Chatbot Arena排行榜得分捕捉于2024年7月30日。Gemma 2 2B得分正负10。 Gemma 2 2B提供了: 从今天起,可以从Kaggle、Hugging Face、Vertex AI Model Garden下载Gemma 2的模型权重,也可以在Google AI Studio中体验其功能。 ShieldGemma:用最先进的安全分类器保护用户 为了确保开放模型能够负责任地部署,确保AI输出具有吸引力、安全和包容性,开发者和研究人员需要付出大量努力。为了帮助开发者实现这一目标,Google推出了ShieldGemma,这是一系列最先进的安全分类器,旨在检测和减轻AI模型输入和输出中的有害内容。ShieldGemma特别针对四个关键领域的危害: 这些开放分类器补充了现有的负责任AI工具包中的安全分类器套件,其中包括使用有限数据点构建特定政策分类器的方法,以及通过API提供的现有Google Cloud现成分类器。 ShieldGemma能够帮助开发更安全、更优质的AI应用: “随着AI的不断成熟,整个行业将需要投资于开发高性能的安全评估器。很高兴看到Google做出了这一投资,并期待他们继续参与我们的AI安全工作组。”~ ML Commons执行董事Rebecca Weiss Gemma Scope:用开放稀疏自编码器揭示AI决策 Gemma Scope为研究人员和开发人员提供了前所未有的透明度,让他们能够深入了解Gemma 2模型的决策过程。像一个强大的显微镜,Gemma Scope使用稀疏自编码器(SAEs)放大模型内的特定点,使其内部工作原理更加可解释。 这些SAEs是专门的神经网络,帮助解读Gemma 2处理的密集复杂信息,将其扩展为更易于分析和理解的形式。通过研究这些扩展视图,研究人员可以获得宝贵的见解,了解Gemma 2如何识别模式、处理信息并最终做出预测。通过Gemma Scope,Google旨在帮助AI研究社区发现如何构建更可理解、负责和可靠的AI系统。…
OpenAI开始为ChatGPT Plus用户进行新AI语音功能的Alpha测试
OpenAI已经开始为ChatGPT Plus用户进行“高级语音模式”的Alpha测试。这个功能旨在促进更流畅和自然的对话,允许用户随时打断AI。此次推出将逐步进行,最初通过电子邮件和应用内通知向部分用户开放,计划在秋季进行更广泛的发布。 该语音功能由GPT-4o提供支持,并已在45种语言中进行了测试,参与测试的外部团队超过100个。为了确保隐私,该模式使用了四种预设语音,并设有安全措施以防止偏离和不当内容的产生。 这个功能的引入经历了一些延迟,原计划于六月发布,但由于安全问题和其语音与女演员斯嘉丽·约翰逊相似而引发争议。此次测试阶段获得的见解将有助于优化语音功能,并解决初次宣布时出现的各种问题。
OpenAI发布实验性GPT-4o Long Output模型,输出容量提升16倍
OpenAI正面临资金短缺的传闻,但这并未阻止这家领先的生成式人工智能公司继续发布一系列新模型和更新。昨天,OpenAI悄悄地发布了一个网页,宣布推出一款新的大语言模型(LLM):GPT-4o Long Output。这是五月推出的GPT-4o模型的变体,但输出大小大幅增加:从最初的4,000个tokens扩展到64,000个tokens,增加了16倍。 为了回应客户对更长输出上下文的需求,OpenAI决定引入这种扩展的输出功能。一位OpenAI发言人向VentureBeat解释说:“我们听到了客户希望有更长输出上下文的反馈。我们一直在测试如何最好地服务于客户的需求。”Alpha测试阶段预计将持续几周,OpenAI将收集数据以评估扩展输出是否有效满足用户需求。 GPT-4o Long Output模型在处理要求详细和广泛输出的应用中具有特别的优势,如代码编辑和写作改进。通过提供更长的输出,GPT-4o模型可以提供更全面和细致的响应,从而显著提升这些用例的效果。 GPT-4o模型自发布以来,已经提供了最大128,000的上下文窗口——即模型在一次交互中可以处理的tokens总量,包括输入和输出tokens。对于GPT-4o Long Output,这一最大上下文窗口保持在128,000。但是,OpenAI能够将输出tokens从4,000增加到64,000,而总的上下文窗口仍保持在128,000。 这种扩展输出的能力让用户或开发者可以选择:是优先更长的LLM响应,还是保持更多的输入tokens。在所有情况下,用户或开发者都必须做出选择或权衡:他们是否愿意牺牲一些输入tokens来换取更长的输出?对于希望获得更长答案的用户,GPT-4o Long Output现在提供了这一选项。 新的GPT-4o Long Output模型的定价如下: 相比之下,常规GPT-4o的定价为每100万个输入tokens 5美元和每100万个输出tokens 15美元,而新的GPT-4o mini为每100万个输入tokens 0.15美元和每100万个输出tokens 0.60美元。可以看出,GPT-4o Long Output的定价相当激进,继续了OpenAI最近的主张,即希望使强大的AI对广大开发者用户群体变得负担得起且易于访问。 目前,这一实验性模型的访问权限仅限于少数可信的合作伙伴。发言人补充道:“我们正在与少量可信的合作伙伴进行几周的alpha测试,以查看更长的输出是否有助于他们的用例。”根据这一测试阶段的结果,OpenAI可能会考虑向更广泛的客户群体开放这一功能。 正在进行的alpha测试将提供有关扩展输出模型的实际应用和潜在好处的宝贵见解。如果初始合作伙伴的反馈积极,OpenAI可能会考虑更广泛地开放这一功能,使更多用户能够受益于增强的输出能力。显然,OpenAI希望通过GPT-4o Long Output模型,解决更多客户需求,并支持需要详细响应的应用。
发布Meta Segment Anything Model 2 (SAM 2):开启图像和视频分割的新时代
下载模型:https://github.com/facebookresearch/segment-anything-2 下载数据:https://ai.meta.com/datasets/segment-anything-video/ 试试:https://sam2.metademolab.com/ 下载文章:https://ai.meta.com/research/publications/sam-2-segment-anything-in-images-and-videos/ 继Meta Segment Anything Model (SAM) 在图像分割领域取得成功之后,Meta发布了SAM 2,这是一款用于图像和视频的实时可提示对象分割的统一模型,达到了业界最先进的性能。为了促进开放科学,Meta分享了SAM 2的代码和模型权重,并采用了宽松的Apache 2.0许可证。此外,Meta还发布了SA-V数据集,该数据集包含大约51,000个真实世界的视频和超过600,000个空间时间掩码。 SAM 2具备在任何视频或图像中分割任何对象的能力,即使是以前未见过的对象和视觉域,这使得其能够应用于各种无需定制适应的用例。SAM 2在图像分割精度上超过了之前的能力,并在视频分割性能上优于现有的工作,同时需要的交互时间减少了三倍。SAM 2的多种潜在应用包括与生成视频模型结合以创建新的视频效果,帮助建立更好的计算机视觉系统的快速注释工具,以及在科学研究中追踪显微镜拍摄的视频中的移动细胞。 为了保持开放科学的理念,Meta将SAM 2的研究与社区分享,使他们能够探索新的能力和用例。Meta分享的资源包括采用Apache 2.0许可证开源的SAM 2代码和权重,采用BSD-3许可证开源的SAM 2评估代码,以及SA-V数据集。SA-V数据集比现有最大的在线视频分割数据集大4.5倍,包含约51,000个真实世界视频和超过600,000个掩码。Meta还发布了一个基于网页的演示,允许实时交互分割短视频并应用视频效果。 在视频分割任务中,SAM 2能够在视频的任何帧中选择和细化对象。SAM 2的架构可以看作是SAM从图像领域到视频领域的推广,通过存储和使用以前处理过的视频信息,实现对对象的准确分割。SAM 2的流式架构使其能够实时处理任意长度的视频,对于数据注释和实际应用如机器人技术具有重要意义。 Meta通过SAM 2在循环中的交互式模型设置与人类注释员合作,收集了一个大而多样的视频分割数据集。注释员使用SAM 2互动注释视频中的掩码,然后用新注释的数据更新SAM 2。这个循环反复进行,多次迭代后,模型和数据集都得到了改进。与SAM相比,使用SAM 2进行注释的速度快了8.4倍,并显著快于将SAM与现成的跟踪器结合使用。 在研究中,SAM 2在17个零样本视频数据集上的互动视频分割表现显著优于以前的方法,同时需要的人工交互减少了约三倍。SAM 2在其23个数据集的零样本基准套件上优于SAM,同时速度快了六倍。在现有视频对象分割基准(如DAVIS、MOSE、LVOS、YouTube-VOS)上,SAM 2相较于之前的最先进模型表现更佳。SAM 2在循环中的视频分割注释速度比使用SAM逐帧注释快了8.4倍。 尽管SAM 2在分割图像和短视频中的对象表现出色,但在一些挑战性场景下仍有改进空间。比如,在剧烈的相机视角变化、长时间遮挡、拥挤场景或长视频中,SAM 2可能会失去对对象的跟踪。Meta通过设计交互式模型并允许在任何帧上进行手动干预,部分缓解了这一问题。 总之,Meta希望通过发布SAM 2和相关资源,推动开放科学的发展,促使AI社区共同探索新能力和应用场景,从而创造更多有益于社会和人类的技术。
苹果宣布其AI模型使用谷歌处理器进行预训练
苹果公司周一宣布,其AI系统Apple Intelligence的基础模型是在谷歌设计的处理器上进行预训练的,这表明科技巨头们正在寻找Nvidia之外的替代方案来训练最前沿的AI技术。 苹果在一篇刚刚发布的技术论文中详细描述了选择谷歌自主研发的张量处理单元(TPU)进行训练的过程。此外,苹果还在周一为部分设备发布了Apple Intelligence的预览版。 Nvidia昂贵的图形处理单元(GPU)主导了高端AI训练芯片市场,过去几年需求量非常大,难以在所需数量上采购。OpenAI、微软和Anthropic都在使用Nvidia的GPU进行模型训练,而包括谷歌、Meta、甲骨文和特斯拉在内的其他科技公司也在抢购这些GPU来构建其AI系统和产品。 Meta首席执行官马克·扎克伯格和Alphabet首席执行官桑达尔·皮查伊上周都表示,他们的公司以及行业内的其他公司可能在AI基础设施上投入过多,但承认不这样做的商业风险太高。 扎克伯格在与彭博社记者Emily Chang的播客中说:“落后的后果是你将错过未来10到15年内最重要的技术。” 苹果在其47页的论文中没有提到谷歌或Nvidia,但指出其Apple Foundation Model(AFM)和AFM服务器是在“云TPU集群”上训练的。这意味着苹果租用了云提供商的服务器来进行计算。 “该系统使我们能够高效且可扩展地训练AFM模型,包括AFM-on-device、AFM-server和更大的模型,”苹果在论文中表示。 苹果和谷歌的代表未回应置评请求。 苹果比许多同行更晚公开其AI计划,这些同行在OpenAI于2022年底推出ChatGPT后不久就大力拥抱生成式AI。周一,苹果推出了Apple Intelligence。该系统包括几个新功能,如Siri的全新外观、更好的自然语言处理和文本字段中的AI生成摘要。 在接下来的一年中,苹果计划推出基于生成式AI的功能,包括图像生成、表情符号生成以及能够访问用户个人信息并在应用内执行操作的增强版Siri。 在周一的论文中,苹果表示,AFM on-device是在一片由2048个TPU v5p芯片共同工作的“切片”上训练的。这是最先进的TPU,首次发布于去年12月。AFM-server是在8192个TPU v4芯片上训练的,这些芯片通过数据中心网络配置为八片共同工作。 谷歌官网显示,最新的TPU在提前预订三年时,每小时使用成本不到2美元。谷歌于2015年首次推出其TPU用于内部工作负载,并于2017年向公众开放使用。现在它们已成为最成熟的人工智能定制芯片之一。 尽管如此,谷歌仍是Nvidia的最大客户之一。它在训练AI系统时使用Nvidia的GPU和自己的TPU,还在其云平台上出售Nvidia技术的访问权限。 苹果此前表示,推理,即使用预训练的AI模型生成内容或进行预测,将部分在其数据中心的苹果自有芯片上进行。 这是苹果关于其AI系统的第二篇技术论文,第一篇较为通用的版本于今年6月发布。苹果当时表示,在开发AI模型时使用了TPU。 苹果定于周四收盘后公布季度财报。