DeepSeek的R1推理模型刚刚引发全球轰动,开源AI界的“顶流”Hugging Face就坐不住了!短短一周后,他们宣布要 从零开始复刻R1 (https://huggingface.co/blog/open-r1),并彻底开源所有组件,包括训练数据、模型架构和训练流程。 这个名为 Open-R1 的项目由Hugging Face研究主管Leandro von Werra及其团队发起,目标是在几周内重现R1的能力,同时让所有人都能自由访问和改进它。 DeepSeek的“开源”之谜 DeepSeek的R1虽然 免费可用,但严格来说并 不是真正的开源,因为其训练数据、实验细节和部分关键工具仍是“黑箱”。换句话说,虽然大家可以用,但没人知道它是怎么炼成的。而Hugging Face的研究员们认为,真正的开源不只是“提供模型”,还应该 彻底透明化,让研究人员能够复制、理解和改进它。 “DeepSeek的R1确实很强大,但它没有开放数据集、实验细节或中间模型,导致复现和深入研究都变得困难。” Open-R1项目的工程师Elie Bakouch在采访中表示。“开源R1的完整架构,不只是为了透明度,更是为了释放它的真正潜力。” 为什么R1让硅谷紧张? DeepSeek的R1是一款 推理模型,与普通AI不同,它能够 自我检查和验证答案,因此在数学、物理、科学等领域更可靠。尽管推理模型的运算速度较慢,但相比传统语言模型,它的答案准确性更高。 R1之所以成为焦点,除了其技术实力, 更重要的是它的开发速度和成本。DeepSeek仅在OpenAI推出o1几周后就发布了R1,而且成本只有美国科技巨头的零头。这一现实不仅让华尔街感到震惊,也让整个AI行业开始质疑美国能否继续保持领先地位。 Hugging Face如何复刻R1? Hugging Face的Open-R1项目正利用 Science Cluster(一个包含768块Nvidia H100 GPU的超级计算集群)生成类似R1的训练数据。整个项目完全开放,任何人都可以通过 Hugging Face和GitHub 贡献代码、优化算法,并参与到R1的复现工作中。 “我们需要确保所有算法和训练方法都准确无误。”von Werra表示。“但这正是社区协作的优势——让尽可能多的人一起攻克难题。” 目前,该项目在GitHub上的 关注度爆炸,上线仅 三天 就收获 1万颗星,成为AI开源界的热门话题。如果Open-R1成功,不仅意味着研究人员可以自由复刻R1,还可能成为下一代开源推理模型的奠基石。 开源AI,真的安全吗? 当然,开源AI并非没有争议。部分专家担心,过度开放可能会被滥用,甚至加剧信息操纵等问题。但Bakouch认为, 开源的优势远远大于风险。 “一旦R1的训练方法被复现,任何有GPU租赁能力的人都可以 基于自己的数据打造专属推理模型。”他表示。“我们对最近的AI开源潮感到兴奋,因为它正在打破‘只有少数大公司才能推动AI进步’的神话。” 结论:AI竞争进入新阶段 Hugging Face的Open-R1无疑会加速AI开源潮流,并进一步降低先进AI技术的进入门槛。这不仅影响科技巨头的商业模式,也可能改变全球AI的研发格局。 从DeepSeek的黑箱式开源,到Hugging Face的彻底开放, AI的未来究竟是封闭垄断,还是开源共享? 这场技术与理念的较量,才刚刚开始。
DeepSeek:硅谷AI格局的拐点?
本周,硅谷迎来了一个令人大跌眼镜的现实:打造先进人工智能模型,可能远没有想象中那么高深莫测。 这场“觉醒时刻”的主角,是成立仅一年的中国初创公司DeepSeek。他们推出的开源AI模型R1,实力直逼美国科技巨头的旗舰产品,但研发成本却只是对方的零头,而且使用的是相对普通的芯片,运行时对数据中心的能耗要求也低得多。 硅谷的金钱战术遭遇挑战 长期以来,美国科技圈一直笃信一个“真理”:只要砸下数十亿美元、囤积最先进的芯片、搭建超大规模的数据中心,就能确保在AI竞赛中遥遥领先——哪怕这意味着巨额的环保代价。毕竟,作为全球最富有的一批公司,它们确信自己可以靠堆资源取胜。 但DeepSeek的出现,彻底动摇了这个信念。现在,华尔街开始追问,这场AI竞赛是否已经从“砸钱造最强模型”变成了“谁能用更低的成本打造更高效的AI”。 硅谷的回应:加速,还是降本? 面对DeepSeek的挑战,美国科技巨头已经开始行动。 OpenAI CEO Sam Altman在X(前Twitter)上称R1“令人印象深刻”,并表示公司会“提前发布”新模型。OpenAI首席产品官Kevin Weil也透露,OpenAI的o3模型将在未来几周内推出,并且会是“一个重要的升级”。 “这行业本来就竞争激烈,但DeepSeek让竞争真正变成了全球化,而不仅仅是美国内部的较量。”Weil在一次记者会上表示。他强调,OpenAI的战略是“快速迭代,保持领先”。 但另一方面,投资界却有不同的解读。分析师预测,美国科技巨头可能会重新评估其数据中心的投资计划,并且可能会降低AI服务的价格。DeepSeek已经证明,先进AI模型不一定非要烧掉天文数字的资金。尽管一些专家对DeepSeek声称仅花600万美元打造R1持怀疑态度,但无论如何,它的成功已经引发了行业大地震。 技术革新 vs. 道德争议 DeepSeek的“低成本奇迹”也让人们开始关注它的训练数据来源。微软(OpenAI的最大投资方)正在调查,DeepSeek是否窃取了OpenAI的数据进行训练。如果确有其事,这无疑会在AI领域掀起一场风暴。但即便如此,DeepSeek的创新仍然促使硅谷重新审视其发展模式。 “所有的前沿AI实验室——OpenAI、Anthropic、Google——都将借鉴DeepSeek的经验,开发更高效的模型,”投资公司D.A. Davidson的技术研究主管Gil Luria表示。“最终,这些模型的运行成本会大幅降低,用户支付的费用也会下降。” 当然,即便没有DeepSeek的刺激,行业也迟早会转向“效率优先”模式。毕竟,服务器和电力资源终究是有限的,而一个AI工具在撰写邮件或规划行程方面的能力,提升到一定程度后,再继续堆算力就变得性价比不高了。DeepSeek只是让这一趋势提前发生了。 但硅谷的“大基建”计划并非一夜之间就能撤回。就在上周,OpenAI、Oracle和软银刚刚在白宫宣布成立一家新公司,并承诺投入5亿美元用于美国AI基础设施建设。微软CEO桑达尔·皮查伊(Sundar Pichai)也重申,公司今年将投入800亿美元发展AI。Meta CEO马克·扎克伯格(Mark Zuckerberg)则表示,Meta的AI投资可能高达650亿美元。 “过去几年,我们一直在谈论疯狂扩建AI数据中心,现在看来,这未必是必要的了。”Luria指出。“投资者预计,这些公司可能会在接下来的财报会议上谈及新的成本控制计划。” DeepSeek的意外“正面效应” 尽管DeepSeek的出现让硅谷有些“慌了”,但在某些技术领袖眼中,这未必是坏事。 开放AI(Open-source AI)的支持者认为,DeepSeek的成功正是对“技术应该共享,而非封锁”的最佳证明。他们认为,如果美国科技公司愿意共享创新成果,而不是封闭在专有模型里,整个行业的进步速度将会更快。 前谷歌CEO埃里克·施密特(Eric Schmidt)就在《华盛顿邮报》上撰文表示:“美国已经拥有世界上最好的封闭式模型。为了保持竞争力,我们必须同时推动开放源代码生态的发展。” Meta也表态支持开源AI,认为这场技术变革“将加速AI的普及,让所有人都能更快受益”。 而对于那些真正相信AI将改变世界的人来说,DeepSeek带来的冲击,或许应该被看作是庆祝的理由,而非恐慌的信号。 “我们害怕的,不过是意识到自己并不拥有AI的全球霸权,”AI顾问、OpenAI前市场负责人Zack Kass表示。“但实际上,我们应该为此感到高兴。因为这再次证明,AI革命正在让科技真正民主化,并且它的影响将被公平地分布到世界各地。”
DeepSeek R1有什么不同
深度思考实验室(DeepSeek)最近发布了全新的推理模型R1,声称该模型不仅性能超越目前最先进的推理模型(如OpenAI的O1系列),而且训练规模只用到了西方大厂GPU集群的一个小小分支。更引人注目的是,和这些大厂不同,DeepSeek还公开了一篇论文,详细解释了他们的技术原理。 简单来说,传统模型的工作原理是根据提示预测下一个或一系列的输出文本。而推理模型则尝试将“逐步思考”的行为直接嵌入到模型中,从根本上改变其逻辑思维方式。OpenAI的模型具体如何运作并未公开,但一种可能的机制是这样的:先用一个强大的常规模型生成大量“逐步推理”的示例,然后筛选出正确答案的数据,再用这些数据对模型进行微调。这个过程虽然有效,但耗费巨大,尤其是需要生成海量的高质量推理数据。 而DeepSeek采用了完全不同的方法。他们的训练基于强化学习,而非微调,不需要预先准备海量的推理链数据,也不需要运行高昂的答案验证模型。具体操作如下: 这种强化学习方法不仅降低了成本,还可能带来质量上的提升。传统方法中的推理能力取决于最初基础模型的表现,而DeepSeek的方法允许模型在自我训练过程中创造出全新的推理链,这种自我进化的能力可能最终导致真正的超智能推理能力,类似于国际象棋超级AI展现出的“非人类”策略。 然而,DeepSeek的方法并非没有局限性。由于训练依赖于可机械验证的推理链,模型目前只能在代码和数学领域中表现出色。而像语言逻辑谜题、法律分析等更复杂的推理场景,由于难以验证答案的正确性,暂时无法纳入训练。 至于为何DeepSeek的创新选择在此刻出现,而非更早?一个可能的原因是开源基础模型的性能最近才达到足够强大的水平,能够支撑这种强化学习方法。此外,推理相关的基准测试质量也有了显著提高,为模型提供了足够多需要推理解决的问题。 总的来说,DeepSeek-R1展示了一种高效且潜力巨大的推理模型训练方法,但在跨领域应用方面仍有改进空间。未来的表现,尤其是在人文学科上的能力,仍需拭目以待。
苹果AI最新动态:Siri改造和AI模型优化成2025年首要任务
苹果在人工智能领域的最新动作令人瞩目,尤其是即将发布的iOS 18.4和后续版本将迎来更多创新。据内部泄露的备忘录显示,苹果今年的AI战略将聚焦两个核心领域:重塑Siri技术基础和改进现有AI模型。 Siri大升级:从“语音助手”到“智能助理” 根据彭博社记者Mark Gurman的报道,苹果正在对Siri进行大规模幕后重组,其目标是让Siri实现更高级的语言模型支持,被称为“LLM Siri”。这一项目预计将在2026年春季,可能是iOS 19.4版本中正式亮相。 此外,苹果人工智能部门主管John Giannandrea在内部备忘录中提到,苹果的首要任务是重建Siri的核心技术,让其摆脱当前系统的种种限制。为了加速这一转型,苹果已将Kim Vorrath调入AI部门,由她负责推动这项关键任务的落地。 优化AI模型:解决通知问题 苹果的第二个优先事项是全面改进AI模型。Giannandrea表示,这不仅是提升用户体验的需求,也是解决当前一些技术问题的关键。例如,iOS的通知摘要功能虽然很实用,但因AI支持的准确率问题,常常出现错误分类或遗漏。目前,苹果已在iOS 18.3中暂时禁用部分类别的通知摘要功能,直至相关AI模型得到改善。 苹果的“渐进式创新”策略 尽管苹果的AI计划听起来并非革命性突破,但正如一贯的风格,苹果更倾向于逐步改进,注重细节和整体用户体验的提升。正如网友Gary Hoff所说:“苹果设备的协同能力首屈一指,但Siri作为核心功能却表现落后,希望这次能真正做好!” 苹果的AI战略正朝着更智能、更实用的方向迈进,Siri的技术重塑和AI模型的优化是2025年实现这一目标的关键步骤。对于广大苹果用户而言,这无疑是一个值得期待的转变。
Qwen AI 推出全新长上下文模型:Qwen2.5-7B-Instruct-1M 和 Qwen2.5-14B-Instruct-1M,支持高达 100 万词元的上下文处理
在自然语言处理(NLP)的迅猛发展中,大型语言模型(LLMs)已展现出卓越的上下文理解、代码生成和逻辑推理能力。然而,当前的模型仍面临关键限制:上下文窗口大小有限。大多数模型的上下文长度上限为12.8万词元,对于需要处理长文档或调试大规模代码库等任务来说,这一限制往往导致开发者不得不采取分块处理等复杂的替代方案,增加了计算成本和技术门槛。解决这一难题需要支持超长上下文且性能卓越的模型。 https://qwenlm.github.io/blog/qwen2.5-1m/ Qwen AI 的最新突破 Qwen AI 团队推出了两款新模型——Qwen2.5-7B-Instruct-1M 和 Qwen2.5-14B-Instruct-1M。这两款模型专为处理高达 100 万词元的超长上下文而设计,并配备开源的推理框架,针对长上下文任务进行了深度优化。它们能让开发者一次性处理更大规模的数据集,极大简化了应用场景中的复杂性,尤其是在分析长文档和代码库时。此外,这些模型集成了稀疏注意力机制和内核优化技术,大幅提升了处理长输入时的速度。 技术细节与创新 Qwen2.5-1M 系列基于 Transformer 架构,采用以下核心技术以支持超长上下文: 此外,这些模型兼容 vLLM 的开源推理框架,开发者可轻松集成并部署于实际项目中。 性能表现与优势 在基准测试中,Qwen2.5-1M 系列展示了卓越能力: 这些结果表明,Qwen2.5-1M 不仅具有卓越的长上下文处理能力,还兼顾了高效性,适用于现实场景中对上下文要求较高的任务。 开拓 NLP 的新可能性 Qwen2.5-1M 系列通过延展上下文长度并保持高效性,成功解决了长期困扰 NLP 领域的关键瓶颈。无论是分析大规模数据集、处理完整代码库,还是实现复杂上下文推理,这些模型都能为开发者和研究者提供强大工具。凭借稀疏注意力机制、内核优化以及渐进式长上下文预训练,Qwen2.5-1M 系列已成为处理复杂任务的理想选择。 对于需要超长上下文处理的应用场景,Qwen AI 的这一突破无疑将改变游戏规则,引领下一代 NLP 模型的新潮流。
Meta 计划 2025 年投资 650 亿美元推动 AI 发展
Meta Platforms Inc.首席执行官马克·扎克伯格近日宣布,公司计划在2025年投资高达650亿美元,用于人工智能(AI)相关项目,包括建设一个巨型新数据中心以及扩大AI团队的招聘规模。 扎克伯格在Facebook帖子中提到,这笔资金将用于建设一座“规模大到足以覆盖曼哈顿大部分区域”的数据中心。Meta计划在2025年上线约1吉瓦的计算能力,并预计到年底拥有超过130万块图形处理单元(GPU)。他说:“这是一项大规模的努力,未来几年将推动我们核心产品和业务的创新,为美国技术领导力开创新的篇章。” AI投资浪潮加速 近年来,Meta在AI领域的投资已显著增加。公司近期在路易斯安那州宣布了一项耗资100亿美元的数据中心建设计划。此外,Meta还购买了新型计算芯片,为AI助手和Ray-Ban智能眼镜等产品提供支持。扎克伯格透露,公司将在2025年“大幅扩充AI团队”。 这一消息发布之际,Meta的AI竞争对手也在加紧布局。OpenAI、软银集团(SoftBank Group Corp.)与甲骨文公司(Oracle Corp.)日前宣布成立联合项目“Stargate”,计划在全美范围内建设数据中心和AI基础设施,总投资高达1000亿美元。 Meta资本支出创新高 Meta 2025年的资本支出预计将达到650亿美元,较2024年的开支预测增加约50%,几乎是2023年的两倍。据彭博社分析,这将成为Meta有史以来最大规模的年度投资支出。Meta将在1月29日发布第四季度财报时公布2024年的最终资本支出数据。 尽管扎克伯格去年曾承认,科技公司可能在AI领域存在过度投资的风险,但他强调,与错失技术变革相比,这样的财务损失是可以接受的。他在接受彭博社采访时表示:“如果回头看,或许我们这些公司可能额外多花了几十亿美元。但相比之下,如果在这一领域落后,将会错失未来10到15年最重要的技术变革。” 市场反应与分析师观点 这一投资计划发布后,Meta股票在盘前交易中一度下跌,但纽约交易所开盘后上涨1.7%。Meta的主要芯片设计服务供应商博通公司(Broadcom Inc.)股价也随之上涨3.9%。 彭博社高级信用分析师Robert Schiffman评论道:“Meta将2025年的资本支出大幅提高到650亿美元以上,远超去年和市场预期,这或许是其资本的最佳利用方式,将推动未来增长并巩固其AI领域的领先地位。” 值得注意的是,扎克伯格选择在公司财报发布前五天通过Facebook披露这一重大计划,打破了通常通过财报或官方公告发布的惯例。然而,美国联邦监管机构此前曾裁定,大多数社交媒体平台适用于公司向投资者公开重要信息。 Meta此举表明,AI领域的竞争正在加速,各大科技公司都在争夺下一代技术的制高点。这场烧钱大战,或将决定未来数十年的技术格局。
字节跳动发布UI-TARS,超越GPT-4o和Claude,能接管电脑完成复杂任务
字节跳动的全新人工智能代理UI-TARS横空出世,其能力不仅可以接管用户的电脑,还能自主完成复杂的工作流,大幅超越现有的竞争对手。 UI-TARS与Anthropic的“Computer Use”类似,能够理解图形用户界面(GUI)、进行逻辑推理并逐步执行操作。 行业领先的性能表现 UI-TARS基于约500亿训练标注数据,提供7B和72B参数版本。无论是在性能、感知能力、任务执行能力还是整体表现上,UI-TARS在10多个GUI基准测试中均表现出色,超越OpenAI的GPT-4o、Anthropic的Claude,以及谷歌的Gemini。 例如,在VisualWebBench测试中,UI-TARS 72B取得了82.8%的高分,领先于GPT-4o(78.5%)和Claude 3.5(78.2%)。在WebSRC测试(衡量网页语义内容理解能力)中,UI-TARS-7B得分93.6%,而在复杂屏幕布局理解的ScreenQA-short测试中,UI-TARS-72B以88.6%的成绩拔得头筹,全面超越Qwen、Claude 3.5和Gemini系列模型。 研究团队表示,这些成果证明了UI-TARS在网页与移动端环境中优异的感知与理解能力。这种能力为复杂任务的精准执行奠定了坚实基础。 操作演示:能看懂界面并自主行动 UI-TARS的操作界面分为两部分:左侧为思考过程,实时记录其每一步推理逻辑;右侧为操作窗口,可自动打开文件、访问网站或运行应用程序。 实例场景: UI-TARS的多步骤操作能力和故障恢复能力展示了其出色的自主学习和适应性。 背后技术解析 UI-TARS通过大规模截图数据集训练,数据包含元素描述、类型、视觉信息、位置框和功能等元数据。模型可以全面描述截图内容,不仅识别界面元素,还能理解它们的空间关系。 研究人员还引入了纠错和反思数据,确保模型能够识别错误并动态调整,从而进一步提升任务完成的可靠性与效率。 超越竞争对手的全能表现 与Anthropic的Claude相比,UI-TARS不仅在网页任务中表现优异,还能轻松胜任移动端操作。 Claude在移动任务上的短板反映了其GUI操作能力的局限,而UI-TARS在跨平台领域(如网页和移动端)都展现了卓越的能力。例如,在多步骤操作与移动任务中,UI-TARS在AndroidWorld的116项测试中实现了高分表现,进一步验证了其通用性和实用性。 未来展望 UI-TARS的诞生代表着AI原生代理技术的重大进步。研究人员表示,未来的发展方向在于结合主动学习和持续学习,使代理通过与真实世界的交互自主改进能力。这种前瞻性设计将推动AI在更多实际场景中的落地应用,成为竞争激烈的AI代理市场中的重要玩家。
DeepSeek V3 LLM在NVIDIA H200 GPU上的推理性能
这篇博客聚焦于NVIDIA H200 GPU在大型语言模型(LLM)、视觉语言模型(VLM)和双塔模型(DiT)推理与训练中的性能表现。当前,SGLang团队正与研究团队共同开展实验,确保结果的可重复性和正式性,并投入了GPU基础设施和工程资源。未来文章将探讨H200的硬件优化及SGLang最新的DeepSeek V3功能改进(如FP8 GEMM优化及H200专属的FusedMoE优化)。 Hopper GPU规格对比:H100与H200 技术参数 H100 SXM H200 SXM BFLOAT16 989.5 TFLOPS 989.5 TFLOPS FP16 989.5 TFLOPS 989.5 TFLOPS FP8 1979 TFLOPS 1979 TFLOPS INT8 1979 TFLOPS 1979 TFLOPS GPU内存 80 GB 141 GB GPU内存带宽 3.35 TB/s 4.8 TB/s 相比H100,H200的芯片内存增加了76%(141 GB对比80 GB),内存带宽提升了43%(4.8 TB/s对比3.35 TB/s)。 研究方向 LLM推理中的内存分配 1. 模型状态内存 推理过程中主要关注模型参数占用的内存,而非优化器状态和梯度。 2. 残差状态内存 LLM推理中的主要内存开销在于中间状态和激活值,尤其是KV缓存的存储需求。更大的批次和上下文长度会显著增加KV缓存的大小,这通常远超模型参数的内存占用。…
微软和 OpenAI在Stargate之后
微软近期就 OpenAI 宣布的 5000 亿美元数据中心计划(“Stargate 项目”)澄清了双方的合作关系。在 OpenAI 日益增长的计算需求下,这一合作模式正在发生变化。 合作现状与变化 微软的态度与立场 微软 CEO Satya Nadella 曾在 2023 年 11 月表示,即便 OpenAI 不复存在,微软也具备所有必要资源和能力,包括 IP、计算力和数据。Nadella 强调:“我们在 OpenAI 的上下左右无处不在。” 尽管双方合作关系不再完全独占,微软仍在 OpenAI 的发展中占据核心地位。通过 Azure 的深度绑定以及对 OpenAI 的技术支持,微软在推动 AI 技术发展的同时,确保了自身在云计算和 AI 市场的战略地位。
Trump的“Stargate”
特朗普周二宣布与 OpenAI、甲骨文(Oracle)和软银(Softbank)合作,成立名为 “Stargate” 的联合企业,计划在未来四年内投资 5000 亿美元,用于加强美国的人工智能基础设施。这一消息在白宫由特朗普、软银 CEO 孙正义、OpenAI CEO Sam Altman 和甲骨文联合创始人 Larry Ellison 共同发布。 项目亮点 背景与发展 行业与国家战略意义 展望 Stargate 项目的公布标志着美国在全球 AI 竞争中的重大动作。尽管面临技术和资本密集的挑战,但通过 OpenAI、软银和甲骨文等公司的合作,这一计划将成为推动美国人工智能发展、重塑国家技术优势的重要催化剂。