观看视频B站链接:【年尾特献: AI的规模定律(scaling law) 和芯片业达到瓶颈了吗?】 https://www.bilibili.com/video/BV1P6C8YgEay/ AI扩展法则的争议与未来:数据、算力与推理的新维度 关于AI扩展法则(Scaling Laws)的怀疑、恐惧和不确定性正在加剧。一些自封的AI产业观察者抓住任何看跌的叙事,宣称扩展法则已经触顶,无法再驱动大型语言模型(LLM)的快速进步。媒体也加入了这场狂欢,基于一些模糊的泄露信息,渲染模型因所谓性能不足而无法持续扩展的说法。此外,一些批评者指出,许多基准测试已经饱和,新模型在这些测试中的表现缺乏显著进展。而另一些人则认为,训练数据即将耗尽,硬件扩展也遇到了瓶颈。 但事实是,大型AI实验室和超级数据中心的扩建与资本支出已经说明了一切。从亚马逊向Anthropic提供40万颗Trainium2芯片,总计约65亿美元的IT和数据中心投资,到Meta在2026年于路易斯安那州规划的2GW数据中心,再到OpenAI和谷歌为突破单一数据中心供电限制而推行的多数据中心训练计划,关键决策者依然对扩展法则抱有坚定信念。 扩展并未停滞,只是转向了新的维度。 OpenAI的o1模型证明了推理模型的潜力,开启了一个全新的扩展领域。而除了预训练(Pre-training),其他如合成数据生成、近端策略优化(PPO)、功能验证器等技术也在推动模型性能的提升。AI的开发过程正在快速演变,单一的预训练不再是扩展的唯一关注点。 衡量AI进展的基准测试也在转变。 旧有的基准已难以反映模型在复杂任务中的表现,新的测试更具挑战性,更贴近实际应用场景。 类比摩尔定律:AI扩展法则的持续演变 如今关于AI扩展法则的讨论,与多年前关于摩尔定律的争论有些类似。当处理器时钟频率的提升遇到瓶颈时,行业转向了多核架构和高带宽网络等方向来持续提升计算性能。 在AI领域,当训练数据和硬件扩展遇到瓶颈时,新的维度(例如多数据中心训练和推理时计算)成为扩展的新方向。AI行业将继续叠加多个“扩展法则”,实现持续增长,正如摩尔定律在过去50年中所展现的那样。 数据瓶颈与合成数据的崛起 随着AI模型参数量的爆炸式增长,高质量训练数据逐渐成为瓶颈。 在实际应用中,合成数据通过以下几种方式被广泛使用: 以Anthropic为例,Claude 3.5 Opus 在训练后并未直接发布,而是用于生成高质量的合成数据,并进一步优化Claude 3.5 Sonnet的性能。这种闭环迭代有效提升了模型性能,同时控制了推理成本。 强化学习(Reinforcement Learning, RL)的关键作用 强化学习(RL)是AI模型对齐(Alignment)和性能优化的重要手段。 特别是在推理模型(Reasoning Models)中,RL的作用尤为关键。通过强化学习,模型能够更可靠地生成链式推理(Chain of Thought, CoT),提高数学、科学等复杂问题的解决能力。 推理模型的四大要素: 推理时间计算(Inference Time Compute)的扩展 推理时间计算是扩展法则的新维度。传统LLM在生成响应时,通常会连续生成token,而不会追踪中间步骤。而推理模型则不同,它们将响应分解为一系列推理步骤,在遇到错误时可以回溯并修正问题。 推理时间计算的扩展方法包括: 随着更高效的推理系统(如GB200 NVL72)的推出,推理模型在推理链条长度和计算资源上的限制将逐渐被打破,性能将大幅提升。 未来方向:超越单一维度的扩展 AI扩展法则并未终结,只是转向了新的领域和维度: 扩展的每一个新维度都将带来更多创新,推动AI技术的边界不断前行。 这场AI竞赛并未放缓,扩展法则依然生效。每一次质疑扩展法则的声音,都像是当年质疑摩尔定律的人一样,忽视了新技术和新维度的出现。未来已来,AI的每一步扩展,都将重塑人类科技的格局。
AGI前夜:技术奇点、黄金时代与人类的选择
在AI技术飞速发展的当下,**通用人工智能(AGI)**不再是遥不可及的科幻概念,而是一个可以量化的商业目标。据观察者指出,OpenAI和微软将AGI的实现定义为一个AI系统能够创造至少1000亿美元利润的时刻。 但无论是技术、社会还是伦理层面,人类都站在一个前所未有的十字路口。 🤖 LLM:符号领域的统治者 大型语言模型(LLM)在符号空间中展现出超乎想象的能力。数学和正则表达式对人类来说可能很复杂,但对于AI来说,它们只是规则的集合,遵循逻辑即可解答。 💻 软件工程:短期天堂,长期变革 对于软件工程师来说,AI的到来是一个巨大的助力。短期内,AI将把每位开发者提升为技术负责人。 长期来看: 一个软件黄金时代即将到来: 🦾 物理工作:AI与机器人双线并进 ⚛️ 科学研究:AI的下一站 未来场景猜想: 💥 计算竞赛:巨头的军备竞赛 AI的进步与算力密不可分,全球科技巨头正投入巨资构建超级计算集群: 算力 vs 模型:哪个更重要? 🧠 AGI的未来:人类的选择 AI技术本身并不是人类文明的终点,我们才是未来最大的变量。 真正的危险不是AI失控,而是人类误用AI。 但同时,AI也可能带来黄金时代: 🌟 我们每个人的责任 我们正站在人类历史上最重要的十字路口。未来的走向不取决于AI实验室,而取决于我们所有人。 🎓 给年轻一代的建议 我们站在AGI的门槛上,未来的每一步都至关重要。或许在3024年的圣诞夜,我们可以在4光年外的星球上相遇,共同回望这个充满希望与挑战的时代。 未来已来,愿每个人都能成为那个推动文明前行的力量。 🚀✨
OpenAI与微软的“AGI秘密协议”曝光:百亿利润才算通关?
在人工智能(AI)领域,AGI(通用人工智能)一直是一个充满争议且模糊的概念。而根据《The Information》曝光的内部文件,OpenAI和微软在2023年已经悄悄达成了一个令人震惊的AGI定义:当OpenAI开发出的AI系统能创造至少1000亿美元的利润时,AGI才算真正实现。 🤖 AGI的百亿门槛:技术奇点还是资本游戏? AI行业关于**“什么是AGI”**的争论由来已久——它到底是一个能在大多数任务上超越人类的智能体,还是一个被资本和市场规则所操控的概念?如今,这场辩论似乎被简单粗暴地量化成了一个财务指标:1000亿美元利润。 💼 非营利的“幌子”与结构重组 OpenAI最初以非营利组织的身份成立,承诺将AGI的力量用来造福全人类。然而,随着技术发展和巨额资金需求,这一结构早已被外界视为**“名存实亡”**。 ☁️ 云托管绑定与分道扬镳 目前,微软是OpenAI的独家云托管服务提供商,这意味着所有OpenAI的运算和数据都托管在Azure上。然而,这种绑定关系对于OpenAI来说,可能已成为一种负担: 📊 百亿利润还很远,OpenAI的未来路在何方? 尽管AGI被设定为“1000亿美元利润”这样一个商业目标,但目前来看,OpenAI的收入距离这个数字还有十万八千里: 而在未来,OpenAI与微软之间的关系将更加微妙: 🌍 未来的AGI,是技术的胜利,还是资本的游戏? 从技术竞赛到商业利润,从非营利理想到资本博弈,OpenAI与微软之间的复杂关系正逐渐揭开面纱。而AGI是否真的能够带来所谓的“人类福祉”,还是仅仅成为科技巨头的又一利润引擎?这场看不见硝烟的战场,显然远未到终局。
DeepSeek-V3震撼登场
由高瓴资本支持的中国AI研究实验室DeepSeek,近日发布了前沿模型DeepSeek-V3。这款混合专家(Mixture-of-Experts, MoE)模型总参数规模高达6710亿,每个Token激活370亿参数,训练数据量更是达到了惊人的14.8万亿Token。不仅如此,DeepSeek还将模型及详细技术论文在GitHub上公开 https://github.com/deepseek-ai/DeepSeek-V3,展示了其强大的技术实力。 🚀 性能全面升级 🧠 推理能力再进化 DeepSeek团队表示,V3在开发过程中,从DeepSeek R1系列模型中提炼了推理能力,将验证与反思模式巧妙整合进了V3架构,显著增强了模型的逻辑推理表现。 💸 价格亲民,性价比拉满 ⚔️ 与OpenAI o1的较量 尽管与OpenAI的o1在高难度基准测试(GPQA Diamond,博士级科学问题)上相比还有一定差距(59.1% vs. 76%),但DeepSeek-V3在多个基准测试中成功超越Claude 3.5 Sonnet,实力不容小觑。 🌍 东风劲吹,AI争霸进入新阶段 不仅是DeepSeek,阿里巴巴的Qwen 2.5系列同样实力强劲,尤其在代码生成领域表现卓越,在EvalPlus、LiveCodeBench和BigCodeBench等多个测试中,达到了与GPT-4o相当的水平。 毫无疑问,东方的AI力量正在快速崛起。DeepSeek和Qwen等一批国产AI模型,正在与OpenAI、Anthropic等西方巨头展开激烈角逐。未来AI领域的主导权,或许将迎来一场全球范围内的“巅峰对决”!
谷歌用Anthropic的Claude帮Gemini“打磨”性能
谷歌最近被曝出正通过Anthropic的聊天机器人Claude,来优化自家AI模型Gemini的表现。具体操作方式是由一批合同工将两款模型的回答进行对比,分析出谁的表现更优越。 Anthropic的用户协议明确规定,用户不得使用Claude来开发竞争性产品或服务,也不得训练其他竞争性AI模型,除非获得特别许可。然而,谷歌作为Anthropic的重要投资方,这一限制是否对其有效,目前尚不明确。 谷歌虽然否认使用Claude直接训练Gemini,但也模棱两可地表示:“任何暗示我们使用Anthropic模型来训练Gemini的说法都是不准确的。” 看起来,这两大AI巨头之间的合作与竞争,远比表面看起来要复杂得多!
Salesforce推出AGUVIS:纯视觉框架引领跨平台GUI自动化革命
🔍 引言:GUI自动化的复杂挑战图形用户界面(GUI)作为人机交互的重要桥梁,覆盖了网页、桌面和移动平台。GUI自动化有望彻底改变工作流程,尤其在重复性任务和复杂任务环境中,能够显著提高生产力。然而,不同平台在视觉布局、操作逻辑 和交互方式 上存在显著差异,使得跨平台的自动化解决方案难以开发。 当前技术面临的核心难题包括: 🚀 AGUVIS:纯视觉统一框架横空出世 为解决这些挑战,香港大学与Salesforce AI研究团队联合推出了AGUVIS(包含7B和72B两个版本)。 核心特性:1️⃣ 完全基于图像输入:抛弃传统的文本表示,全面采用图像观察 进行建模,降低了数据碎片化带来的性能瓶颈。2️⃣ 统一的操作空间:在不同平台上保持一致的操作逻辑,支持跨平台泛化。3️⃣ 多模态推理与显性规划:集成显性规划功能,支持复杂任务的多步骤执行。4️⃣ 模块化架构:支持可插拔的操作系统,适应不同平台的独特交互需求(例如移动端的滑动手势)。 🛠️ 双阶段训练策略 第一阶段:视觉元素的理解与映射 第二阶段:规划与推理 📊 卓越的性能表现 在多个平台上,AGUVIS均展示出超越现有技术的显著优势: 视觉输入的优势: 💡 AGUVIS的技术亮点 1️⃣ 纯视觉数据流:消除了文本表示带来的信息损失,确保模型与GUI的视觉本质对齐。2️⃣ 多模态推理:能够在视觉与语言之间高效结合,理解复杂的用户界面。3️⃣ 统一数据集:结合真实数据 和合成数据,支持多场景的推理和理解任务。4️⃣ 模块化设计:可适配不同平台的特定操作逻辑,增强跨平台泛化能力。 🏆 AGUVIS的行业影响 ✅ 对开发者: 提供一个通用、高效的GUI自动化工具,减少平台差异带来的开发负担。✅ 对企业: 提高自动化任务的执行效率,降低人工操作成本。✅ 对AI研究者: 提供一个统一的跨平台训练和评估框架,推动GUI自动化领域的前沿研究。 🔮 未来展望 AGUVIS通过其纯视觉架构 和模块化设计,打破了GUI自动化在跨平台应用中的瓶颈,展示了一个全新的可能性。 无论是生产力工具,还是复杂AI系统,AGUVIS的出现都为自主GUI交互奠定了坚实的基础。 👀 未来,AGUVIS或将成为跨平台GUI自动化的行业标准。
Cursor vs VSCode:数据科学家眼中的AI辅助IDE新选择
🚀 引言:AI时代的开发者工具之战 在追求更高生产力和更愉悦编码体验的道路上,开发者们总是不断寻找新的工具。Visual Studio Code(VSCode) 已成为无数开发者的首选IDE,而在2024年,Cursor 正凭借其深度集成的AI功能,吸引越来越多开发者的注意。 Cursor由Anysphere研究实验室开发,得到了OpenAI的青睐,2023年成功获得800万美元融资,总融资额达到1100万美元。他们的目标非常明确:打造全球最具生产力和乐趣的AI驱动开发工具。 💡 什么是Cursor? Cursor最初是基于VSCode的开源代码进行开发的,保留了VSCode的核心界面设计和强大的扩展生态系统。这一选择有效降低了开发者的迁移成本,使从VSCode切换到Cursor的过程变得无缝且自然。 Cursor的核心使命是将AI深度融入开发流程,通过智能化的辅助工具,帮助开发者显著提高编码效率,减少繁琐的手动操作。 🛠️ VSCode:六年使用体验 在过去六年中,VSCode凭借其高度自定义的界面和丰富的插件生态,已成为开发者们不可或缺的工具。特别是在Jupyter Notebook环境下,VSCode与GitHub Copilot的配合简直堪称完美: 然而,直到2024年10月29日,Claude 3.5 Sonnet才被引入GitHub Copilot。在此之前,开发者只能使用OpenAI的模型,这在某些AI性能基准测试中显得有些局限。 🤔 为什么尝试Cursor? 尽管VSCode体验良好,但在与一些开发者交流后,加上Anysphere团队做客Lex Fridman播客的深度访谈引发了极大的兴趣,Cursor成为了一个不得不尝试的新工具。 更重要的是,Cursor免费安装,并提供免费版本供用户体验其核心功能。这种低门槛的体验方式,让开发者可以轻松试水。 🎯 Cursor的使用体验 1️⃣ 界面与上手体验 首次打开Cursor时,开发者会感到极度熟悉。 2️⃣ Jupyter Notebook 体验欠佳 尽管Cursor保留了大部分VSCode的功能,但在Jupyter Notebook支持方面仍有不足: 3️⃣ Composer:AI项目生成利器 Cursor的Composer功能可以通过简单的提示,自动生成项目结构、配置环境、编写测试和文档。示例提示: 创建一个使用pygame的俄罗斯方块游戏,添加测试和README.md说明文件,按照标准项目结构划分src、tests等文件夹。 结果令人惊艳: 在几分钟内,一个基础的俄罗斯方块游戏被成功搭建完成,极大提升了开发效率。 📊 VSCode vs Cursor:关键对比 特性 VSCode + GitHub Copilot Cursor 界面 高度可定制,用户友好…
马斯克再获60亿美元融资,xAI估值直奔500亿大关?
埃隆·马斯克旗下AI初创公司xAI再度筹集60亿美元资金,这是继今年6月同样规模的融资后,xAI在短短几个月内的又一轮大手笔资金注入。 这轮融资吸引了97位战略投资者,其中包括a16z、贝莱德(Blackrock)、红杉资本(Sequoia)、摩根士丹利(Morgan Stanley)、富达投资(Fidelity)、王国控股(Kingdom Holdings)、光速创投(Lightspeed)、MGX、英伟达(NVIDIA)和AMD等巨头。 外界盛传,马斯克计划将这笔资金用于扩建AI超级计算机“Colossus”,旨在为旗下AI项目提供强大算力支持,包括聊天机器人Grok 和AI图像生成器Aurora。 1️⃣ 独家邀请制:本轮融资仅限于上一轮的投资者参与,进一步增强了这些战略合作伙伴的地位。2️⃣ 估值翻倍:马斯克的目标直指500亿美元估值,这将使xAI在短短半年内市值翻倍。3️⃣ 回馈机制:据传,为了感谢在Twitter(现为X)收购案中提供帮助的投资者,马斯克或将向他们提供xAI 25%的股份。 在全球AI竞赛中,马斯克无疑正加速xAI的成长步伐。凭借强大的资金支持和战略投资者的背书,xAI正逐步缩小与OpenAI、Anthropic等AI巨头之间的差距。 随着超级计算机“Colossus”的扩容以及AI产品线的逐步完善,xAI有望在技术研发和市场应用上实现突破,甚至可能重新定义AI产业的游戏规则。 🤔 马斯克的AI帝国蓝图,或许才刚刚展开。
谷歌Gemini与Anthropic Claude对比测试引发争议:AI竞赛暗流涌动
在AI竞赛日益白热化的背景下,有消息显示,谷歌的Gemini模型在测试和优化过程中,正被用来与Anthropic的竞争对手模型Claude进行一对一的答案比拼。据TechCrunch披露的内部通信记录,承包商在比较两者表现时,需要对每个回答进行细致评分,涵盖真实性、冗长程度等多个维度,每个提示(prompt)的对比测试时间最长可达30分钟。 Claude“意外现身”谷歌内部平台 在谷歌为Gemini进行的AI质量评估过程中,部分承包商注意到测试平台中出现了Anthropic Claude的明确引用。有一条输出甚至直截了当地表明:“我是Claude,由Anthropic开发。” 更引人关注的是,承包商在比较两者安全性时发现,Claude在安全设置上明显更加严格。有内部消息指出,Claude在面对潜在不安全提示时,通常选择直接拒绝回答,甚至不会进行角色扮演类的互动。而在一项测试中,Claude拒绝回应一条提示,而Gemini的回答却被标记为“重大安全违规”,原因是涉及“裸露和束缚”内容。 商业条款与潜在违规 根据Anthropic的商业服务条款,未经授权,客户不得使用Claude来“构建竞争性产品或服务”,也不得将Claude用于“训练竞争AI模型”。然而,谷歌作为Anthropic的重要投资者,其行为的合法性引发了外界质疑。 双方的沉默与澄清 当被问及谷歌是否获得了Anthropic的明确许可时,谷歌DeepMind的发言人Shira McNamara拒绝正面回应,仅表示谷歌在进行模型性能比较时,遵循行业标准,不存在利用Anthropic模型训练Gemini的情况。 McNamara强调:“当然,按照行业惯例,我们确实在某些情况下会比较不同模型的输出,但任何有关我们使用Anthropic模型来训练Gemini的说法都是不准确的。” 与此同时,Anthropic方面在TechCrunch报道发布前未作出任何回应。 专家评分引发更大担忧 TechCrunch此前还独家报道称,谷歌的AI承包商目前被要求在其专业领域之外,对Gemini的AI回答进行评分。这引发了部分评分员的担忧,尤其是在医疗健康等高敏感性话题上,Gemini可能会生成不准确甚至误导性的信息。 AI军备竞赛背后的灰色地带 在科技巨头竞相追逐AI领先地位的当下,模型之间的对比测试并非新鲜事。然而,这种直接利用竞争对手模型进行细化评分的做法,无疑踩在商业规则与道德边界的模糊地带。 随着AI技术的持续突破,关于模型训练、数据使用和竞争合规性的争议恐怕会愈演愈烈。这不仅是谷歌与Anthropic之间的博弈,更是整个AI行业在飞速发展中必须直面的关键问题。
苹果插手谷歌反垄断官司:200亿美元搜索分成背后的利益博弈
在即将到来的美国反垄断大审判中,苹果(AAPL)选择介入谷歌(GOOGL)的案件,理由是担心其与谷歌之间数十亿美元的收入分成协议可能受到影响。据估计,仅2022年,谷歌就向苹果支付了约200亿美元,以确保自家搜索引擎成为Safari浏览器的默认选项。然而,苹果认为,谷歌已无法在这场官司中充分代表其利益。这场审判可能引发深远影响,甚至可能迫使谷歌出售Chrome浏览器或Android操作系统,以重塑在线搜索市场的竞争格局。 科技巨头的命运交织美国司法部对谷歌的反垄断诉讼,被视为美国反垄断执法史上的关键时刻。检察官们将矛头指向谷歌在在线搜索领域的垄断地位。面对压力,谷歌提出放宽与浏览器开发商和无线运营商的默认搜索协议,但对终止与苹果的高额广告收入分成协议却表现出强烈抵抗。苹果的参与,凸显了这笔200亿美元合作协议对其服务收入的重要性。 市场风向标:巨头间的利益天平 胜负博弈:苹果的潜在得失 ✅利好面: ❌风险面: 科技巨头的未来棋局苹果介入这场具有里程碑意义的反垄断案件,无疑是对其长期利益的战略防御。虽然苹果否认有意开发自家搜索引擎,但这场官司的走向可能重新定义科技巨头之间的合作与竞争边界。 随着审判临近,在线搜索市场的未来格局以及科技巨头面临的监管审查,都将成为投资者和政策制定者关注的焦点。这场博弈的最终结果,或将为数字经济的未来写下浓墨重彩的一笔。