大语言模型(LLMs)的成功得益于其扩展规律,揭示了模型规模、训练计算量与性能之间的关系。然而,尽管模型扩展取得了显著进展,对推理阶段计算资源如何影响训练后的性能仍缺乏深入理解。这种复杂性在于如何在提高性能与推理计算成本之间找到平衡。特别是,推理策略需要在性能提升和资源消耗之间做出权衡,以实现更高效的推理机制。 推理策略的发展现状 当前对LLM推理策略的研究涵盖了从数学推理到问题解决能力的各个方面。例如,逐步生成解决方案的方法已被拓展为包括解答验证和排名的多层次流程。推理策略从贪婪解码和束搜索等确定性方法,发展到引入多样性生成的动态采样算法。更高级的策略包括多数投票、加权多数投票,以及如蒙特卡洛树搜索(MCTS)等基于搜索的算法。此外,过程奖励模型(Process Reward Models,PRMs)也越来越受关注,利用奖励机制指导多步推理过程。 跨机构研究的最新进展 清华大学跨学科信息科学研究所和卡内基梅隆大学计算机科学学院的研究团队,对推理扩展规律与计算最优推理策略进行了全面研究。他们聚焦于模型规模与推理生成过程之间的关键权衡,分析不同推理方法的性能与成本关系。这项研究表明,借助高级推理算法,小型模型可以在成本和性能方面超越大型模型,这一结论挑战了传统的模型扩展与效率认知。 研究测试了多种推理策略,包括贪婪搜索、多数投票、最佳n选项、加权投票,以及两种树搜索算法。结果表明,小型模型结合先进推理方法时,其效率甚至优于单纯扩展模型规模的策略。 实验设计与关键发现 研究围绕两个核心问题设计实验,探索数学问题解决中的计算最优推理策略。选取了MATH和GSM8K两个数学数据集,采用多个政策模型,包括Pythia模型、专门的数学模型Llemma,以及Mistral-7B。所有实验均使用一个一致的Llemma-34B奖励模型,对基于Math-Shepherd合成数据集的解决方案质量进行评估。通过多次重复实验,确保数据统计结果的稳健性和可靠性。 重要发现: 结论与未来研究方向 这项研究为LLM的计算最优推理策略提供了三大关键结论: 研究的局限性在于其重点集中于数学问题求解。未来研究可探索推理扩展规律在多领域任务中的适用性,从而推动LLM在更广泛应用中的推理效率优化。
Meta呼吁阻止OpenAI从非营利组织转型为营利性公司
Meta最近与埃隆·马斯克站在了同一战线上,呼吁加州总检察长罗布·邦塔(Rob Bonta)阻止OpenAI从非营利组织转型为营利性公司。据《华尔街日报》报道,Meta致信邦塔称,允许这一转型将对硅谷产生“震撼性的影响”。此外,Meta还强调,马斯克及前OpenAI董事会成员希冯·齐利斯(Shivon Zilis)“有资格并且适合代表加州人的利益”来处理此事。 Meta的担忧与理由 Meta在信中指出,如果OpenAI的新商业模式获批,那么非营利投资者将能够享受与传统营利公司投资者相同的利润回报,同时还可以获得政府提供的税收减免。Meta认为,这种模式可能会引发对非营利组织规则的广泛质疑,从而对科技行业的运作模式造成深远影响。 作为OpenAI在AI市场的主要竞争对手之一,Meta对这一潜在转变格外警惕。信中呼吁加州政府采取“直接行动”阻止此事。 马斯克的法律战 马斯克与OpenAI之间的矛盾由来已久。他原本是OpenAI的联合创始人,但后来与公司分道扬镳,成立了竞争对手xAI。他还发起了法律诉讼,试图通过禁令阻止OpenAI的营利化进程。齐利斯作为共同原告,也参与了这一行动。 OpenAI的回应 面对指控,OpenAI公开了来自马斯克的邮件和短信,并反击称,马斯克应当“在市场中竞争,而不是在法庭上争斗”。这一声明不仅直接回应了法律诉讼,还暗示了OpenAI对自身业务模式合法性的信心。 背后的竞争格局 这一事件反映了AI领域激烈的市场竞争。作为行业领军者,Meta、OpenAI和xAI之间的博弈不仅关乎商业利益,也涉及对未来科技规则的定义。无论结果如何,这场关于非营利与营利模式的争论势必会对硅谷乃至全球科技行业产生深远影响。
Ilya Sutskever发表了对AI未来发展的颠覆性看法
OpenAI联合创始人、前首席科学家伊利亚·苏茨克维尔(Ilya Sutskever)最近在温哥华的神经信息处理系统会议(NeurIPS)上罕见公开亮相,并发表了对AI未来发展的颠覆性看法。他表示,AI模型的训练方式即将迎来重大变革,传统的预训练模式“必将终结”。 数据已触顶,AI需要新方向 苏茨克维尔将当前AI训练依赖的海量互联网数据比作“化石燃料”。他指出,如同石油资源有限,互联网中人类生成的内容也是有限的。“我们已经达到了数据的顶峰,未来不会再有更多的新数据。”他认为,尽管现有的数据仍能推动AI的发展,但行业不得不面对一个不可避免的现实:无法再获取更多新数据。这一限制将迫使AI行业探索新的模型训练方式。 他还提到,下一代AI模型将具备“真正的自主能力”,可以像自主代理人(agent)一样独立执行任务、做出决策,并与软件互动。这种系统将不再仅仅依赖模式匹配,而是能够通过推理,逐步解决问题,表现出类似于“思考”的能力。 类比生物进化,AI或将重塑扩展模式 在演讲中,苏茨克维尔用生物进化的脑体比率类比AI的扩展。他提到,大多数哺乳动物的脑体比遵循固定模式,但人类祖先(灵长类)的脑体比在对数尺度上却展现出明显不同的趋势。他推测,AI或许也会在未来找到类似人类大脑进化的突破点,改变目前以预训练为核心的扩展方式。 他还警告说,随着AI模型推理能力的增强,系统的行为将变得更加难以预测,就像高水平AI下棋程序能轻易出其不意地击败顶级人类棋手一样。他相信未来的AI能够从有限数据中理解事物,并在决策中不再出现混淆。 AI的“权利”与人类的共存 在观众问答环节,有人提问如何为AI的开发创造适当的激励机制,确保其具备类似人类的自由权利。对此,苏茨克维尔坦言,解决这些问题可能需要“自上而下的政府结构”,他对这一复杂议题“没有信心给出明确回答”。 当一位观众提议使用加密货币作为解决方案时,现场一片笑声。苏茨克维尔回应称,他对加密货币并无特别见解,但他并未完全排除这种可能性。他进一步表示,如果AI未来选择与人类共存并追求自身权利,这或许并非一个糟糕的结局。“事情变得如此不可预测,我对具体结果持保留态度,但鼓励大家继续思考和探索。” 苏茨克维尔的发言为AI未来发展提出了许多耐人寻味的问题,也再次将讨论焦点引向了人类与AI共存的可能性,以及未来训练方式的全新探索。
OpenAI 第七日 推出了一项新功能——ChatGPT的“Projects”
OpenAI近日推出了一项新功能——ChatGPT的“Projects”,专为整理文件和对话而设计。这一功能让人不禁联想到Google备受欢迎的NotebookLM应用程序,但又有其独特之处。 在OpenAI举办的“12天OpenAI”活动第六天直播中,公司展示了“Projects”功能。该功能允许用户创建文件夹,将对话和文档集中管理,整合到一个界面中。 上周五,“Projects”功能已开放给ChatGPT Plus、Pro和Teams订阅用户。然而,ChatGPT Enterprise和Edu用户需要等到明年一月才能使用。OpenAI表示正努力让这一功能普及到所有用户。用户可通过ChatGPT官网或Windows桌面应用访问该功能,而移动端和MacOS桌面应用则仅支持查看“Projects”。 这一功能与Google的NotebookLM颇为相似,但后者更专注于学术研究。与NotebookLM的“音频概览”功能不同,ChatGPT的“Projects”并未支持播客叙述。不过,用户仍然可以在对话中使用ChatGPT的其他功能,如语音模式、网页搜索和Canvas。 NotebookLM的火爆超出了学术圈,甚至被一些企业用于类似CRM的任务,归功于其强大的信息整理能力。而ChatGPT的“Projects”也在此方向上提供了更多可能。 如何创建“Project” 用户可以在ChatGPT侧边栏找到“Projects”入口。点击“加号”图标,即可创建一个新项目,并为其命名和设置自定义颜色。 “Projects”的一大亮点是支持自定义响应指令。例如,项目经理可以创建一个用于搭建网站的项目,在项目描述中注明网站的用途,同时指示ChatGPT优先使用Canvas功能进行代码编写。 此外,用户还可以上传相关文档,这些文档将成为项目的一部分信息来源。用户甚至可以将ChatGPT现有的对话转移至某个项目中,以便将其作为数据参考。 OpenAI计划明年进一步扩展“Projects”支持的文件类型,并增加与Google Drive或Microsoft OneDrive的连接。此外,用户还将能够通过“Projects”切换使用不同的模型。 一站式平台的竞争 像“Projects”这样的功能展示了OpenAI、Anthropic等聊天平台对用户粘性的重视,试图让用户在一个平台上完成更多工作。 10月推出的Canvas功能也反映了这种策略。Canvas允许用户在ChatGPT中直接生成和编辑文本或代码,而无需切换到其他工具。而Anthropic的Claude Artifacts功能类似,但还支持直接展示网站原型。 与NotebookLM不同的是,“Projects”被集成在ChatGPT的主界面中,而NotebookLM则是一个独立的应用程序,与Gemini聊天机器人或Google其他产品(如编码助手)分离。显然,OpenAI正在努力打造一个全能的一体化平台,让用户始终留在ChatGPT内完成工作。
马斯克与OpenAI之间的官司越来越火热了
OpenAI最近发布了一篇博文,不仅为自己辩护,还放出了马斯克与联合创始人Ilya Sutskever、Greg Brockman、Sam Altman,以及前董事会成员Shivon Zilis之间的一些新短信内容。 博文中的一句话相当刺眼:“靠打官司是无法实现通用人工智能(AGI)的。”这显然是针对马斯克的。AGI是Altman承诺即将实现的目标。文中还提到:“我们高度尊重马斯克的成就,也感激他对OpenAI早期的贡献,但他应该选择在市场上竞争,而不是通过法庭解决。这对于保持美国在人工智能领域的全球领导地位至关重要。OpenAI的使命是确保AGI惠及全人类,我们过去如此,将来也会坚定不移地以使命为驱动。希望马斯克能够认同这一目标,继续秉持推动他本人取得成功的创新和自由市场竞争的价值观。” 新披露的消息显示,2017年7月,Brockman曾告诉Zilis,马斯克在一次会议中表示,非营利模式在初期确实是正确的选择,但“可能现在不太合适了”。同月,Brockman又给马斯克发短信,描述了OpenAI未来的路线:“1. 研究型非营利(2017年底前) 2. 研究+硬件型营利(2018年起) 3. 政府项目(时间未知)。” 博文还揭露了马斯克试图操纵公司局势的细节。他曾尝试担任OpenAI的CEO并获得公司多数控制权。尽管在一次电话中,马斯克表示自己“不在乎股权”,但他也提到需要“积累800亿美元为在火星建立城市做准备”。此外,马斯克还提议将OpenAI并入特斯拉,这一计划早已被披露过。然而,当联合创始人拒绝这一提议(Brockman和Sutskever坦言担心权力斗争)后,马斯克选择了辞职。 据博文描述,辞职后,马斯克在一次全员会议上向团队道别,并鼓励他们“追寻我们看到的筹集每年数十亿美元资金的道路”。他还透露自己将专注于特斯拉的高级人工智能研究,认为特斯拉是唯一可能获得这种资金支持的“载体”。 在马斯克计划收购推特期间,他曾给Altman发信息,表达对OpenAI新估值20亿美元的不满。他写道:“我几乎提供了全部种子轮、A轮和大部分B轮融资。这简直是钓鱼换饵。” 几个月后,马斯克创立了自己的AI公司xAI,与OpenAI展开竞争。 部分短信内容此前已出现在马斯克针对OpenAI及其合作伙伴微软提起的诉讼中。这起诉讼最初于2024年3月提起,指控OpenAI背离了其“为公众利益开发AI”的非营利使命。马斯克随后在2024年6月撤回诉讼,但又在同年8月重新提起。 OpenAI此次发布的内容,显然是针对马斯克对Altman权力集中的指控,试图用证据表明马斯克才是早期试图掌控公司的那一方。
OpenAI 正式赋予 ChatGPT 通过视频实时与用户互动的能力
OpenAI 正式赋予 ChatGPT 通过视频实时与用户互动的能力。这项备受期待的功能在七个月前首次被公开提及,如今终于在直播活动中揭开神秘面纱。 通过新推出的视频选项,ChatGPT 可以利用智能手机的摄像头识别物体并根据屏幕内容进行交互。举例来说,用户可以请求 ChatGPT 协助回复打开的应用中的消息,或者获取实时指导,例如学习如何冲泡一杯咖啡。 这项视频功能将从周四起逐步向付费的 ChatGPT Plus 和 Pro 用户开放,而企业和教育用户将在明年一月获得这一功能的使用权限。 自两年前推出 ChatGPT 引领文本聊天机器人投资热潮以来,OpenAI 及其竞争对手持续扩展所谓的多模态功能,这些功能可以响应音频、图像和视频输入。此类服务让数字助手更具互动性和吸引力,进一步提升用户体验。 此次发布是 OpenAI 为期 12 天的直播产品活动中的一部分。此前,OpenAI 已通过系列发布会推出了更高价的 ChatGPT Pro 订阅选项,并宣布逐步推出一款名为 Sora 的 AI 视频生成工具。这些动态进一步凸显 OpenAI 在人工智能领域的雄心与创新能力。
当一位开发者“失业”后如何重返职场
人生的转折点总是来得猝不及防。这位开发者曾在职业生涯中转战多个领域,从体育理疗师到技术作家,再到自由开发者,但在经历了各种职业尝试后,他发现自己陷入了一种奇怪的“职业不可雇佣状态”。 从开发者到“失业者”的奇异旅程 故事从 2004 年他开始职业开发生涯讲起,但到了 2019 年,他因对 React 16.8 的钩子特性感到兴奋,重新燃起了对编程的热情。几个月内,他成了一位 React 专家,并通过技术博客赢得了远程开发工作的机会。然而,事情很快变得复杂: 结果,招聘经理和技术猎头对他的履历感到困惑,他无法找到一份全职的开发工作,尤其是在新冠疫情初期,技术市场陷入冻结。 开发者“不可雇佣”的陷阱 他指出了几个让自己“不可雇佣”的关键因素: 如何重返职场并实现职业逆袭 尽管经历了各种挫折,这位开发者依然凭借自己的毅力,逐步扭转了局势。他分享了自己的成功经验: 最终,他通过一次完美契合的技术面试,拿下了一份薪资可观的全职开发工作。 职业反思与经验分享 这段经历让他明白了以下几点: 结语:从低谷到巅峰 最终,这位开发者通过专注、努力和不断学习,不仅重新找回了职业方向,还在技术领域获得了稳定的高薪职位。他的故事不仅是对开发者职业发展的启发,更是对每个职场人士的提醒:专注于你的核心技能,始终为自己的职业未来做好规划。
Cerebras 推出 CePO,填补推理与规划能力的关键空白
人工智能技术的快速发展在自然语言理解与生成领域取得了显著进步,但面对复杂推理、长期规划以及需要深度上下文理解的优化任务时,仍显得力不从心。目前,像 OpenAI 的 GPT-4 和 Meta 的 Llama 等模型在语言建模方面表现优异,但在高级规划和推理任务上的局限性,制约了它们在供应链优化、财务预测和动态决策等领域的应用。对于需要精准推理和规划的行业,现有模型要么表现不足,要么需要大量的微调,从而导致效率低下。 为解决这一问题,Cerebras 推出了 CePO (Cerebras Planning and Optimization),一个专为增强 Llama 系列模型的推理与规划能力而设计的 AI 框架。CePO 将优化算法与 Llama 的语言建模能力相结合,从而能够处理以往需要多个工具协同完成的复杂推理任务。 https://cerebras.ai/blog/cepo CePO 的技术亮点:内嵌规划能力,告别外部优化引擎CePO 的核心创新在于直接将规划能力嵌入到 Llama 模型中。这种方式无需借助外部优化引擎,使模型能够独立完成多步骤问题的推理,权衡复杂条件,并自主决策。这一特性使 CePO 特别适用于物流、医疗规划以及需要高度精准和适应能力的自主系统。 技术层面上,CePO 为 Llama 模型增加了专门的推理与规划层。通过强化学习和高级约束求解技术,CePO 实现了卓越的长期决策能力。此外,它采用了 神经-符号方法,将神经网络学习与符号推理相结合,实现了适应性与可解释性的平衡。同时,动态记忆模块支持模型在实时规划任务中快速响应变化场景,有效提升了性能。 CePO 的关键技术特性包括: 显著优势:简化流程,提升效率CePO 带来的优势主要体现在以下几个方面: 初步成果与洞察:突破传统 AI 的限制在初步基准测试中,CePO 展现了卓越的效果。例如,在物流规划任务中,其路径效率提升了 30%,同时计算开销降低了 40%。在医疗排班方面,相较传统 AI 系统,CePO 提高了 25% 的资源利用率。 早期用户反馈也证明了 CePO 的高适应性和易用性,大幅减少了设置时间和微调需求。尤其在药物研发和政策建模等探索性领域,CePO…
Project Astra, Mariner 和 Jules
Project Astra:AI 助手在现实世界中的多模态理解能力自 I/O 大会推出 Project Astra 后,这款 AI 助手已经在 Android 手机上进行了可信测试者的试用。通过反馈,团队不仅进一步了解了通用 AI 助手的实际运作方式,还探讨了其在安全性和伦理方面的潜在影响。基于 Gemini 2.0 的最新版本带来了多项升级: 公司计划将这些能力扩展到 Google 产品中,例如 Gemini 应用和其他设备形式,如智能眼镜。目前,一小组测试者将开始试用支持 Astra 的原型眼镜。 Project Mariner:AI 助手帮你完成复杂任务Project Mariner 是基于 Gemini 2.0 的早期研究原型,探索人机交互的未来,其起点是浏览器操作。通过实验性 Chrome 扩展,这个助手可以理解屏幕上的像素、文本、代码、图像和表单等元素,并据此完成任务。 在 WebVoyager 基准测试中,Mariner 在端到端网页任务的表现达到了 83.5%,创下新的技术记录。尽管目前任务完成速度较慢且不够准确,但技术正在快速进步。 为了安全负责地开发这一功能,团队采取了多项保障措施,比如 Mariner 仅能在浏览器的活动标签页内操作,并在执行敏感操作(如购物)前要求用户确认。目前,可信测试者正在通过 Chrome 扩展对其进行测试,公司也与网络生态系统展开了相关讨论。 Jules:为开发者打造的 AI 助手团队还在探索 AI 助手如何为开发者提供支持,通过 Jules,一个集成到 GitHub 工作流中的实验性代码助手实现。这款助手能在开发者的指导下分析问题、制定计划并执行代码,为长期目标打造跨领域的高效 AI 助手迈出了重要一步。更多详细信息已发布在开发者博客中。 游戏及其他领域中的…
Gemini 2.0 Flash
过去一年,人工智能领域取得了令人瞩目的进展。如今,备受期待的 Gemini 2.0 系列首款模型正式发布,这就是实验版本的 Gemini 2.0 Flash。作为技术的前沿之作,这款模型以低延迟和卓越性能成为核心主力。 此外,借助 Gemini 2.0 的原生多模态能力,一系列研究原型也同步亮相,展示了代理研究的新边界。 Gemini 2.0 Flash:速度与实力并存Gemini 2.0 Flash 是对大受欢迎的 1.5 Flash 的全面升级,其性能在保持极快响应速度的同时大幅提升。更惊人的是,它在关键基准测试中不仅超越了 1.5 Pro,速度还提升了一倍。这一版本还加入了多项新功能,支持多模态输入如图像、视频和音频的同时,还能生成多模态输出,包括原生生成的图文混合内容和可调整的多语种语音合成(TTS)。更强大的是,它还能原生调用工具,如 Google 搜索、代码执行,以及第三方用户定义功能。 为开发者准备的详细对比图清楚展示了 Gemini 各版本的能力。公司目标是以安全且高效的方式将模型交到用户手中。过去一个月里,开发者已经接触到了早期实验版本的 Gemini 2.0,并给予了非常积极的反馈。 目前,Gemini 2.0 Flash 作为实验模型通过 Gemini API 向开发者开放,可以在 Google AI Studio 和 Vertex AI 中使用,支持多模态输入和文本输出。而 TTS 和原生图像生成功能,则优先向早期合作伙伴提供。明年一月,更多模型尺寸版本将全面上线。 为帮助开发者构建动态、互动式应用,还推出了全新 Multimodal Live API,支持实时音频和视频流输入,并可结合多个工具使用。更多关于 Gemini 2.0 Flash 和 Multimodal Live…