OpenAI联合创始人、前首席科学家伊利亚·苏茨克维尔(Ilya Sutskever)最近在温哥华的神经信息处理系统会议(NeurIPS)上罕见公开亮相,并发表了对AI未来发展的颠覆性看法。他表示,AI模型的训练方式即将迎来重大变革,传统的预训练模式“必将终结”。 数据已触顶,AI需要新方向 苏茨克维尔将当前AI训练依赖的海量互联网数据比作“化石燃料”。他指出,如同石油资源有限,互联网中人类生成的内容也是有限的。“我们已经达到了数据的顶峰,未来不会再有更多的新数据。”他认为,尽管现有的数据仍能推动AI的发展,但行业不得不面对一个不可避免的现实:无法再获取更多新数据。这一限制将迫使AI行业探索新的模型训练方式。 他还提到,下一代AI模型将具备“真正的自主能力”,可以像自主代理人(agent)一样独立执行任务、做出决策,并与软件互动。这种系统将不再仅仅依赖模式匹配,而是能够通过推理,逐步解决问题,表现出类似于“思考”的能力。 类比生物进化,AI或将重塑扩展模式 在演讲中,苏茨克维尔用生物进化的脑体比率类比AI的扩展。他提到,大多数哺乳动物的脑体比遵循固定模式,但人类祖先(灵长类)的脑体比在对数尺度上却展现出明显不同的趋势。他推测,AI或许也会在未来找到类似人类大脑进化的突破点,改变目前以预训练为核心的扩展方式。 他还警告说,随着AI模型推理能力的增强,系统的行为将变得更加难以预测,就像高水平AI下棋程序能轻易出其不意地击败顶级人类棋手一样。他相信未来的AI能够从有限数据中理解事物,并在决策中不再出现混淆。 AI的“权利”与人类的共存 在观众问答环节,有人提问如何为AI的开发创造适当的激励机制,确保其具备类似人类的自由权利。对此,苏茨克维尔坦言,解决这些问题可能需要“自上而下的政府结构”,他对这一复杂议题“没有信心给出明确回答”。 当一位观众提议使用加密货币作为解决方案时,现场一片笑声。苏茨克维尔回应称,他对加密货币并无特别见解,但他并未完全排除这种可能性。他进一步表示,如果AI未来选择与人类共存并追求自身权利,这或许并非一个糟糕的结局。“事情变得如此不可预测,我对具体结果持保留态度,但鼓励大家继续思考和探索。” 苏茨克维尔的发言为AI未来发展提出了许多耐人寻味的问题,也再次将讨论焦点引向了人类与AI共存的可能性,以及未来训练方式的全新探索。
OpenAI 第七日 推出了一项新功能——ChatGPT的“Projects”
OpenAI近日推出了一项新功能——ChatGPT的“Projects”,专为整理文件和对话而设计。这一功能让人不禁联想到Google备受欢迎的NotebookLM应用程序,但又有其独特之处。 在OpenAI举办的“12天OpenAI”活动第六天直播中,公司展示了“Projects”功能。该功能允许用户创建文件夹,将对话和文档集中管理,整合到一个界面中。 上周五,“Projects”功能已开放给ChatGPT Plus、Pro和Teams订阅用户。然而,ChatGPT Enterprise和Edu用户需要等到明年一月才能使用。OpenAI表示正努力让这一功能普及到所有用户。用户可通过ChatGPT官网或Windows桌面应用访问该功能,而移动端和MacOS桌面应用则仅支持查看“Projects”。 这一功能与Google的NotebookLM颇为相似,但后者更专注于学术研究。与NotebookLM的“音频概览”功能不同,ChatGPT的“Projects”并未支持播客叙述。不过,用户仍然可以在对话中使用ChatGPT的其他功能,如语音模式、网页搜索和Canvas。 NotebookLM的火爆超出了学术圈,甚至被一些企业用于类似CRM的任务,归功于其强大的信息整理能力。而ChatGPT的“Projects”也在此方向上提供了更多可能。 如何创建“Project” 用户可以在ChatGPT侧边栏找到“Projects”入口。点击“加号”图标,即可创建一个新项目,并为其命名和设置自定义颜色。 “Projects”的一大亮点是支持自定义响应指令。例如,项目经理可以创建一个用于搭建网站的项目,在项目描述中注明网站的用途,同时指示ChatGPT优先使用Canvas功能进行代码编写。 此外,用户还可以上传相关文档,这些文档将成为项目的一部分信息来源。用户甚至可以将ChatGPT现有的对话转移至某个项目中,以便将其作为数据参考。 OpenAI计划明年进一步扩展“Projects”支持的文件类型,并增加与Google Drive或Microsoft OneDrive的连接。此外,用户还将能够通过“Projects”切换使用不同的模型。 一站式平台的竞争 像“Projects”这样的功能展示了OpenAI、Anthropic等聊天平台对用户粘性的重视,试图让用户在一个平台上完成更多工作。 10月推出的Canvas功能也反映了这种策略。Canvas允许用户在ChatGPT中直接生成和编辑文本或代码,而无需切换到其他工具。而Anthropic的Claude Artifacts功能类似,但还支持直接展示网站原型。 与NotebookLM不同的是,“Projects”被集成在ChatGPT的主界面中,而NotebookLM则是一个独立的应用程序,与Gemini聊天机器人或Google其他产品(如编码助手)分离。显然,OpenAI正在努力打造一个全能的一体化平台,让用户始终留在ChatGPT内完成工作。
马斯克与OpenAI之间的官司越来越火热了
OpenAI最近发布了一篇博文,不仅为自己辩护,还放出了马斯克与联合创始人Ilya Sutskever、Greg Brockman、Sam Altman,以及前董事会成员Shivon Zilis之间的一些新短信内容。 博文中的一句话相当刺眼:“靠打官司是无法实现通用人工智能(AGI)的。”这显然是针对马斯克的。AGI是Altman承诺即将实现的目标。文中还提到:“我们高度尊重马斯克的成就,也感激他对OpenAI早期的贡献,但他应该选择在市场上竞争,而不是通过法庭解决。这对于保持美国在人工智能领域的全球领导地位至关重要。OpenAI的使命是确保AGI惠及全人类,我们过去如此,将来也会坚定不移地以使命为驱动。希望马斯克能够认同这一目标,继续秉持推动他本人取得成功的创新和自由市场竞争的价值观。” 新披露的消息显示,2017年7月,Brockman曾告诉Zilis,马斯克在一次会议中表示,非营利模式在初期确实是正确的选择,但“可能现在不太合适了”。同月,Brockman又给马斯克发短信,描述了OpenAI未来的路线:“1. 研究型非营利(2017年底前) 2. 研究+硬件型营利(2018年起) 3. 政府项目(时间未知)。” 博文还揭露了马斯克试图操纵公司局势的细节。他曾尝试担任OpenAI的CEO并获得公司多数控制权。尽管在一次电话中,马斯克表示自己“不在乎股权”,但他也提到需要“积累800亿美元为在火星建立城市做准备”。此外,马斯克还提议将OpenAI并入特斯拉,这一计划早已被披露过。然而,当联合创始人拒绝这一提议(Brockman和Sutskever坦言担心权力斗争)后,马斯克选择了辞职。 据博文描述,辞职后,马斯克在一次全员会议上向团队道别,并鼓励他们“追寻我们看到的筹集每年数十亿美元资金的道路”。他还透露自己将专注于特斯拉的高级人工智能研究,认为特斯拉是唯一可能获得这种资金支持的“载体”。 在马斯克计划收购推特期间,他曾给Altman发信息,表达对OpenAI新估值20亿美元的不满。他写道:“我几乎提供了全部种子轮、A轮和大部分B轮融资。这简直是钓鱼换饵。” 几个月后,马斯克创立了自己的AI公司xAI,与OpenAI展开竞争。 部分短信内容此前已出现在马斯克针对OpenAI及其合作伙伴微软提起的诉讼中。这起诉讼最初于2024年3月提起,指控OpenAI背离了其“为公众利益开发AI”的非营利使命。马斯克随后在2024年6月撤回诉讼,但又在同年8月重新提起。 OpenAI此次发布的内容,显然是针对马斯克对Altman权力集中的指控,试图用证据表明马斯克才是早期试图掌控公司的那一方。
OpenAI 正式赋予 ChatGPT 通过视频实时与用户互动的能力
OpenAI 正式赋予 ChatGPT 通过视频实时与用户互动的能力。这项备受期待的功能在七个月前首次被公开提及,如今终于在直播活动中揭开神秘面纱。 通过新推出的视频选项,ChatGPT 可以利用智能手机的摄像头识别物体并根据屏幕内容进行交互。举例来说,用户可以请求 ChatGPT 协助回复打开的应用中的消息,或者获取实时指导,例如学习如何冲泡一杯咖啡。 这项视频功能将从周四起逐步向付费的 ChatGPT Plus 和 Pro 用户开放,而企业和教育用户将在明年一月获得这一功能的使用权限。 自两年前推出 ChatGPT 引领文本聊天机器人投资热潮以来,OpenAI 及其竞争对手持续扩展所谓的多模态功能,这些功能可以响应音频、图像和视频输入。此类服务让数字助手更具互动性和吸引力,进一步提升用户体验。 此次发布是 OpenAI 为期 12 天的直播产品活动中的一部分。此前,OpenAI 已通过系列发布会推出了更高价的 ChatGPT Pro 订阅选项,并宣布逐步推出一款名为 Sora 的 AI 视频生成工具。这些动态进一步凸显 OpenAI 在人工智能领域的雄心与创新能力。
当一位开发者“失业”后如何重返职场
人生的转折点总是来得猝不及防。这位开发者曾在职业生涯中转战多个领域,从体育理疗师到技术作家,再到自由开发者,但在经历了各种职业尝试后,他发现自己陷入了一种奇怪的“职业不可雇佣状态”。 从开发者到“失业者”的奇异旅程 故事从 2004 年他开始职业开发生涯讲起,但到了 2019 年,他因对 React 16.8 的钩子特性感到兴奋,重新燃起了对编程的热情。几个月内,他成了一位 React 专家,并通过技术博客赢得了远程开发工作的机会。然而,事情很快变得复杂: 结果,招聘经理和技术猎头对他的履历感到困惑,他无法找到一份全职的开发工作,尤其是在新冠疫情初期,技术市场陷入冻结。 开发者“不可雇佣”的陷阱 他指出了几个让自己“不可雇佣”的关键因素: 如何重返职场并实现职业逆袭 尽管经历了各种挫折,这位开发者依然凭借自己的毅力,逐步扭转了局势。他分享了自己的成功经验: 最终,他通过一次完美契合的技术面试,拿下了一份薪资可观的全职开发工作。 职业反思与经验分享 这段经历让他明白了以下几点: 结语:从低谷到巅峰 最终,这位开发者通过专注、努力和不断学习,不仅重新找回了职业方向,还在技术领域获得了稳定的高薪职位。他的故事不仅是对开发者职业发展的启发,更是对每个职场人士的提醒:专注于你的核心技能,始终为自己的职业未来做好规划。
Cerebras 推出 CePO,填补推理与规划能力的关键空白
人工智能技术的快速发展在自然语言理解与生成领域取得了显著进步,但面对复杂推理、长期规划以及需要深度上下文理解的优化任务时,仍显得力不从心。目前,像 OpenAI 的 GPT-4 和 Meta 的 Llama 等模型在语言建模方面表现优异,但在高级规划和推理任务上的局限性,制约了它们在供应链优化、财务预测和动态决策等领域的应用。对于需要精准推理和规划的行业,现有模型要么表现不足,要么需要大量的微调,从而导致效率低下。 为解决这一问题,Cerebras 推出了 CePO (Cerebras Planning and Optimization),一个专为增强 Llama 系列模型的推理与规划能力而设计的 AI 框架。CePO 将优化算法与 Llama 的语言建模能力相结合,从而能够处理以往需要多个工具协同完成的复杂推理任务。 https://cerebras.ai/blog/cepo CePO 的技术亮点:内嵌规划能力,告别外部优化引擎CePO 的核心创新在于直接将规划能力嵌入到 Llama 模型中。这种方式无需借助外部优化引擎,使模型能够独立完成多步骤问题的推理,权衡复杂条件,并自主决策。这一特性使 CePO 特别适用于物流、医疗规划以及需要高度精准和适应能力的自主系统。 技术层面上,CePO 为 Llama 模型增加了专门的推理与规划层。通过强化学习和高级约束求解技术,CePO 实现了卓越的长期决策能力。此外,它采用了 神经-符号方法,将神经网络学习与符号推理相结合,实现了适应性与可解释性的平衡。同时,动态记忆模块支持模型在实时规划任务中快速响应变化场景,有效提升了性能。 CePO 的关键技术特性包括: 显著优势:简化流程,提升效率CePO 带来的优势主要体现在以下几个方面: 初步成果与洞察:突破传统 AI 的限制在初步基准测试中,CePO 展现了卓越的效果。例如,在物流规划任务中,其路径效率提升了 30%,同时计算开销降低了 40%。在医疗排班方面,相较传统 AI 系统,CePO 提高了 25% 的资源利用率。 早期用户反馈也证明了 CePO 的高适应性和易用性,大幅减少了设置时间和微调需求。尤其在药物研发和政策建模等探索性领域,CePO…
Project Astra, Mariner 和 Jules
Project Astra:AI 助手在现实世界中的多模态理解能力自 I/O 大会推出 Project Astra 后,这款 AI 助手已经在 Android 手机上进行了可信测试者的试用。通过反馈,团队不仅进一步了解了通用 AI 助手的实际运作方式,还探讨了其在安全性和伦理方面的潜在影响。基于 Gemini 2.0 的最新版本带来了多项升级: 公司计划将这些能力扩展到 Google 产品中,例如 Gemini 应用和其他设备形式,如智能眼镜。目前,一小组测试者将开始试用支持 Astra 的原型眼镜。 Project Mariner:AI 助手帮你完成复杂任务Project Mariner 是基于 Gemini 2.0 的早期研究原型,探索人机交互的未来,其起点是浏览器操作。通过实验性 Chrome 扩展,这个助手可以理解屏幕上的像素、文本、代码、图像和表单等元素,并据此完成任务。 在 WebVoyager 基准测试中,Mariner 在端到端网页任务的表现达到了 83.5%,创下新的技术记录。尽管目前任务完成速度较慢且不够准确,但技术正在快速进步。 为了安全负责地开发这一功能,团队采取了多项保障措施,比如 Mariner 仅能在浏览器的活动标签页内操作,并在执行敏感操作(如购物)前要求用户确认。目前,可信测试者正在通过 Chrome 扩展对其进行测试,公司也与网络生态系统展开了相关讨论。 Jules:为开发者打造的 AI 助手团队还在探索 AI 助手如何为开发者提供支持,通过 Jules,一个集成到 GitHub 工作流中的实验性代码助手实现。这款助手能在开发者的指导下分析问题、制定计划并执行代码,为长期目标打造跨领域的高效 AI 助手迈出了重要一步。更多详细信息已发布在开发者博客中。 游戏及其他领域中的…
Gemini 2.0 Flash
过去一年,人工智能领域取得了令人瞩目的进展。如今,备受期待的 Gemini 2.0 系列首款模型正式发布,这就是实验版本的 Gemini 2.0 Flash。作为技术的前沿之作,这款模型以低延迟和卓越性能成为核心主力。 此外,借助 Gemini 2.0 的原生多模态能力,一系列研究原型也同步亮相,展示了代理研究的新边界。 Gemini 2.0 Flash:速度与实力并存Gemini 2.0 Flash 是对大受欢迎的 1.5 Flash 的全面升级,其性能在保持极快响应速度的同时大幅提升。更惊人的是,它在关键基准测试中不仅超越了 1.5 Pro,速度还提升了一倍。这一版本还加入了多项新功能,支持多模态输入如图像、视频和音频的同时,还能生成多模态输出,包括原生生成的图文混合内容和可调整的多语种语音合成(TTS)。更强大的是,它还能原生调用工具,如 Google 搜索、代码执行,以及第三方用户定义功能。 为开发者准备的详细对比图清楚展示了 Gemini 各版本的能力。公司目标是以安全且高效的方式将模型交到用户手中。过去一个月里,开发者已经接触到了早期实验版本的 Gemini 2.0,并给予了非常积极的反馈。 目前,Gemini 2.0 Flash 作为实验模型通过 Gemini API 向开发者开放,可以在 Google AI Studio 和 Vertex AI 中使用,支持多模态输入和文本输出。而 TTS 和原生图像生成功能,则优先向早期合作伙伴提供。明年一月,更多模型尺寸版本将全面上线。 为帮助开发者构建动态、互动式应用,还推出了全新 Multimodal Live API,支持实时音频和视频流输入,并可结合多个工具使用。更多关于 Gemini 2.0 Flash 和 Multimodal Live…
iOS 18.2 今天正式推送更新,带来了备受瞩目的 ChatGPT 集成以及更多 Apple Intelligence 工具
苹果正式发布了 iOS 18.2、iPadOS 18.2 和 macOS Sequoia 15.2,这些更新带来了许多全新的 Apple Intelligence 功能,包括 Image Playground、Genmoji 和与 ChatGPT 的集成。然而,尽管苹果在新闻稿中表示更新现已推出,许多用户尚未在非测试设备上看到更新。如有体验到更新,欢迎留言分享。 主要新功能亮点 其他新功能 总结 此次 iOS 18.2 和相关系统更新不仅提升了用户体验,还在人工智能与日常工具的结合上迈出了重要一步。从个性化创意工具到增强的语音助手,Apple Intelligence 的新功能无疑将为用户带来更智能、更高效的使用体验。随着语言支持和功能的进一步扩展,这些新技术将吸引更多全球用户的关注和使用。
Sora 正式登场
Sora 正式登场!这款革新性视频生成模型已结束研究预览阶段,并上线成为独立产品。用户现可通过 Sora.com 体验全新版本的 Sora Turbo,其性能较今年 2 月发布的初版显著提升,并已向 ChatGPT Plus 和 Pro 用户开放使用。 从文本到视频:Sora 的全新界面与功能 Sora 的最新版本不仅速度更快,还配备了专门设计的新界面,为用户带来更加丰富的功能体验: 此外,Sora 将实时更新功能,让用户可以快速探索 AI 视频创作的可能性。 订阅与使用计划 Sora 目前已包含在 ChatGPT Plus 订阅中,用户无需额外费用即可生成每月最多 50 个 480p 分辨率视频,或较少数量的 720p 视频。对于需求更高的用户,Pro 计划提供 10 倍的使用量、更高的分辨率支持以及更长的视频时长。此外,团队正开发针对不同用户需求的定制化定价方案,预计将于明年初推出。 技术限制与未来规划 尽管 Sora Turbo 性能提升显著,但仍存在物理模拟不够真实、复杂动作长时间生成能力不足等问题。团队正在努力优化技术,使其更加高效和经济适用。 作为负责任技术推广的一部分,Sora 的每个生成视频都带有 C2PA 元数据,用于标识视频来源。默认情况下,所有视频均添加可见水印。此外,Sora 内置了搜索工具,可通过技术属性验证内容是否来自 Sora,从而提升透明性。 安全与规范 当前版本已采取多项措施以减少滥用风险: 详细的安全政策和监控措施可参考系统卡片中的说明。 无限创意的未来 Sora 的推出标志着 AI 视频生成进入一个全新时代。它不仅为创作者提供了全新的表达方式,也为视频叙事探索了更多可能性。无论是讲述个人故事,还是推动创意边界,Sora…