aitrendtrackers@rengongzhineng.io, Author at AI TrendTrackers

OpenAI的AI推理模型有时会“用中文思考”，但没人能说清原因

Posted on January 15, 2025January 15, 2025 by aitrendtrackers@rengongzhineng.io

OpenAI推出的首款“推理”AI模型o1发布后，人们很快注意到一个奇怪的现象：模型在处理问题时，有时会“转向”使用中文、波斯语或其他语言思考，即使问题本身是用英文提出的。例如，在回答“单词‘strawberry’中有几个字母R？”这样的问题时，o1会通过一系列推理步骤得出答案。虽然问题和最终回答都是用英文，但中间的部分推理过程却会用另一种语言完成。 “为什么突然变成中文了？” 有用户在Reddit上发帖称，“o1推理到一半，突然开始用中文思考。”而在X平台上，另一位用户感到困惑：“整个对话都没有用中文，o1为什么突然切换到中文？” 对于这种奇怪的行为，OpenAI并未提供任何解释，甚至没有明确承认这种现象的存在。那么，o1到底为什么会这样呢？数据标签和语言影响的可能性一些AI专家对这种现象提出了猜测。一种理论认为，这可能与训练数据的语言分布有关。包括Hugging Face首席执行官Clément Delangue在内的多位专家提到，像o1这样的推理模型在训练中使用了大量包含中文字符的数据。此外，谷歌DeepMind研究员Ted Xiao指出，OpenAI等公司可能依赖中国的第三方数据标注服务来处理高难度的科学、数学和编码推理数据。这些服务的语言偏好可能对模型产生了影响。 “由于高端标注劳动力的可用性和成本原因，很多标注供应商位于中国，这可能导致中文在推理过程中的偏好表现，”Xiao在X平台上写道。标签在AI训练中非常重要，它帮助模型理解和解读数据。例如，在图像识别模型中，标注可能是围绕物体的标记或对人、地点、物体的描述。然而，标注的偏见也可能导致模型的偏见。比如，一些研究发现，标注人员更可能将非标准英语（如非裔美国人使用的方言）标记为“具有攻击性”，从而导致AI将其错误地判定为有害内容。更深层次的语言机制不过，也有专家对数据标注的假设不以为然。他们指出，o1同样可能在推理过程中切换到印地语、泰语等其他语言。这说明问题可能不仅限于中文，而是更深层次的语言效率和模型训练机制。 “模型并不知道什么是语言，或者语言之间有什么区别，”阿尔伯塔大学AI研究员Matthew Guzdial表示，“对模型来说，一切都只是文本。” AI模型处理的并不是单词本身，而是“令牌”（token）。令牌可以是完整的单词（如“fantastic”），也可以是音节（如“fan”、“tas”、“tic”），甚至是单个字符（如“f”、“a”、“n”等）。训练中不同语言的令牌分布可能导致模型在处理问题时更倾向于某些语言。 Hugging Face的软件工程师王铁真提出了类似观点。他认为模型可能在某些任务中选择了最有效的语言进行推理。“比如，我喜欢用中文做数学运算，因为每个数字只占一个音节，计算过程更加简洁。但涉及像无意识偏见这种概念，我会自动切换到英语，因为这些概念是用英语学习的。” 仍然是个谜尽管有各种理论，AI专家也承认，当前对模型行为的解释仍然是推测性的。Allen Institute for AI研究员Luca Soldaini表示，由于这些模型的复杂性和不透明性，验证这些假设非常困难。“这正是AI系统需要更多透明度的原因之一。” 在OpenAI正式回应之前，o1为何“脑补”用法语哼歌但用中文讨论合成生物学，只能成为人们的好奇猜想之一。

ChatGPT正在朝着全面个人助手迈出重要一步，推出了一个名为“Tasks”的新功能

Posted on January 15, 2025 by aitrendtrackers@rengongzhineng.io

ChatGPT正在朝着全面个人助手迈出重要一步，推出了一个名为“Tasks”的新功能。这似乎暗示OpenAI未来可能会推出更多类似的智能代理。目前处于测试阶段的“Tasks”功能，允许ChatGPT Plus、Team和Pro用户提前安排任务。例如，用户可以设置项目提醒或每日天气更新，ChatGPT将在指定的日期和时间发送通知。用户可以选择一次性提醒，也可以设定周期性任务。要设置任务，只需在模型选择器中切换到“带有计划任务的4.0”选项，并输入提醒内容。此外，ChatGPT还能根据之前的对话建议相关任务。无论是桌面版、网页版还是移动端，所有版本的ChatGPT都支持任务提醒，但任务管理器目前仅限于网页版使用。 OpenAI表示，测试阶段将帮助研究人员了解用户的使用习惯，并在全面开放前进一步优化功能。迈向智能代理的第一步？去年12月，有用户发现ChatGPT开始提供计划任务功能，这引发了关于OpenAI即将推出智能代理的猜测。据传，这款代号为“Operator”的代理将是OpenAI的首个智能代理产品。而“Tasks”被认为是“Operator”正式发布的重要铺垫。有用户在社交媒体上表示，这可能是为Operator发布做准备的关键一步，但具体发布时间尚不确定。一些科技观察者猜测，“Tasks”未来可能会支持更多高级功能，例如搜索特定信息、汇总数据、打开网页、访问文档以及解决复杂问题。尽管外界猜测不断，OpenAI对相关问题保持沉默，仅表示“Tasks是让ChatGPT更实用的重要一步。” 竞争激烈的生产力市场如今，市面上已经有大量提醒和日历类应用，如Google日历、Outlook日历、Asana、Trello和Notion等。OpenAI选择在这一领域发力，显得格外引人注目。毕竟，大多数人并未将聊天机器人视为任务助手。然而，ChatGPT凭借其整合能力，已经让用户在平台内完成编程、写作等任务，甚至能直接打开开发者的IDE工具。随着ChatGPT不断扩展功能，添加任务安排和提醒似乎是顺理成章的一步。这让ChatGPT在与传统生产力工具的竞争中具备了一定优势，并让其朝着多功能AI助手的方向更进一步。

微软正式在AI开源平台Hugging Face发布了其最新语言模型Phi-4

Posted on January 9, 2025January 9, 2025 by aitrendtrackers@rengongzhineng.io

微软正式在AI开源平台Hugging Face发布了其最新语言模型Phi-4 (https://huggingface.co/microsoft/phi-4)，采用宽松的MIT许可证。这一举措使开发者、研究人员和企业能够广泛使用该模型，标志着在推动AI创新普及方面迈出了重要一步。从Azure走向开放平台Phi-4最初于2024年12月亮相，尽管体型小巧，其尖端功能引发了广泛关注。然而，最初的访问权限仅限于微软的Azure AI Foundry开发平台，这一限制让AI社区感到遗憾，许多人急于试用该模型。微软AI首席研究工程师Shital Shah在社交媒体X上回应了这一需求：“我们对Phi-4发布后的反响感到震惊。不少用户呼吁开放权重，有些人甚至在Hugging Face上传了盗版Phi-4权重。现在无需再等待，我们今天正式在Hugging Face发布Phi-4！” 官方发布的模型为开发者提供了合法渠道，取代了非授权版本，满足了广大用户探索Phi-4潜力的需求。 Phi-4为何重要Phi-4不仅是微软AI产品中的一员，更代表了AI高效性与可及性的革新。在当前以GPT-4等庞大模型主导讨论的时代，Phi-4以“紧凑体型+强大性能”带来了全新选择。 Phi-4的关键优势包括：创新训练技术Phi-4的训练方法结合了合成数据集与精选真实数据，不仅提升了模型的有效性，还解决了数据可用性问题。这种方法为未来模型开发提供了新思路，在扩展性与精准性之间取得了平衡。开放的未来Phi-4通过MIT许可证的发布，不仅仅是技术的开放，更是AI开发和共享方式的转变。这种宽松的许可条款允许开发者自由使用、修改和分发模型，大大促进了创新。这一举措反映了AI领域更广泛的趋势：推动强大模型的普及，使中小型组织和独立开发者也能从高端技术中受益，而不再是科技巨头或资金雄厚研究机构的专属资源。随着AI在各行业的采用愈加深入，对高效、灵活且成本适中的模型需求也持续增长。Phi-4凭借低成本、高性能的优势，有望在医疗等行业催生新一轮增长，这些领域亟需简化且精准的计算工具以带来深远影响。与此同时，Phi-4证明了小型AI模型在实际应用中的潜力。它展示了在降低资源消耗的同时，依然可以实现卓越的性能，开启了AI朝环保方向发展的新篇章。 Phi-4的推出表明，AI领域不再仅仅由资源密集型巨头模型主导，小型高效模型正在推动更具多样性、包容性和创新性的生态系统发展。

Virgo：增强慢思考推理能力的多模态大语言模型

Posted on January 9, 2025 by aitrendtrackers@rengongzhineng.io

人工智能研究正稳步迈向创建能够进行复杂推理的系统，多模态大语言模型（MLLMs）成为这一进程中的重要突破。MLLMs能够同时处理文本和视觉数据，在解决复杂问题（如数学题目或图表推理）方面展现出独特优势。这些模型通过弥合多种模态之间的差距，拓宽了AI的应用领域，为教育、科学和数据分析等领域带来了全新可能性。然而，开发这些系统的主要挑战在于如何实现文本和视觉推理的无缝整合。传统的大语言模型通常擅长处理文本或图像，但在需要结合两者进行推理时往往表现不佳。这种局限性使得它们在多模态任务中的表现受到阻碍，尤其是在需要长期、深度思考（常称为“慢思考”）的场景中。解决这一问题是推动MLLMs向实用化迈进的重要一步。目前，提升MLLM推理能力的策略主要集中在两个方向：一是利用结构化搜索方法（如蒙特卡洛树搜索），通过奖励模型引导优化推理路径；二是为LLMs提供长形式推理指令（通常以“思维链”形式呈现）进行训练。然而，这些方法大多专注于文本任务，对于多模态场景的探索相对有限。虽然一些商用系统（如OpenAI的o1模型）表现出潜力，但其专有性限制了相关研究的开放性，公共领域的探索因此出现了空白。对此，中国人民大学、百川智能和北京智源人工智能研究院的研究人员联合推出了Virgo模型，这一模型专注于提升多模态背景下的慢思考推理能力。Virgo通过微调Qwen2-VL-72B-Instruct模型开发而成，采用了一种简单却创新的方式，即利用文本型长思考数据进行训练。这种方法将推理能力从文本领域迁移到多模态领域，成为Virgo区别于其他模型的重要特点。突破性的训练方法Virgo的开发过程中，研究团队精心构建了包含5000条长思考指令的数据集，涵盖数学、科学和编程领域。这些指令按照结构化的推理过程和最终解决方案进行格式化，以确保训练过程的清晰性和可复制性。研究人员在微调过程中，专注于LLM和跨模态连接器的参数优化，而未对视觉编码器进行调整，从而保留了模型原有的视觉处理能力，同时增强其推理表现。此外，他们还尝试了自蒸馏技术，让经过微调的模型生成视觉型长思考数据，进一步提升Virgo在多模态推理任务中的表现。卓越的性能表现Virgo在四个高难度基准测试中进行了评估，包括MathVerse、MathVision、OlympiadBench和MMMU。这些测试包含数千道多模态问题，用以验证模型在文本和视觉输入上的推理能力。结果显示，Virgo表现卓越，不仅超越了许多先进模型，还与一些商用系统相媲美。例如，在MathVision基准测试中，Virgo取得了38.8%的准确率，领先于大多数现有解决方案；在挑战性极高的OlympiadBench测试中，其表现较基础模型提升了12.4%。此外，研究还发现，相较于直接使用多模态训练数据，文本型长思考数据在推理能力的提取上表现更佳，这进一步证明了文本训练对多模态系统的潜在价值。研究团队对Virgo的表现进行了难度分级分析，发现模型在需要深度推理的高难度任务中表现出持续改进，而在简单任务（如MMMU基准测试）中的提升相对有限。这一发现强调了为特定复杂任务量身定制推理系统的重要性。同时，研究结果还揭示，文本推理数据往往优于视觉推理指令，表明文本训练能够有效地将推理能力迁移到多模态领域。推动AI多模态研究的未来Virgo的成功展现了一种高效、实用的提升MLLM能力的方法，不仅填补了多模态推理领域的空白，还为未来研究提供了新的方向。通过利用长思考文本数据，研究人员为开发更高级的推理模型提供了可扩展的解决方案。随着进一步的优化和探索，这种方法有望推动多模态AI研究取得更大突破，为AI技术的实际应用开辟全新路径。

英伟达推出售价3000美元的个人AI超级计算机Digits—— 这台桌面级设备能运行高达2000亿参数的AI模型

Posted on January 9, 2025January 9, 2025 by aitrendtrackers@rengongzhineng.io

想要拥有自己的AI超级计算机？英伟达正在为你实现这一梦想。在CES 2025展会上，英伟达宣布将于5月推出一款名为“Project Digits”的个人AI超级计算机。这款设备的核心是最新的GB10 Grace Blackwell超级芯片，其性能足以支持复杂的AI模型运算，同时体积小巧，仅需普通插座供电。要知道，以前这种性能的计算机需要更大的设备和更多的能耗。这台桌面级“迷你超算”能支持高达2000亿参数的AI模型，起售价仅为3000美元，外观上酷似一台Mac Mini。英伟达CEO黄仁勋表示：“AI将普及到每个行业、每款应用中。有了Project Digits，Grace Blackwell超级芯片可以触达数百万开发者。这让每位数据科学家、AI研究员和学生都能在自己的桌面上操作一台AI超级计算机，从而在AI时代中发光发热。” 强大配置让AI开发更自由每台Digits系统标配128GB统一内存（普通高端笔记本可能只有16GB或32GB），以及最高4TB NVMe存储空间。对于需求更高的用户，两台Digits系统可以联机使用，支持高达4050亿参数的模型运算（Meta最新的Llama 3.1模型参数就是4050亿）。 GB10芯片能提供高达1 petaflop的AI性能（每秒进行一千万亿次AI计算），支持FP4精度，兼具速度和效率。此外，这款设备还搭载英伟达最新一代CUDA核心、第五代Tensor Cores，并通过NVLink-C2C连接至包含20个高效Arm架构核心的Grace CPU。GB10芯片的开发还与联发科合作，进一步优化了其功耗表现和性能。 Digits系统运行基于Linux的英伟达DGX OS，并支持主流开发框架，包括PyTorch、Python和Jupyter notebooks。开发者可通过英伟达的NeMo框架对模型进行微调，或者利用RAPIDS库加速数据科学工作流程。更方便的是，用户不仅能在本地开发和测试AI模型，还能将这些模型无缝部署到云服务或数据中心中，保持Grace Blackwell架构和英伟达AI企业级软件平台的一致性。面向开发者的全新AI工具Digits用户还可享用英伟达的AI软件库，包括开发套件、编排工具和预训练模型，这些资源均可通过Nvidia NGC目录获取。对于开发者来说，这是一场技术盛宴。值得一提的是，这并非英伟达首次推出此类便捷型设备。去年12月，英伟达就发布了一款售价249美元的Jetson Orin Nano Super，主要面向初创企业和AI爱好者，支持高达80亿参数的模型。Digits的推出显然是更高阶的进化版本，为专业开发者和学生提供了不可多得的机会。对于想要在AI领域大展拳脚的人来说，Digits不仅是工具，更是一个走向未来的起点。

OpenAI的ChatGPT Pro订阅计划：用户“用太狠”，公司反而亏钱？

Posted on January 8, 2025 by aitrendtrackers@rengongzhineng.io

OpenAI首席执行官Sam Altman最近透露，公司每月200美元的ChatGPT Pro订阅计划，竟然在财务上陷入了亏损，因为用户的使用频率远超预期。 Altman在X（前Twitter）上发帖表示，“这个定价是自己亲自拍板的，本以为能赚点钱。” ChatGPT Pro于去年底上线，提供升级版的o1“推理”AI模型、o1 Pro模式，以及解除对Sora视频生成工具等多个OpenAI工具的使用限制。然而，200美元一个月、全年高达2400美元的订阅费用，在一开始并没有获得市场的普遍认可。尤其是o1 Pro模式的具体价值，对许多用户来说仍显得模糊不清。不过，从Altman的发言来看，那些愿意掏腰包的用户显然没有浪费这一机会，充分榨干了订阅的每一分价值——甚至让OpenAI有些吃不消。定价：科学？还是拍脑袋？这并不是OpenAI第一次在定价上显得有些“随意”。在接受彭博社采访时，Altman坦言，早期ChatGPT的高级订阅计划并未进行严谨的定价研究。“当时我们测试了两个价格：20美元和42美元。用户觉得42美元有点过分，但20美元可以接受。于是我们就定了20美元。” 显然，这并不是基于详细的市场调查或顾问分析的决定，而更像是一次直觉判断。 OpenAI：融资数十亿，却依然不赚钱尽管自成立以来已累计融资约200亿美元，OpenAI至今仍未实现盈利。据报道，公司2023年的预期亏损高达50亿美元，而营收仅为37亿美元。高额开支主要来自人力成本、办公场地租赁以及极其昂贵的AI训练基础设施。据估算，仅ChatGPT一项服务，每天的运营成本就高达70万美元。增资与涨价：OpenAI的“自救”之路为了应对资金压力，OpenAI正在寻求进行企业重组，以吸引新的投资者。Altman也暗示，公司可能会调整订阅计划的价格，甚至探索基于使用量的收费模式。尽管目前面临财务挑战，OpenAI的营收预期依然充满乐观——2024年营收目标高达116亿美元，到2029年，这一数字更是被乐观地设定为1000亿美元，与目前全球消费品巨头雀巢的年销售额持平。未来：订阅涨价还是另辟蹊径？面对持续飙升的成本压力和对盈利的迫切需求，OpenAI未来很可能对Pro订阅计划进行价格调整，甚至重新审视其整体商业模式。不过，如何在维持用户满意度的同时实现盈利，依然是Altman和OpenAI团队需要攻克的难题。

DeepMind的Gemma Scope：揭开AI神秘运作机制的“显微镜”

Posted on January 7, 2025January 7, 2025 by aitrendtrackers@rengongzhineng.io

人工智能在药物研发、机器人技术等领域取得了突破性进展，也彻底改变了人类与机器、互联网的互动方式。然而，AI为何如此高效、其内部运作逻辑究竟如何，这些问题至今依然像一团迷雾。这种不确定性带来了潜在风险，尤其是在医疗等高度敏感的领域，如果AI系统存在未被发现的缺陷，后果可能不堪设想。为了解决这一问题，Google DeepMind 的机制可解释性（Mechanistic Interpretability，简称“Mech Interp”）研究团队推出了Gemma Scope，一个旨在揭示AI内部运作机制的工具，帮助研究人员更好地理解AI模型如何做出决策，从而更有效地控制其输出。 1. 什么是机制可解释性？机制可解释性是一门旨在揭开神经网络黑箱的新兴研究领域。机制可解释性的目标是逆向工程这些“凌乱的线条”，弄清楚AI模型在完成特定任务时使用了什么算法和逻辑。 DeepMind的Neel Nanda表示：“我们希望能够像‘读懂AI大脑’一样，了解模型在执行任务时的真实思维路径。” 2. Gemma Scope：AI模型的显微镜在Gemma模型上，DeepMind使用了名为**稀疏自编码器（Sparse Autoencoder）**的工具，来放大和分析AI模型各层的内部特征。互动性开放：Gemma和自编码器都是开源的，任何研究人员都可以使用这些工具进行深入探索。这大大降低了进入AI可解释性研究的门槛。有趣发现：在实验中，研究人员发现了一个名为**“尴尬（Cringe）”**的特征，该特征在批评性文本或尴尬场景描述中尤为活跃。 3. 实际应用：从理解到控制机制可解释性不仅帮助我们理解AI模型如何运作，还能帮助我们修正错误和减少偏见。安全防护：当前，AI模型通常依赖系统级提示来避免回答敏感或危险问题（如如何制造炸弹）。然而，这些防护措施很容易被“越狱”绕过。 4. 未来挑战与希望尽管机制可解释性为理解和控制AI带来了全新希望，但目前仍面临一些关键挑战：然而，随着Gemma Scope等工具的开放和推广，越来越多的研究人员将参与到这一领域，推动AI模型变得更加透明和可控。 Neel Nanda总结道：“机制可解释性也许不是唯一的答案，但它代表了一条可能通向AI安全性和可控性的路径。” 5. 未来AI：从黑箱到透明大脑 AI技术的未来不仅仅在于更强大的模型、更复杂的任务执行，还在于让AI更加透明可控。从Gemma Scope到Neuronpedia平台，这些工具正帮助我们一点一点地揭开AI运作的神秘面纱。只有真正理解AI的思维模式，才能确保它们在敏感领域中安全可靠地运行。透明化AI，才是通向安全AI的唯一路径。

CES 2025年度AI科技亮点：五大创新产品引领未来生活

Posted on January 7, 2025January 7, 2025 by aitrendtrackers@rengongzhineng.io

今年的CES 2025毫无悬念地再次被AI技术霸屏。从家居智能到健康监测，再到穿戴设备，每款产品都试图用AI重新定义用户的生活方式。以下是最受关注的五大AI产品，它们要么已经准备好改变我们的日常生活，要么展现出未来无限的可能性。 1. Roborock Saros Z70：长了“机械手臂”的扫地机器人 Roborock Saros Z70凭借创新的机械臂技术，成为本届CES上的焦点。 Saros Z70不仅是一台扫地机器人，更像是一个智能助手，将家务事做到极致。 2. Natura Humana HumanPods：全天候AI伴侣耳塞 Natura Humana HumanPods将耳塞变成了一个全天候AI伴侣，让用户随时与AI进行自然互动。即使在嘈杂的展厅环境下，AI助手也能流畅响应，展现出出色的语音识别能力。目前尚未正式上市，但官网已开放候补名单。 3. Google TV × Gemini：AI彻底改变智能电视体验 Google将其Gemini AI与Google TV深度整合，带来了前所未有的互动体验。这次的AI整合不仅提升了搜索的准确性，更让Google TV成为名副其实的智能娱乐中心。 4. Halliday AI智能眼镜：隐形显示，轻若无物 Halliday智能眼镜凭借其独特的隐形显示技术，在一众智能眼镜中脱颖而出。这种“隐形显示”技术不仅仅是一项炫酷的功能，更预示着未来信息交互的新形态。 5. Omnia智能魔镜：AI驱动的健康监测中心 Withings Omnia智能魔镜将日常镜子升级为健康数据中枢，为用户提供360度健康监测。虽然目前仍处于概念阶段，但Omnia魔镜展示了AI+健康的巨大潜力。未来已来：AI科技，触手可及从Roborock Saros Z70的智能机械臂，到Natura Humana HumanPods的全天候AI陪伴，再到Omnia魔镜的健康管家，这些CES 2025的明星产品展示了AI如何渗透到生活的方方面面。每一款产品都在努力回答一个问题：如何让技术真正服务于人类生活？未来已经到来，科技的每一次突破，都将改变我们与世界互动的方式。

NVIDIA在CES 2025上的三大亮点：AI芯片、机器人与自动驾驶、全新游戏显卡

Posted on January 7, 2025January 7, 2025 by aitrendtrackers@rengongzhineng.io

在2025年CES（国际消费电子展）上，NVIDIA CEO黄仁勋带来了激动人心的主题演讲，揭示了公司在AI、机器人、自动驾驶以及游戏硬件方面的最新进展。以下是本次演讲的三大核心亮点： 1. 全新AI芯片GB10：桌面级AI超级计算机 NVIDIA发布了一款新型AI超级芯片GB10。与去年发布的旗舰GB200不同，GB10采用了更小巧的设计，将一颗Blackwell GPU与一颗Grace CPU相结合，形成了更紧凑但功能强大的AI芯片。 2. 机器人与自动驾驶：虚拟世界的真实训练场 NVIDIA展示了其全新的Cosmos平台，该平台旨在帮助企业通过虚拟环境开发机器人和自动驾驶技术。黄仁勋大胆预测：“自动驾驶将成为首个万亿美元级的机器人产业。” 3. 新一代RTX 50系列显卡：游戏性能再次飞跃 NVIDIA没有忘记其在游戏领域的根基，发布了全新的GeForce RTX 50系列显卡。未来愿景：AI与现实世界深度融合 NVIDIA在CES 2025上的演讲不仅展示了前沿技术，更为AI与现实世界的深度融合绘制了清晰的蓝图。无论是AI桌面计算机、机器人虚拟训练平台，还是更强大的游戏显卡，NVIDIA都在用实际行动加速推动科技的未来。正如黄仁勋所说：“AI革命的每一步，都值得我们全力以赴。”

Sam Altman发布博客，回顾OpenAI九年历程，直言目标已瞄准ASI超级人工智能

Posted on January 7, 2025January 7, 2025 by aitrendtrackers@rengongzhineng.io

近日，OpenAI的掌门人Sam Altman发布了一篇深度反思博客，回顾了OpenAI九年多的发展历程，并分享了他对未来人工智能的愿景。他透露，OpenAI已经掌握了构建通用人工智能（AGI）的方法，接下来的目标是更高层次的人工超级智能（ASI）。从ChatGPT的爆火到AGI的明确路径距离ChatGPT上线只有短短两年时间，但AI技术的发展已经迈入了全新的复杂推理阶段。Altman表示，OpenAI成立之初，只有少数人相信AGI是可能的，更少有人相信这家公司能够成功。然而，ChatGPT的爆炸性增长让AI产业迈入了一个全新的时代。 2022年11月30日，ChatGPT正式推出，迅速成为全球关注的焦点。Altman回忆道，当初只是一款“与GPT-3.5聊天”的小工具，没想到却成为AI革命的关键节点。在过去两年里，OpenAI的用户从每周1亿增长到了3亿，影响力已经渗透到各行各业。这不仅仅是一款产品的成功，更是AI技术开始大规模实际应用的重要标志。混乱与成长：领导力的考验 Altman也回顾了2023年那场“震惊全球”的OpenAI管理风波。他在一次视频通话中被董事会突然解雇，随后事件在全球引发轩然大波。但最终，风波平息，Altman重新回到领导岗位。这段经历让他更加意识到治理结构和团队信任的重要性。他坦言，治理失误是所有相关方的共同责任，但这次风波也促成了更强大的公司治理体系。他感谢所有在危机时刻伸出援手的人，特别提到投资人Ron Conway和Airbnb联合创始人Brian Chesky，称他们的支持是OpenAI能够挺过难关的关键。从AGI到ASI：未来愿景 Altman明确表示，OpenAI已经有信心在未来几年实现AGI。而他们的终极目标是ASI——一种超越人类智能的人工超级智能。他认为，ASI将彻底改变科学发现的速度，推动全球创新，带来前所未有的繁荣与富足。虽然这一愿景听起来像科幻小说，但Altman坚信，未来几年，越来越多的人会看到OpenAI正在努力实现的目标。他强调，面对ASI带来的巨大潜力，OpenAI绝不能是一家“普通公司”，而需要以更高的责任感来引导技术发展，确保其造福全人类。持续演变，稳步前行 Altman总结道，OpenAI的愿景不会改变，但战术会持续演变。公司从最初的研究机构，逐渐发展成一家产品驱动的企业，这一路走来充满了挑战和惊喜。在他看来，逐步、安全地将AI技术引入现实世界，让社会有时间适应、反馈，并不断改进技术，是确保AI安全性和可控性的最佳途径。 Altman的这篇反思，不仅是对OpenAI九年历程的总结，更是对AI未来的一次大胆展望。他相信，在通往ASI的道路上，OpenAI将继续发挥引领者的角色，将科技的潜力最大程度地转化为全球的福祉。

Subscribe 订阅