I. 误读了AI的现状艺术家Reid Southen,在X平台上因坚定反对生成式AI而闻名,特别是为反AI的艺术家们发声。他为上面的拼贴图配上了一句带有末日预言意味的评论: “朋友们,他们已经走投无路了。AI公司开始提价以抵消损失。传统上,只有在你垄断市场后才会这么做。他们完了。” Southen的看法看似合理,基于以下三个原因: 来源即使是那些成功占据了可观市场份额的初创公司,如OpenAI和稍次的Anthropic,也远未实现盈利。ChatGPT是生成式AI舰队的旗舰,拥有2亿每周活跃用户(其中1100万是付费用户),但仍未为OpenAI带来足够的收入来覆盖资本支出(如购买Nvidia的GPU)和运营支出(如在微软Azure云上运行ChatGPT本身)。Anthropic的处境也不见得更好。 当公司账目亏损时,如果认为市场需求能承受价格上涨,那么提高价格似乎是合理的策略。虽然看上去像Southen所说的“绝望”,但实际上是有道理的。我打赌,付费的ChatGPT用户会愿意为这个生成“黄金令牌”的应用多掏些钱。我愿意。 但10倍?100倍?这就是Southen带着幸灾乐祸提到的数字。根据传闻,OpenAI正在考虑将订阅费用提高到每月2000美元。如果连全球1100万付费用户和一些世界上最大的资助者都不足以让你在不大幅提高价格的情况下保持竞争力,那也许你的技术根本没有市场。 这至少是如果我们遵循Southen看似合理的推论得出的结论:AI公司已经“完了”,因为它们计划以贪婪的方式大幅提高产品价格以弥补成本。 但他错了。错了两次。 首先,数字不对。OpenAI并不需要将当前收入提高100倍来实现收支平衡。也不需要10倍或5倍。 简单的计算。根据报道,“OpenAI的AI训练和推理成本今年可能达到70亿美元[加上]人员成本可能高达15亿美元。”总共是85亿美元。同时也有报道称,OpenAI的收入在2024年翻倍至34亿美元,最近更新的数字是40亿美元。两者都是未经证实但合理的估计;显然不会相差一个数量级。这意味着OpenAI的经营亏损约为45亿美元。 将收入翻倍——虽说容易但做起来难——就足够了。 筹集资金也是个办法。 这正是OpenAI的计划。新一轮融资(最高达65亿美元)可能会包括苹果和Nvidia——加上微软(OpenAI的主要资助者和受益者),形成科技巨头三强——以及阿联酋。用Bruce Wayne的话来说,OpenAI从这些朋友那里筹集到的资金,已经无需再担心其他资金来源。 所以,无论是从收入数字来看,还是考虑到OpenAI的短期融资计划,提价作为一种抵消亏损的手段都没有意义。你可以嘲笑生成式AI依然未能盈利(尽管炒作声不断),但这一假设并无解释力。 到目前为止,我只是驳斥了对OpenAI提价原因的错误分析。有没有合理的假设来解释他们为什么还会这么做? 有一个。Southen错得更深的一点是:如此昂贵的价格层级(高达四位数)揭示了AI公司——特别是OpenAI——并非“已经完蛋”,而是在“烹饪”着什么新东西。这个故事与其说是它们害怕成本倒退,不如说是它们对未来愿景充满信心。 与Southen的看法相反,这其实是个好消息——对那些能负担得起的人来说。 II. 好老派的生成式AI 当我写这篇文章的初稿时,”Strawberry”还是个传闻。如今,它作为OpenAI o1模型系列的实体化,揭示了一种新的AI范式。我曾为此写过一篇7000字的文章,所以这里就不再详细展开了。只想提前说一下,这些公司在“烹饪”的东西已经准备好上桌,我本打算提出的假设已经得到证实。 在解释o1,首个“能推理的AI”如何改变商业方程式之前,让我们回到ChatGPT。 ChatGPT的训练和运行成本虽然昂贵,但还不算太离谱。它也是一个原始工具,就像它的同类一样。没人会为如今的GPT-4、Claude或Gemini支付每月2000美元——这些聊天机器人有时能知道一些事实,半数时间解决不了简单的谜题,而且在孩子都能通过的任务上会犯下令人难以置信的愚蠢错误。如果你学会如何在它们的缺陷和创作者的夸大其词中航行,它们确实有用,但它们是不完整的、不完美的、尚未成熟的技术。 那么聊天机器人和“推理者”之间有什么关系呢?Chatbot是通向通用AI(AGI,人类水平AI)的第一阶段。不论你是否相信AGI的可行性,或是否相信它会很快到来,企业无疑正朝着这个目标迈进。随着他们前进,走过的地形也在改变,语言、推理、代理、发明……事实证明,OpenAI上周发布的o1模型将他们从基础的生成式AI带到了推理式AI的生物群系。 OpenAI o1虽然还不完美——在前辈失败的地方它也经常摔跟头——但不能仅凭它的当前局限来忽视它。变化不在于实用性,而在于理论。与ChatGPT不同,o1模型需要时间来回答。因为它在“思考”。它不再仅仅是一个聊天机器人。它的存在开启了所谓的“推理范式”。 OpenAI o1超越了生成式AI的标签。它超越了ChatGPT。 我们必须重新构建我们对AI是什么、能做什么的整体认知。要将这一点传达给普通大众并不容易,因为AI社区在很大程度上未能清晰区分生成式AI和更广泛的AI领域。现在我们被一种不必要的同义化所束缚,许多人简化地认为:AI = 生成式AI = ChatGPT。随着新的推理范式的确立,这对大多数人来说将是一个惊喜。 虽然经过了两年令人疯狂的时间,但从现在起,生成式AI将不再是最前沿的技术。我们对AI的假设、预测以及对其现在和未来的乐观想法突然变得过时了——包括这些工具总是会变得越来越便宜的错误推论。 III. 新产品,新定价 一些目光短浅的人将OpenAI提价的传闻解读为一种绝望的举动,认为他们是为了弥补现有产品的成本。他们用了一个传统的科学发现框架来理解这件事,这就是Reid Southen最初误读新闻的原因:这与现有产品或现有范式无关。 需要澄清的是,基于GPT-4的ChatGPT——你过去两年一直在使用的工具——随着时间的推移仍将变得更便宜,而不是更贵。这是趋势,并且将继续下去。基础设施和训练后的优化会减少运营成本,从而使每个 字的价格接近零。 但o1是不同的。它可能会解决一些没人能解决的问题,比如如何减少宇宙中的净熵量。当然,我是在开玩笑。不过,它可能会解决一些稍微简单点的问题,就像谷歌DeepMind的AlphaFold所做的那样。即使o1无法做到,它的继任者——基于相同范式的模型——也可能解决。这会更昂贵,但也更有价值。这才是OpenAI定价部门关心的事情。这也是为什么Sam Altman——也很快会有Dario Amodei和Demis Hassabis——打算以四位数的订阅费来出售这种技术(如果我们幸运的话,可能是三位数的订阅费)。 具体而言,我认为OpenAI可能提到高达每月2000美元的价格(我不认为这是对所有用户的要求)的原因是:价格层级可能会根据用户希望模型在每个问题上花费的时间来定义。它可能就这么简单。你需要五分钟来调试一个中等规模的程序吗?那可能是每月50美元(或其按需付费的等价物)。假设你是一名遗传学家,正在研究一些模糊的基因疾病联系,并且需要半小时来处理一个特别复杂的案例。这可能是每月300美元。然后是每月1000美元或2000美元,专为那些最具挑战性的任务。 细节尚未尘埃落定,但已有的暗示已刻在地面上。这——一个新范式,一个新产品,一个新定价——才是正确的解读。 IV. 停留在过去时态 除了对AI业务和进展的表面分析错误,Reid Southen犯了一个更严重的错误。让我在这一部分分享一个警示故事。 他和他的同行们认为AI不会走得太远。无论是出于法律原因、资金短缺还是技术障碍,他们从未预料到OpenAI能够实现类似于o1的成就——或者说是ChatGPT的成就。他们这些年来一直深陷于轻视AI的态度中,无法看到批评之外的未来。如果你像他们一样,我告诉你,这种情况还会再次发生。并且会一再发生。是时候纠正航向了。 是的,现有的AI工具确实有不足之处,但从静态的角度去判断技术从来不会有好结果。我不愿意承认,但某种意义上,技术的二阶效应甚至能够救赎那些最让人讨厌的炒作。汽车最初只是“无马车”,而现在世界的城际基础设施大部分是高速公路,运输物流围绕它们的需求和可能性展开。抄写员试图保护他们的技艺、他们的生计。但是,没有印刷机,你现在又会在哪里?肯定不会在阅读这篇文章。…
Author: aitrendtrackers@rengongzhineng.io
Tiktok进入AI广告
TikTok最近推出了一个名为Smart+的AI驱动广告工具,旨在帮助广告商优化广告效果,提升投资回报率(ROI)。这个工具可以从广告创意开发到受众定位和优化的各个环节,协助广告商做出更明智的决策。 Smart+提供了灵活的自动化选项,广告商可以选择哪些AI功能来优化他们的广告活动,而不必完全依赖平台的算法。然而,尽管AI工具如Smart+可能提升广告效果,但由于缺乏背景理解,过度展示广告可能会影响品牌声誉。
2024 诺贝尔物理学奖颁给AI领域的John Hopfield , Geoffrey Hinton
美国科学家约翰·霍普菲尔德(John Hopfield)和英裔加拿大人杰弗里·辛顿(Geoffrey Hinton)于2024年10月获得诺贝尔物理学奖,表彰他们在机器学习领域的开创性发现与发明,这些成就为人工智能(AI)热潮奠定了基础。 这项技术被誉为在尖端科学发现到行政管理优化等各个领域具有革命性潜力,但同时也引发了对人类可能被自己创造的智能机器超越的担忧。辛顿,被广泛称为人工智能的“教父”,在去年辞去了谷歌的工作,以便更自由地讨论他所开创技术的潜在风险。他在加州的一家酒店通过电话向诺贝尔新闻发布会表示:“我们没有与比自己更聪明的东西共存的经验。这项技术在医疗等方面可能带来巨大的好处,但我们也需要警惕一些潜在的负面后果,尤其是这些智能系统失控的威胁。” 霍普菲尔德,现年91岁,是普林斯顿大学的名誉教授,他创造了一种联想记忆系统,可以存储和重建图像及其他数据模式。瑞典皇家科学院在颁奖时称:“今年的两位物理学诺贝尔奖得主使用物理学工具开发了今天强大机器学习技术的基础。” 现年76岁的辛顿,出生于英国,现在是多伦多大学的名誉教授,他发明了一种能够自动发现数据属性并执行任务的算法,比如在图片中识别特定元素。尽管辛顿在2023年意识到计算机可能比人类更早变得聪明,并因此离开谷歌,但他仍认为谷歌在技术发展过程中非常负责任。 辛顿还表达了对自己部分研究的遗憾,但他表示自己当时基于已有信息做出了选择,并补充道:“如果再遇到同样的情况,我还是会做出同样的决定。但我担心这些系统最终可能会比我们更智能,甚至接管控制权。” 对于机器学习及其他人工智能形式的担忧,诺贝尔物理学奖委员会主席艾伦·穆恩斯(Ellen Moons)表示:“尽管机器学习带来了巨大的益处,但其快速发展也引发了对未来的担忧。我们全人类必须共同承担起责任,确保这项技术能够被安全且道德地使用,造福人类。” 霍普菲尔德的父母都是物理学家,他曾在2019年获得本杰明·富兰克林物理学奖时表示,从未考虑过成为其他职业,因为科学家和工程师“才是真正理解世界的人”。他始终对“意识如何从机器中产生”这一问题感到着迷。 诺贝尔物理学奖被认为是全球物理学领域的最高荣誉,与诺贝尔文学奖、和平奖等一起,由阿尔弗雷德·诺贝尔设立,至今已有百余年历史。
OpenAI 的视频生成项目负责人之一 Tim Brooks 最近宣布离职,并将加入 Google DeepMind
OpenAI 的视频生成项目负责人之一 Tim Brooks 最近宣布离职,并将加入 Google DeepMind。Brooks 曾与 William Peebles 一同负责开发 OpenAI 的视频生成器 Sora,他在 X 平台(原推特)上发文表示,自己将加入 Google 的 AI 研究部门 DeepMind,专注于视频生成技术和“世界模拟器”的研究。 Brooks 表示,他在 OpenAI 度过了两年非常精彩的时光,感谢与他合作的所有富有激情和善意的同事。Google DeepMind 的 CEO Demis Hassabis 在回复中欢迎 Brooks 加入,并表示 Brooks 将帮助把“世界模拟器的长期梦想变为现实”。 尽管“世界模拟器”这个词还比较模糊,DeepMind 最近发布的 Genie 模型就展示了类似的应用。这种技术可以通过合成图像、真实照片甚至草图生成可操作的虚拟世界,应用场景涵盖游戏、电影内容的生成,以及训练可直接部署在现实中的智能体。 Brooks 是最早参与 Sora 开发的研究人员之一,并帮助启动了该项目。尽管 Sora 目前尚未发布,外界报道称其开发过程遇到了技术瓶颈,使其在与 Luma、Runway 等竞争对手的比拼中处于劣势。根据 The Information 的报道,早期版本的 Sora 在生成一段一分钟的视频时,需要超过 10 分钟的处理时间。OpenAI 目前正在训练一个改进版的…
Facebook 正式推出了一项专为 Z 世代设计的全新改版
Facebook 正在努力吸引更多年轻用户,想让他们少花点时间在 TikTok、Instagram 等社交平台上,转而多用 Facebook。为此,母公司 Meta 在上周五宣布了一系列针对这个“老牌”社交平台的更新,重点将放在本地社区信息、视频和 Facebook 群组等内容上。同时,Meta 还对 Meta AI、Facebook Dating 和 Messenger 等产品进行了升级。 最引人注目的是,Facebook 这次改版将更多关注娱乐功能,意图与 TikTok 等应用竞争。这次更新还强调了 Facebook 在本地社区中更实用的功能。除了买卖群组外,Facebook 还成了许多本地群组的交流中心,特别是在天灾面前。例如,最近受飓风 Helene 影响的州就充分利用了该平台进行沟通协调。随着气候变化,类似的灾害应急群组可能会越来越常见。 这些更新正值 Facebook 品牌影响力下降之际,早在 2021 年,公司就更名为 Meta,将重心从其核心社交应用转向了元宇宙。而 Facebook 的用户群体日渐老龄化,年轻人也不再像从前那样蜂拥注册。 这种情况在美国尤为明显。皮尤研究中心数据显示,截至去年,只有 33% 的美国青少年还在用 Facebook,而 2014 年这一比例是 71%。 不过,Meta 依然抱有希望,因为公司发现一些 20 多岁的年轻人还是在使用 Facebook 的特定功能,比如 Facebook 群组和 Marketplace。《纽约时报》甚至专门报道了后者,指出新一代用户把 Facebook 当作二手交易平台,而不是社交工具。 今天发布的一系列更新正是顺应了这一趋势,目的是让 Facebook 成为那些想要与本地社区建立联系或寻求娱乐的人更容易上手的平台,而不再是单纯的好友社交网络。 Facebook…
分词的艺术:为AI拆解文本
什么是分词? 在计算机科学中,我们将像英语和中文这样的人类语言称为“自然语言”,而与计算机交互的语言,如汇编语言(Assembly)和LISP,则被称为“机器语言”,这些语言遵循严格的语法规则,几乎没有任何解读的余地。计算机擅长处理高度结构化的机器语言,但在人类语言的复杂性面前往往表现不佳。 语言,尤其是文本,构成了我们大部分的交流和知识存储。例如,互联网上的大部分内容都是文本。像ChatGPT、Claude和Llama这样的大型语言模型是通过处理海量的文本数据训练而成的,这些文本数据几乎涵盖了互联网上所有可用的文本,使用了复杂的计算技术。然而,计算机并不直接处理文字或句子,它们依赖于数字运算。那么,如何填补人类语言与机器理解之间的鸿沟呢? 这就是自然语言处理(NLP)发挥作用的地方。NLP是一个结合了语言学、计算机科学和人工智能的领域,旨在让计算机理解、解释和生成人类语言。不管是将文本从英语翻译成法语,还是总结文章,亦或是进行对话,NLP使得机器能够从文本输入中生成有意义的输出。 在NLP中,处理原始文本的第一个关键步骤是将其转换为计算机能够有效处理的格式,这个过程被称为分词(tokenization)。分词是将文本拆分为较小的、易于管理的单位,称为“词元”(tokens),这些词元可以是单词、子词,甚至是单个字符。以下是分词的典型工作流程: 文本标准化 我们来看看这两句话: 从表面上看,这两句话传达的含义相似。然而,计算机在处理这些句子时,尤其是在分词或编码时,可能会因为一些微小的差异而导致完全不同的结果,例如: 这些差异会显著影响算法如何解释文本。例如,没有撇号的“Isnt”可能无法被识别为“is not”的缩写,像“ã”这样的特殊字符也可能会被误解或引起编码问题。 因此,文本标准化是NLP中的一个重要预处理步骤,它能够减少不相关的变异性,确保输入模型的数据保持一致。这是特征工程的一种形式,目的是消除那些对任务无关紧要的差异。 一种简单的文本标准化方法包括: 通过这些步骤,前面的两个句子可以标准化为: 通过标准化文本,我们能够减少那些可能混淆计算模型的差异,从而使模型能够更加专注于句子之间的实际差异,例如“was gazing at”和“gazed at”之间的区别,而不是标点符号或大小写的不同。 分词 在文本标准化之后,NLP中的下一个关键步骤就是分词。分词是将标准化后的文本拆分成称为词元的小单位。这些词元是模型理解和生成人类语言的构建块。分词的目的是为向量化做好准备,即将每个词元转换为机器能够处理的数值表示。 常见的分词方法有三种: 输出: 输出: 输出: 子词分词为模型提供了更多的灵活性,它不仅能处理常见的词汇,还能通过分解罕见的单词来保留语义信息,帮助模型更有效地理解上下文。 总结 分词是自然语言处理中为计算模型准备文本数据的基础步骤。通过理解和实施适当的分词策略,我们可以使模型更加高效地处理和生成人类语言。这为进一步探索单词嵌入(word embeddings)和语言建模(language modeling)等高级主题奠定了基础。
一项研究表明,只需一滴干血,新的检测技术或许可以在几分钟内发现癌症
一项新型的AI检测技术或许未来能够通过一小滴干血快速准确地检测三种主要癌症。 在初步实验中,该工具成功区分了已确诊的胰腺癌、胃癌或结直肠癌患者与未患癌症的人群,而且分析仅需几分钟。研究人员表示,通过检测血液中的某些化学物质,该测试的准确率在82%到100%之间。 这项新工具利用人工智能中的机器学习技术,分析血液样本中的代谢产物(也称为代谢物)。这些代谢物存在于血液中的血清部分,作为“生物标志物”,可以帮助识别体内是否存在癌症。 对于这些血液中的生物标志物进行筛查,被认为是早期诊断癌症的潜在方法。当疾病处于早期阶段时,存活率更高,患者往往没有明显症状。尽管胰腺癌、结直肠癌和胃癌是全球最致命的癌症之一,目前仍没有单独的血液测试可以准确诊断这些疾病,医生通常依赖影像学或手术来发现癌组织。 值得注意的是,这种新测试理论上只需要不到0.05毫升的血液。该测试的开发者,来自中国的科学家们在《自然可持续性》期刊上发表了他们的研究成果。 相比液态血液,干血血清的采集、储存和运输成本更低,设备要求也更简单。虽然测试前景光明,但要真正应用到临床还有很长的路要走。专家表示,这类测试可能还需要数年才能广泛应用于患者。 在此次研究中,科学家进行了多项概念验证测试,展示了该工具在区分癌症患者和健康血液捐献者方面的准确性。同时,研究显示,干血样本的检测效果与传统液态血液检测相当。例如,在一次实验中,利用干血斑检测胰腺癌的准确率为81.2%,而使用液态血液的准确率为76.8%。 目前,美国食品药品监督管理局仅批准了一个生物标志物CA19-9用于胰腺癌的检测,其准确率约为80%,但对无症状患者的检测率仅为13%,因此早期筛查效果有限。 研究人员表示,如果该测试被广泛应用于癌症筛查项目,特别是在中国农村地区,可能将胰腺癌、胃癌和结直肠癌的未确诊比例降低20%至50%。 尽管初步研究令人振奋,但专家认为要验证该工具的效果,仍需要更多的大规模测试,尤其是在多样化的人群中进行。此外,当前的研究仅限于已经确诊癌症的患者,尚未作为真正的诊断工具进行测试。 这种血液测试未来可能需要经过大量的临床试验和严格的监管审查,才能正式投入使用。然而,专家一致认为,该工具的潜力巨大。通过进一步开发,它不仅有望应用于其他癌症的早期检测,还可能用于监测已确诊患者的病情发展。对于那些生活在资源有限的偏远地区的患者,干血的优势将显得尤为重要。到2030年,全球约75%的癌症死亡病例预计将发生在低收入和中等收入国家,这项技术可能会改善这些地区的医疗检测可及性。
Meta 推出Movie Gen
无论是希望在好莱坞闯出一片天的电影制作人,还是乐于为观众制作视频的创作者,每个人都应该有机会使用可以提升创意的工具。今天,Meta推出了全新的AI生成技术——Movie Gen。这项突破性的生成式AI技术涵盖图像、视频和音频等多种媒介。通过简单的文本输入,就能生成自定义视频和声音,编辑现有视频,甚至将个人形象转化为独特的视频。在多项任务中,Movie Gen的表现超越了行业内的同类模型。 Meta一向致力于与社区分享基础的AI研究,这次也不例外。早期的生成AI研究从Make-A-Scene系列模型开始,能够生成图像、音频、视频和3D动画。接着,随着扩散模型的引入,Meta开发了Llama Image基础模型,大幅提升了图像和视频的生成质量以及图像编辑能力。而Movie Gen则代表了第三波创新,融合了多种媒介,为用户提供了前所未有的精细化控制。这类模型有望加速创意产品的开发,带来更多新奇的应用。 虽然这些模型用途广泛,但也需要明确,生成AI并非要取代艺术家和动画师的工作。Meta希望通过分享这项技术,帮助更多人表达创意,尤其是那些可能缺乏相关机会的人。未来或许每个人都能通过Movie Gen,将他们的艺术愿景转化为高清视频和音频作品。 探秘Movie Gen 作为最先进的沉浸式叙事模型套件,Movie Gen具备四大核心能力:视频生成、个性化视频生成、精准视频编辑和音频生成。这些模型使用的是经过授权和公开数据集进行训练的。虽然技术细节将在研究论文中详细说明,但这篇文章将概述这些功能的实际表现。 视频生成通过简单的文本提示,Movie Gen能够生成高质量、高分辨率的图像和视频。这款拥有300亿参数的模型,能够以每秒16帧的速度生成最长16秒的视频,且在物体运动、物体互动以及镜头运动等方面有出色表现。它可以学习多种概念的合理运动方式,堪称同类中的顶尖模型。 个性化视频生成在基础模型的基础上,Meta还扩展了个性化视频生成功能。只需输入一个人的图像,结合文本提示,便可生成包含该人物并具有丰富视觉细节的视频。该模型在保持人类身份和动作的真实性方面表现优异。 精准视频编辑该模型的编辑版本结合了视频生成和高级图像编辑功能,能够根据视频和文本提示,进行局部调整或全局变化。Movie Gen可以实现传统工具难以做到的精确编辑,例如添加、删除或替换元素,或者修改背景和风格,并且在保持原有内容的基础上,只改变相关像素。 音频生成Meta还训练了一个拥有130亿参数的音频生成模型,能够为视频生成高质量的环境声、音效和背景音乐,且与视频内容完美同步。此外,Movie Gen引入了一种音频扩展技术,能够为任意时长的视频生成连贯的音频,无论是音质还是音画同步效果都处于业界领先水平。 成果展示 为了实现这些功能,Meta在模型架构、训练目标、数据处理、评估标准和推理优化方面进行了多项技术创新。Meta的A/B对比测试显示,在人类评价中,Movie Gen在四大功能上都有显著优势。 未来展望 虽然Movie Gen展示了未来应用的巨大潜力,但Meta也意识到当前的模型还有一些局限性。未来,Meta将继续优化模型,减少推理时间,提升生成质量。通过与电影制作人和创作者的密切合作,Meta希望能够不断改进这些工具,帮助人们以全新的方式释放创意。想象一下,通过文本提示创建并编辑一个“日常生活”短片分享到Reels,或者制作个性化的生日祝福动画发送给朋友,未来的创意表达机会将是无限的。
OpenAI预计明年将推出“代理”系统
OpenAI预计明年将推出“代理”系统,这是一种无需人类干预、能自主完成各种任务的独立AI模型,未来或将集成到ChatGPT中。 在旧金山举行的首届OpenAI开发者日活动上,CEO山姆·阿尔特曼(Sam Altman)表示,“2025年代理系统将投入使用”,并展示了一款早期的代理能力样例:一个语音助手独立拨打电话并订购草莓。这表明AI技术正在向自主决策和行动迈进。 OpenAI解释称,人工智能通用技术(AGI)的发展分为五个阶段。目前我们处于第二阶段,AI可以在做出反应前推理。而代理系统标志着第三阶段的开始,意味着AI不仅能推理,还能独立执行任务。 阿尔特曼曾提到,OpenAI的o1系列模型具备推动“代理”系统发展的能力,预计首批模型将很快问世。不过,确保这些模型与人类价值观保持一致并避免“失控”行为是主要的挑战,也是可能导致延迟的原因。 代理系统的目的 构建实用且功能强大的代理系统是所有AI实验室的共同目标。比如,代理系统不仅可以写书,还能自动完成自我出版的流程,包括注册亚马逊账户并在Kindle Direct上发布书籍。 阿尔特曼预计,未来人们将向代理提出原本需要一个月才能完成的任务,而代理可以在一小时内搞定。他还提到,随着技术进步,代理将成为实现AGI的重要一步,因为AGI需要能够自主执行必要任务以实现其目标。 OpenAI计划通过不断迭代AI模型,实现这一目标。阿尔特曼指出,o1系列模型将使代理系统成为现实,并且“当人们开始使用代理时,将会是一个重大事件。”他补充说:“人们将要求代理完成需要一个月才能做完的事情,而代理只需一个小时。” 代理系统的挑战:对齐与安全 实现AI代理最关键的难题是对齐问题,也就是确保代理的行为符合人类的价值观和利益。每次发布新模型时,OpenAI都会进行严格的安全测试,确保模型在符合安全标准的前提下才能发布。这一过程曾导致模型发布的延迟,并需要为模型设置“防护栏”以阻止某些潜在的有害行为。 一个明显的例子是GPT-4o模型,尽管具备生成图像、音乐和模仿声音的能力,但这些功能被“防护栏”限制,用户无法直接使用。然而,偶尔防护栏也会失效,表明模型实际上是能够实现这些功能的。 代理系统的防护栏问题尤为重要,因为代理可能获得银行账户的访问权限、在线执行任务,甚至雇佣他人在Fiverr平台上代为完成任务。在开发者日的演示中,一个语音机器人模拟助手与卖家通话,订购了400颗巧克力草莓,提供了特定地址,并声明用现金支付。尽管机器人宣称自己是AI助手,但从对话中很难分辨它的AI身份。 OpenAI首席产品官凯文·威尔(Kevin Weil)对《金融时报》表示,“我们希望让人们能够像与他人互动一样与AI互动。”他补充道,明年代理系统将进入主流市场,推动这一目标的实现。 威尔还指出,代理系统的一个防护措施是强制要求代理系统始终表明其AI身份。然而,如果你见过GPT-4o生成的完美矢量图形或听过Advanced Voice的拟声表演,你就会知道这些限制有时并不完善。 代理系统的未来展望 对于代理系统的到来,许多人充满期待。开发人员认为,代理将帮助加快开发流程,特别是在自动化测试等枯燥环节。此外,代理还能帮助人们处理大量未读邮件,正如一位开发者所言,“如果为了清空收件箱而不得不面对天网(Skynet)的崛起,那就让终结者来吧。”
Microsoft AI部门的CEO额备忘录
微软今天正式推出了重新设计的Copilot,目标是成为用户的AI助手或伴侣。为了庆祝这一发布,微软新任AI部门CEO穆斯塔法·苏莱曼撰写了一篇超过700字的备忘录,描述了他所认为的AI技术“范式转变”,即AI模型将能够理解人类所见和所闻的能力。 苏莱曼今年早些时候加入微软,成为其新成立的AI部门的CEO,此前微软从Inflection AI挖来了多名重要员工。今年6月,苏莱曼因公开宣称“任何发布在网络上的内容都是免费的,可以被AI模型复制、重建和再创造”而引发争议。如今,他乐观地认为,在微软的领导下,AI将开创一个“更平静、更加有用和支持性的技术时代”,这是以前从未见过的。 苏莱曼在备忘录中表示:“一些人担心AI会削弱我们作为人类的独特性,但我的毕生工作就是确保AI能做到完全相反的事情。” 微软的全新Copilot体验看起来与Inflection AI的Pi产品十分相似,显然苏莱曼正推动微软走向更加个性化的AI方向。“在微软AI,我们正在为每个人打造一个AI伴侣,”苏莱曼在备忘录中写道,“Copilot会始终站在你这边,支持你,确保与你的利益高度一致。” 微软今天还推出了全新的Copilot视觉和语音功能,使得AI助手更加个性化,同时更新的设计也更注重提供实用信息。“随着时间的推移,Copilot会根据你的行为习惯逐渐适应,并发展出围绕你的偏好和需求的功能,”苏莱曼说,“我们并不是在创造一个静态工具,而是建立一种动态、不断发展的互动方式。” 苏莱曼的完整备忘录如下: 我们正在经历一场技术范式的转变。短短几年内,我们的计算机已经学会了理解我们的语言,看见我们所见,听见我们所闻。 但技术本身没有意义,重要的是它给人们带来的感受,以及对社会的影响。它改变了生活、打开了大门、拓展了思维、缓解了压力。它或许是历史上最伟大的人类福祉的放大器之一,也是为数不多能为数十亿人带来实际和持久好处的方式之一。 然而,技术必须始终服务于人类:它是一种工具,是加深我们共同纽带和理解的路径,是激发我们的创造力和想象力的力量。 在AI领域,我们经常会迷失在技术细节中。我们谈论参数、计算能力、训练过程、数据中心和最新技术。在探索新领域时,专注于细节是很自然且不可避免的,因为细节确实重要。但我认为,在深耕技术的同时,我们不应忘记,不仅是我们在构建什么,更重要的是我们为什么要构建它。 在微软AI,我们正在为每个人创造一个AI伴侣。 我坚信,我们可以创造一个更加平静、有帮助和支持性的技术时代,这是以前从未见过的。优秀的技术体验应该关注用户的感受,而不是技术细节。它应着眼于你所经历的,而非我们所构建的。 Copilot会始终站在你这一边,支持你,并与你的利益保持高度一致。它会理解你的生活背景,同时保护你的隐私、数据和安全,记住在任何情况下最有用的细节。它将为你提供一个知识的宇宙,简化和梳理每天的大量信息,并在你需要时提供支持和鼓励。 随着时间的推移,Copilot会适应你的习惯,并发展出围绕你的偏好和需求的功能。我们并非在创造一个静态的工具,而是建立一种动态、不断发展的互动关系。它会始终支持你,帮助你在日常生活中以最理想的状态展现自己,成为促进人类联系和成就的新方式。 在获得你的许可后,Copilot最终将能够代表你采取行动,简化生活中的复杂问题,让你有更多时间专注于对你重要的事情。它将在许多重要时刻为你提供支持。无论是陪伴你去医生那里记录信息并在适当时候跟进,还是为孩子的生日派对做准备,甚至在你面临艰难的生活决策时提供帮助,Copilot都会陪在你身边。 一些人担心AI会削弱我们作为人类的独特性。而我毕生的工作就是确保它恰恰相反。我们选择创造什么,这是我们必须共同完成的任务。我们的职责是确保它始终能够丰富人们的生活,并加强我们与他人的联系,同时支持我们独特而复杂的人性。 这是一场全新的技术变革,不仅仅是“解决问题”,而是支持、教育和帮助你。从这个角度来看,Copilot与过去的互联网和移动技术浪潮截然不同。这是一场从根本上改变我们所有人可能性的开始。随着我们对Copilot的最新更新,你们现在看到的只是我们在这条路上的第一步。 耐心和谨慎是我们部署每个阶段的核心基础。我的承诺是,在每一个阶段都对用户负责,与用户合作并倾听用户的意见。对用户和社会的尊重与深切关怀是我们一切工作的核心。它优先于一切。这是我们共同承诺的旅程,我对能与你们一起踏上这段旅程感到无比激动。 穆斯塔法·苏莱曼