关键要点总结: 在Stability AI的图像编辑平台Clipdrop上测试SDXL Turbo,体验实时文本到图像生成功能的beta演示。 今天,Stability AI 发布了SDXL Turbo,一种新的文本到图像模式。SDXL Turbo基于一种名为对抗扩散蒸馏(ADD)的新蒸馏技术,该技术使模型能够一步合成图像输出,并在保持高采样保真度的同时生成实时文本到图像输出。对于对技术细节感兴趣的研究人员和爱好者,Stability AI 的研究论文可在此处查看 https://stability.ai/research/adversarial-diffusion-distillation。重要的是要注意,SDXL Turbo目前尚不适用于商业用途。 对抗扩散蒸馏的优势 SDXL Turbo采用了扩散模型技术的新进展,基于SDXL 1.0的基础上进行了迭代,并实现了文本到图像模型的新蒸馏技术:对抗扩散蒸馏。通过结合ADD,SDXL Turbo获得了许多与GANs(生成对抗网络)相同的优势,如单步图像输出,同时避免了其他蒸馏方法中常见的伪影或模糊。详细介绍该模型新蒸馏技术的SDXL Turbo研究论文可在此处查看https://stability.ai/research/adversarial-diffusion-distillation。 与其他扩散模型相比的性能优势 为了选择SDXL Turbo,Stability AI 比较了多种不同的模型变体(StyleGAN-T++、OpenMUSE、IF-XL、SDXL和LCM-XL),使用相同的提示生成输出。然后,人类评估员随机显示两个输出,并被要求选择最符合提示方向的输出。接下来,使用相同的方法完成了图像质量的额外测试。在这些盲测中,SDXL Turbo在单步中就能超过LCM-XL的4步配置,以及仅用4步就能超过SDXL的50步配置。通过这些结果,Stability AI 可以看到SDXL Turbo在显著降低计算需求的同时,无需牺牲图像质量,就超越了最先进的多步模型。 此外,SDXL Turbo还大幅提高了推理速度。在A100上,SDXL Turbo生成512×512图像的时间为207ms(提示编码+单次去噪步骤+解码,fp16),其中67ms由单个UNet前向评估占据。 探索SDXL Turbo与Clipdrop 要测试这款新模型的功能,请访问Stability AI的图像编辑平台Clipdrop https://clipdrop.co/stable-diffusion-turbo,体验SDXL Turbo实时图像生成的beta演示。它兼容大多数浏览器,目前可免费试用。 看看测试
Author: aitrendtrackers@rengongzhineng.io
为非洲语言构建人工智能技术
在约翰内斯堡罗斯班克区的一个共享办公空间内,计算机科学家兼研究员Jade Abbott打开了她的电脑,让ChatGPT用isiZulu语(南非超过1000万人使用的语言)从1数到10。她表示结果“既混乱又有趣”。随后,她用isiZulu语输入了几句话,并要求聊天机器人将其翻译成英语。结果再次出人意料,完全不准确。尽管已经努力将某些语言纳入AI模型,即使这些语言可用于训练的数据不多,但对于Abbott来说,这些结果显示出技术“真的还没有捕捉到我们的语言”。 Abbott的经历反映了不说英语的非洲人所面临的情况。许多像ChatGPT这样的语言模型对于使用人数较少的语言表现不佳,尤其是非洲语言。但是,由Abbott和生物医学工程师Pelonomi Moiloa合作的一个名为Lelapa AI的新企业,正试图使用机器学习创建专门为非洲人服务的工具。 Lelapa今天发布的一个名为Vulavula的新AI工具,可以将语音转换为文本,并在书面文本中识别人名和地名(这对于文档总结或在线搜索某人可能很有用)。目前它能识别南非的四种语言——isiZulu、南非荷兰语、塞索托语和英语——团队正在努力将其他非洲语言纳入其中。Vulavula(在Xitsonga语中意为“讲话”)可以单独使用,也可以集成到像ChatGPT这样的现有AI工具和在线对话机器人中。希望通过Vulavula使那些目前不支持非洲语言的工具变得易于使用。 Moiloa表示,缺乏适用于非洲语言且能识别非洲名字和地点的AI工具使非洲人被排除在经济机会之外。对她而言,开发以非洲为中心的AI解决方案是帮助非洲人利用AI技术的巨大潜在好处的一种方式。“我们正在尝试解决真实问题,并将权力重新交到我们人民手中。” 世界上有成千上万种语言,仅非洲就有1000到2000种;据估计,该大陆占全球语言的三分之一。但尽管英语母语者仅占全球人口的5%,英语却主导了网络——现在也主导了AI工具。已经有一些纠正这种不平衡的努力。例如,OpenAI的GPT-4包括了像冰岛语这样的小众语言。2020年2月,谷歌翻译开始支持大约7500万人使用的五种新语言。但这些翻译很肤浅,该工具经常搞错非洲语言,离准确数字化非洲语言还有很长的路要走,非洲AI研究人员说。 例如,今年早些时候,埃塞俄比亚计算机科学家Asmelash Teka Hadgu在卢旺达基加利的一次顶级非洲AI会议上进行了与Abbott相同的实验。当他用他的母语提格里尼亚语向聊天机器人提问时,得到的答案完全是胡言乱语。“它生成的词完全没有意义,”Hadgu说,他是柏林的一家名为Lesan的AI初创公司的联合创始人,该公司正在开发埃塞俄比亚语言的翻译工具。 Lelapa AI和Lesan只是为非洲语言开发语音识别工具的两家初创公司之一。2月份,Lelapa AI筹集了250万美元的种子基金,该公司计划在2025年进行下一轮融资。但非洲企业家表示,他们面临重大障碍,包括缺乏资金、投资者获取渠道有限,以及训练AI学习多样化非洲语言的困难。“在非洲科技初创公司中,AI获得的资金最少,”伦敦初创公司AJALA的创始人Abake Adenle说,该公司为非洲语言提供语音自动化服务。 Hadgu说,开发支持非洲语言的产品的AI初创公司常常被投资者忽视,原因是潜在市场规模小、缺乏政治支持和互联网基础设施薄弱。然而,Hadgu表示,包括Lesan、GhanaNLP和Lelapa AI在内的小型非洲初创公司正在发挥重要作用:“大型科技公司不关注我们的语言,但我们不能等待他们。” Lelapa AI正试图为非洲的AI模型创造一个新范式,公司AI团队的数据科学家Vukosi Marivate说。与西方公司不同,Lelapa AI不仅依靠互联网收集数据来训练其模型,还与语言学家和当地社区在线上和线下合作,收集数据、注释数据,并确定工具可能存在问题的用例。Lelapa AI的自然语言处理(NLP)研究员Bonaventure Dossou说,与语言学家合作使他们能够开发出具有特定语境和文化相关性的模型。“将文化敏感性和语言视角融入技术系统使系统变得更好,”Dossou说。例如,Lelapa AI团队为特定语言构建了情感和语调分析算法。 Marivate及其Lelapa AI的同事们设想了一个AI技术为非洲人服务并代表非洲人的未来。2019年,Marivate和Abbott成立了Masakhane,一个旨在促进非洲语言NLP研究的草根倡议。该倡议现在有成千上万的志愿者、编码人员和研究人员共同努力,构建以非洲为中心的NLP模型。 Moiloa说,由非洲人为非洲人构建的Vulavula和其他AI工具很重要:“我们是我们语言的守护者。我们应该是为我们的语言工作的技术的建造者。”
微软发布了Orca 2,一对小型语言模型,它们的性能超越了体积更大的同类产品
尽管全球目睹了OpenAI的权力斗争和大规模辞职,但作为AI领域的长期支持者,微软并没有放慢自己的人工智能努力。今天,由萨提亚·纳德拉领导的公司研究部门发布了Orca 2,这是一对小型语言模型,它们在零样本设置下对复杂推理任务的测试中,要么匹敌要么超越了体积是它们五到十倍的大型语言模型,包括Meta的Llama-2 Chat-70B。 这些模型分别具有70亿和130亿参数,是在几个月前展示了通过模仿更大、更有能力模型的逐步推理轨迹而展现出强大推理能力的原始13B Orca模型工作的基础上构建的。 微软的研究人员在一篇联合博客文章中写道:“通过Orca 2,我们继续展示改进的训练信号和方法可以让小型语言模型实现更强的推理能力,这通常只在更大的语言模型中找到。” 公司已经开源了这两个新模型,以进一步研究小型模型的开发和评估,这些模型可以像更大的模型一样表现出色。这项工作可以为企业(特别是资源有限的企业)提供更好的选择,以应对其目标用例,而无需在计算能力上投入过多。 了解更多 教小型模型如何推理 虽然像GPT-4这样的大型语言模型长期以来一直以其推理能力和解释复杂问题的能力给企业和个人留下深刻印象,但它们的小型对应物大多缺乏这种能力。微软研究院决定通过对Llama 2基础模型进行微调来解决这一差距,使用高度定制的合成数据集。然而,研究人员训练小型模型采用不同的解决策略来应对不同的任务,而不是训练模型去复制更有能力模型的行为——这是一种常用的模仿学习技术。这个想法是,更大模型的策略可能并不总是适用于小型模型。例如,GPT-4可能能够直接回答复杂的问题,但一个小型模型在没有那种能力的情况下,可能会受益于将同一任务分解成几个步骤。 研究人员在今天发表的一篇论文中写道:“在Orca 2中,我们教授模型各种推理技术(逐步、回忆然后生成、回忆-推理-生成、直接回答等)。更重要的是,我们旨在帮助模型学会确定每项任务最有效的解决策略。”该项目的培训数据是从一款更有能力的教师模型中获取的,以这样的方式教导学生模型处理两个方面:如何使用推理策略以及何时准确地使用它来处理手头的任务。 编辑 Orca 2在较大模型中的表现更佳 在零样本设置下的15项多样化基准测试(包括语言理解、常识推理、多步骤推理、数学问题解决、阅读理解、总结和真实性等方面)中,Orca 2模型取得了惊人的结果,其表现大多与体积是它们五到十倍的模型相匹敌或超越。所有基准测试结果的平均值显示,Orca 2的7B和13B在Llama-2-Chat-13B和70B以及WizardLM-13B和70B上表现更好。只有在GSM8K基准测试中,它包含了8.5K高质量的小学数学问题,WizardLM-70B比Orca模型和Llama模型做得更好。 Orca 2基准测试结果 Orca 2基准测试结果 虽然这种表现对于可能希望使用小型、高性能模型进行经济高效的商业应用的企业团队来说是个好消息,但重要的是要注意,这些模型也可能继承其他语言模型以及它们所基于的基础模型的普遍限制。 微软补充说,创建Orca模型的技术甚至可以用于其他基础模型。 “尽管它有几个限制……,Orca 2在未来发展的潜力是显而易见的,尤其是在提高小型模型的推理能力、专业化、控制和安全性方面。使用精心筛选的合成数据进行后期培训被证明是这些改进的关键策略。随着更大的模型继续表现出色,我们与Orca 2的合作标志着在语言模型的应用和部署选项多样化方面迈出了重要的一步。”研究团队写道。 更多小型高性能模型即将涌现 随着开源Orca 2模型的发布和该领域的持续研究,可以肯定地说,更多高性能的小型语言模型可能会在不久的将来出现。 就在几周前,中国最近成为独角兽的01.AI,由资深人工智能专家李开复创立,也在这一领域迈出了重要的一步,发布了一款支持中英文的340亿参数模型,其性能超过了70亿的Llama 2和180亿的Falcon对手。该初创公司还提供了一个经过6亿参数训练的较小选项,在广泛使用的AI/ML模型基准测试中表现尚可。 Mistral AI,这家成立六个月的巴黎初创公司,因其独特的Word Art标识和创纪录的1.18亿美元种子轮融资而成为头条新闻,也提供了一款70亿参数的模型,其性能超过了更大的产品,包括Meta的Llama 2 13B(Meta较小的新型号之一)。
介绍Habitat 3.0:通往社交智能机器人之路的下一个重要里程碑
FAIR 一直致力于开发具备普适智能的实体化 AI 代理,它们能够感知并与环境互动,在安全地与人类伙伴共享环境的同时,还能在数字世界和现实世界中与这些人类伙伴进行沟通和协助。 FAIR 正在努力实现未来愿景:全天候佩戴的增强现实 (AR) 眼镜,这将包括一个与情境相结合的 AI 驱动界面和助手,以帮助人们度过每一天。同时,FAIR 也在改进社交智能机器人的技术,这些机器人将在适应和个性化地满足人类伙伴的偏好的同时,帮助完成日常家务。 训练和测试实体化的社交 AI 代理具有可扩展性的局限性,需要增加建立标准化基准测试程序的复杂性,并可能引发安全问题。为此,FAIR 开发了一套新的工具,用于跨模拟器、数据集以及包括硬件和软件在内的经济实惠的技术栈的机器人研究。 今天,FAIR 宣布了三项主要进展,以发展能够与人类合作并协助他们日常生活的社交实体化 AI 代理: 这些进展为开发能够与人类合作并协助他们日常生活的社交实体化 AI 代理铺平了道路。 下一步: 近年来,实体化人工智能研究领域主要集中于对静态环境的研究——这是基于一种假设,即环境中的物体保持静止不动。然而,在人类居住的物理环境中,情况并非如此。我们对社交智能机器人的愿景超越了当前的范式,考虑了动态环境,其中人类和机器人相互作用,并与周围环境互动。人类与机器人之间的互动带来了新的问题和可能性,如合作、沟通和预测未来状态。 自从2019年开源Habitat 1.0以来,我们朝着社交智能机器人的愿景取得了相当大的进展,但仍有重要工作要做。在我们研究的下一阶段,我们将使用Habitat 3.0模拟器训练我们的AI模型,使这些机器人能够协助他们的人类伙伴并适应他们的偏好。我们将结合使用HSSD-200和Habitat 3.0,以大规模收集人机交互和协作的数据,从而训练更健壮的模型。我们将专注于将在模拟中学到的模型部署到物理世界中,以便更好地评估它们的性能。
OpenAI的董事会担忧,一个新的Q*技术突破可能对人类构成威胁
OpenAI董事会突然解雇CEO Sam Altman的谜团可能已经揭晓。最新报道称,多位研究人员向他们发出警告,称一个名为Q*(发音为Q-Star)的新技术突破可能对人类构成威胁——而Altman似乎未能及时通知他们。 研究人员在给董事会的一封信中提到,这一突破可能使人工智能在“大多数经济价值领域超越人类”。 迄今为止的故事 OpenAI在周五宣布,公司董事会的四名成员解雇了Altman,并将Brockman从董事会中移除。给出的理由非常模糊,只是称Altman“在与董事会的沟通中并不始终如一”。 科技界对Altman表示支持,OpenAI的主要投资者试图让他复职。董事会和高级管理层进行了谈判,但未能成功。 微软向Altman、Brockman以及其他想加入他们的OpenAI团队成员提供了工作机会。随后,几乎所有员工向董事会发出公开信,声明除非Altman复职并解雇董事会,否则他们将辞职。 OpenAI最初表示CTO Mira Murati将担任临时CEO,但在48小时内宣布Twitch联合创始人Emmett Shear将替换她,也是作为临时聘用。 随后进行了第二轮谈判。谈判结果是除了一名董事会成员外,所有人都被移除,Sam Altman重新被任命为CEO——但有一些显著的妥协。 Q*技术突破是什么? 目前,如果你让ChatGPT解决数学问题,它仍将使用其基于大型文本数据库的预测文本方法来编译答案,并逐字逐句决定人类会如何回答。这意味着它可能会也可能不会得到正确答案,但无论如何都没有数学技能。 OpenAI似乎在这一领域取得了突破,成功使人工智能模型能够真正解决它以前没有见过的数学问题。据说这一发展被称为Q*。不幸的是,团队没有使用足够智能的命名模型来避免看起来像脚注的东西,所以我将使用Q-Star版本。 据说Q-Star目前的数学能力相当于小学生,但预计这种能力将迅速提高。 Q-Star模型是否威胁到人类? 表面上看,一个能解决方程的AI系统似乎并不是反乌托邦梦魇的材料。要么人类去盐矿工作,要么Q-Star计算出哪四条线与2y=x+7平行。 但路透社的报告称,Q-Star研究可能指向AI的圣杯:通用人工智能(AGI)。 OpenAI中的一些人相信Q*(发音为Q-Star)可能是该公司寻找所谓通用人工智能(AGI)的一个突破,一位知情人士告诉路透社。OpenAI将AGI定义为在大多数经济价值任务中超越人类的自主系统。 据称,得益于巨大的计算资源,新模型能够解决某些数学问题,这位不愿透露姓名的人士说,因为该人士未获授权代表公司发言。尽管只在小学生水平上进行数学运算,但这种测试的成功使研究人员对Q*的未来成功非常乐观。 AGI是指一个足够智能的AI系统,能够执行人类可以执行的任何任务。如果这个目标真的实现,它将有效地导致几乎所有人类的工作被AI取代。 Altman被解雇现在可能有了解释 如果Q-Star突破确实使得开发AGI的可能性增加,且Altman未能将此事告知董事会,那么这将解释董事会关于他缺乏坦诚的评论,以及解雇的紧迫性。 然而,值得注意的是,这是——据我们所知——只有少数研究人员共享的担忧,由于大多数AI员工支持Altman对抗董事会,这表明聪明的钱(或聪明的人)似乎认为这是一种夸大的担忧。 尽管如此,保留现有的公司结构仍然是有意义的,在这种结构中,一个独立董事会——在AI商业部门没有财务投资——提供监督,并就盈利公司应该如何推进和速度做出决策。
Stable Video Diffusion最新亮相了!
今天,Stability AI推出了基于稳定扩散图像模型的首个基础视频生成模型——“稳定视频扩散”。 现已在研究预览版中发布,这一最先进的生成式人工智能视频模型是我们朝着为各种类型的每个人创建模型的旅程中的一大步。 随着这次研究版的发布,已经在GitHub仓库上提供了稳定视频扩散的代码,而运行模型所需的权重可以在Hugging Face页面上找到。关于模型技术能力的更多细节可以在研究论文中找到。 视频模型可以轻松适应各种下游任务,包括从单一图像通过在多视图数据集上微调来进行多视图合成。Stability AI计划开发一系列基于这一基础并扩展的模型,类似于围绕稳定扩散构建的生态系统。 此外,今天,你可以在这里登记我们的等候名单,以访问即将推出的新网络体验,包括文本到视频的界面。这个工具展示了稳定视频扩散在广告、教育、娱乐等多个领域的实际应用。稳定视频扩散以两种图像到视频模型的形式发布,能够在每秒3至30帧之间自定义帧率,生成14至25帧。在基础形式发布时,通过外部评估,发现这些模型在用户偏好研究中超越了领先的封闭模型。 虽然Stability AI急切地用最新的进展更新模型,但他们强调,这个模型在现阶段不适用于现实世界或商业应用。体验用户对安全和质量的见解和反馈对于完善这个模型,为最终发布做好准备至关重要。
Anthropic公司刚刚推出了Claude 2.1这个新版本!
Anthropic刚刚发布了他们的AI助手最新版本——Claude 2.1,这次升级可不一般,包括200,000个词符的上下文窗口、减少幻觉现象的发生率,以及新增的工具使用功能。那么,新晋AI小王子Claude 2.1的出现,会让你跟OpenAI说拜拜吗? Anthropic推出了Claude 2.1,相比Claude 2有了一系列改进。 这意味着什么? 200,000个词符相当于500页文本,你可以把发给前任的所有信息都塞进去。而且,Claude在利用这个巨大的上下文窗口方面也有所提升——幻觉信息的发生率降低了一半。Anthropic称这是诚实度的提高。感觉就像前任说:“亲爱的,我们复合吧,我在诚实度上有了重大提升。” Claude 2.1在输出上也更准确可靠——错误回答减少了30%,不支持的说法降低了3-4倍。简单来说,Claude会少撒谎,尽量不让你感到被操纵。 通过API访问,你现在还可以通过API访问额外的工具,不过这个功能还在测试阶段。开发者控制台还增加了一些功能:系统提示和一个用于测试提示的游乐场。 对于使用Claude API的企业用户来说,2.1版本将助手的功能提升到了处理完整文档的新水平。新的工具集成功能允许Claude根据自然语言请求直接查询数据库、发起API调用等。 Claude 2.1已在免费和专业计划中上线,但增加的上下文长度是专为专业用户准备的。
Inflection-2 这个新模型可是大放豪言
Inflection团队激动地宣布已经完成了Inflection-2模型的训练,它是目前全球同类计算中最优秀的模型,也是世界第二强大的大型语言模型(LLM)。 Inflection的使命是为每个人打造个性化的AI。就在几个月前,发布了Inflection-1 —— 一个业内领先的语言模型,它目前是Pi的核心动力。新模型Inflection-2,比Inflection-1有了质的飞跃,无论是事实知识的准确性、风格控制,还是推理能力都大大提高。 图1:在常用的学术基准测试中,Inflection-1、谷歌的PaLM 2-Large和Inflection-2的比较。(括号内为N-shots) Inflection-2是在约10²⁵ FLOPs的情况下,使用5000块NVIDIA H100 GPU以fp8混合精度进行训练的。这让它与谷歌的旗舰模型PaLM 2 Large处于同一训练计算类别,而在大多数标准AI性能基准测试中,包括著名的MMLU、TriviaQA、HellaSwag和GSM8k等,Inflection-2的表现都超过了PaLM 2 Large。 Inflection-2在设计时就考虑到了服务效率,不久将会为Pi提供动力。得益于从A100转向H100 GPU,以及高度优化的推理实现,尽管Inflection-2的规模是Inflection-1的数倍,但还是成功降低了服务成本,提高了速度。 这是实现为每个人构建个人AI道路上的一个重要里程碑,Inflection-2将为Pi带来的新能力感到兴奋。随着规模化之旅的继续,已经开始期待在22000块GPU集群的全能力下训练更大的模型。敬请期待! 训练如此大型的模型需要特别的关注和照顾,尤其是在安全、安全性和可信度方面。在Inflection,非常重视这些责任,安全团队继续确保这些模型经过严格评估,并集成了业界最佳的对齐方法。是第一个签署2023年7月白宫自愿承诺的公司,并继续支持为这项关键技术创建全球对齐和治理机制的努力。 感谢合作伙伴NVIDIA、微软和CoreWeave,在构建AI集群、使Inflection-1和Inflection-2的训练成为可能方面给予的合作与支持。
全新的生成型AI模型设计出了自然界中未曾发现的蛋白质
在一项名为《用可编程生成模型照亮蛋白质空间》的新研究中,研究人员介绍了一种生成型人工智能(AI)模型,名为Chroma,它能够创造出自然界中未曾发现的具有可编程属性的新型蛋白质,并在实验室中展示了其疗效潜力。 这项研究来自马萨诸塞州索默维尔市的Generate:Biomedicines公司,该公司在机器学习、生物工程和医学交汇处工作,重点是蛋白质设计。 “从第一天起,我们就一直在研究蛋白质的生成模型。这就是为什么我们的名字是Generate!” Generate:Biomedicines的联合创始人兼首席技术官Gevorg Grigoryan博士兴奋地说。 在AI革命之前,蛋白质设计方法仅限于基于自然界现有蛋白质的设计,这存在局限性,因为自然只是对可能的蛋白质景观的一小部分进行了采样。相比之下,生成型AI方法强调从零开始的蛋白质设计——从头开始设计新蛋白质——以扩展功能和理想属性的范围,超越自然所达到的水平。 Chroma被记录为在外部约束下设计蛋白质,这可能涉及对称性、子结构、形状,甚至自然语言提示。对Chroma生成的310种蛋白质进行的实验表征结果显示,这些蛋白质表达、折叠,并具有良好的生物物理特性。 Grigoryan指出,从一开始,程序性就是Chroma框架的一个内在部分,因为产生治疗应用需要的不仅仅是生成可以实验验证的结构。评估蛋白质的功能,如结合、异构控制和酶活性,对治疗潜力至关重要。 此外,Grigoryan强调,这项研究的一个新颖之处在于在进行蛋白质设计活动时,实验验证思维方式的转变。 “与其目标是‘我想让蛋白质起作用’,我们的目标是对模型进行表征。我们想了解Chroma学到的东西有多少是真实的,”Grigoryan在接受GEN采访时说。 在决定哪些计算结构进行实验验证时,常见的方法是一个过滤步骤,其中蛋白质设计师根据对生物物理结构的理解来评判设计,例如由于溶解性问题而对疏水区域的过度代表性进行惩罚。 Grigoryan告诉GEN,选择进行实验验证的310种蛋白质是直接从模型输出中取得的,并未以这种方式进行过滤。 “从这些蛋白质中,我们看到了极高的成功率,这当然非常令人兴奋,因为它表明由Chroma参数化的这个大型蛋白质空间是真实的[并且允许更有效的蛋白质设计],”Grigoryan继续说。 让数据为您服务 蛋白质设计领域传统的“自下而上”方法,基于原子的生物物理动力学模拟
谷歌DeepMind正试图界定什么是人工通用智能
人工通用智能(AGI)是当今科技界最火热也最具争议的话题之一。最大的问题之一是,很少有人对这个术语的含义达成共识。现在,谷歌DeepMind的研究团队发表了一篇论文,提出了不仅一个,而是一整套新的AGI定义。 相关故事: Ilya Sutskever的头部从云层中浮现,其背后的窗户里显现出一个图灵模式的分身。 OpenAI首席科学家的脑海中:超级智能的梦魇与机器融合 与Ilya Sutskever关于AI未来的担忧以及这些担忧如何改变了他一生工作重心的独家对话。 广义上,AGI通常指能在一系列任务上与人类匹敌(或超越)的人工智能。但关于什么算作人类般智能、涉及哪些任务、以及任务的数量等细节问题,通常都被忽视了:AGI就是AI,只不过更好。 为了定义这个新概念,谷歌DeepMind团队从现有的主要AGI定义出发,提取出他们认为的核心共同特征。 团队还概述了五个不断提升的AGI级别:初现(他们认为包括像ChatGPT和Bard这样的尖端聊天机器人)、胜任、专家、大师和超人类(在广泛的任务上表现优于所有人类,包括人类无法完成的任务,如解读他人的思想、预测未来事件和与动物交流)。他们指出,除了初现阶段的AGI外,尚未实现其他任何级别。 “这为这个话题提供了一些急需的明确性,”纽约大学的AI研究员朱利安·托格利乌斯说,他并未参与这项工作。“太多人在不加思考地滥用AGI这个术语。” 研究人员上周在网上发布了他们的论文,毫无炒作。在与两名团队成员的独家对话中——DeepMind联合创始人之一、现被称为公司首席AGI科学家的Shane Legg,以及谷歌DeepMind人类与AI互动首席科学家Meredith Ringel Morris——我了解到了他们提出这些定义的原因和目标。 更清晰的定义 “我看到很多讨论,人们似乎对这个术语有不同的理解,这导致了各种混乱,”大约20年前首次提出这个术语的Legg说。“现在AGI成为如此重要的话题——你知道,甚至英国首相都在谈论它——我们需要明确我们的意思。” 情况并非一直如此。曾经,AGI的讨论在严肃对话中被嘲笑为模糊不清,甚至是魔法思维。但在生成模型的炒作下,AGI的讨论现在无处不在。 当Legg在2007年建议他的前同事、研究员Ben Goertzel将这个术语用作Goertzel关于AI未来发展的书的标题时,模糊的意图恰恰是关键所在。“我并没有一个特别清晰的定义。我真的觉得没必要,”Legg说。“我实际上更把它看作是一门研究领域,而不是一种工具。” 当时他的目标是将能够非常好地完成一个任务的现有AI(如IBM的国际象棋程序Deep Blue)与他和许多其他人想象的有朝一日能够非常好地完成许多任务的假想AI区分开来。人类智能不像Deep Blue,Legg说:“它是一种非常广泛的东西。” 但随着时间的推移,人们开始将AGI视为实际计算机程序可能拥有的潜在属性。如今,谷歌DeepMind和OpenAI等顶级AI公司公开声明其构建此类程序的使命已成为常态。 “如果你开始进行这些对话,你需要对你的意思更加具体,”Legg说。 例如,DeepMind的研究人员指出,AGI必须既是通用的又是高成就的,而不仅仅是其中之一。“以这种方式区分广度和深度非常有用,”托格利乌斯说。“这说明了为什么我们过去看到的非常成功的AI系统不符合AGI的标准。” 他们还指出,AGI不仅必须能够完成一系列任务,还必须能够学习如何完成这些任务、评估其表现,并在需要时寻求帮助。他们还指出,AGI能够做什么比它如何做到更重要。 “并不是说AGI的工作方式不重要,”Morris说。问题在于,我们对当前尖端模型(如大型语言模型)的内部工作方式了解还不够多,无法将此作为定义的重点。 “随着我们对这些底层过程的理解加深,重新审视我们对AGI的定义可能很重要,”Morris说。“我们需要专注于当今可以以科学公认的方式测量的东西。” 评估标准 评估当今模型的表现已经引起了争议,研究人员正在辩论一个大型语言模型通过数十项高中测试的真正含义是什么。这是智能的标志吗?还是一种机械式学习? 评估未来更有能力的模型的表现将更加困难。研究人员建议,如果AGI真的被开发出来,其能力应该持续评估,而不是通过少数一次性测试。 团队还指出,AGI并不意味着自主性。“人们常常默认地假设人们会希望一个系统完全自主运行,”Morris说。但情况并非总是如此。理论上,可以构建完全由人类控制的超级智能机器。 研究人员在讨论AGI是什么时没有解决的一个问题是,为什么我们应该构建它。一些计算机科学家,如分布式AI研究所创始人Timnit Gebru,认为整个事业很奇怪。在4月份关于她所看到的通过AGI实现乌托邦的虚假(甚至危险)承诺的演讲中,Gebru指出,这种假想技术“听起来像是一个未定义的系统,其表面目标似乎是在任何环境下为每个人做任何事。” 大多数工程项目都有明确的目标。构建AGI的任务则没有。即使谷歌DeepMind的定义也允许AGI无限广泛、无限智能。“不要试图创造一个神,”