嘿小伙伴们!你听到最火的AI耳朵没? 模仿人耳结构和功能的计算模型能帮助研究人员设计更好的助听器、人工耳蜗和大脑机接口。麻省理工最新研究表明,来自机器学习的现代计算模型离这个目标越来越近咯~ 这项迄今为止最大的深度神经网络训练研究表明,大多训练用于听觉任务的模型能生成与人脑在听同样声音时高度相似的内部表征呢! 研究还发现,含背景噪声的听觉输入模型更能模拟人听觉皮层的激活模式哟! “这项研究比以往更全面地将这类模型与听觉系统进行了比较。”项目高级作者、麻省理工大脑与认知科学副教授Josh McDermott说,“研究表明,来自机器学习的模型朝正确方向发展,为我们提供了一些使它们成为更好的大脑模型的线索。” 麻省理工研究生Greta Tuckute和博士毕业生Jenelle Feather为这篇今天发表在《PLOS Biology》的开放获取论文的主要作者。 听觉模型 深度神经网络由多层信息处理单元组成,可以在海量数据上训练以执行特定任务。这种模型已经被广泛用于许多应用领域。神经科学家也开始探索这些系统是否也可以用来描述人类大脑执行某些任务的方式。 “这些利用机器学习构建的模型能实现之前模型难以达到的规模的行为,这引发了人们对模型中的表征是否能捕捉到大脑中发生的事情的兴趣。” Tuckute说。 当神经网络执行一个任务时,其处理单元对每个接收到的音频输入(如词或其他声音)都会生成激活模式。可以将这些模型对输入的表征与人们听同一输入时fMRI大脑扫描获得的激活模式进行比较。 McDermott和其时研究生Alexander Kell在2018年报告说,当他们训练神经网络执行听觉任务(如从音频信号中识别单词)时,模型生成的内部表征与人们听同样声音的fMRI扫描中看到的模式有相似之处。 自那以后,这种模型已经被广泛使用,所以McDermott的研究小组决定评估更大的模型集,看这种逼近人类大脑神经表征的能力是否是这些模型的通用特征。 在这项研究中,研究人员分析了9个公开可用的、用于执行听觉任务的深度神经网络模型,并基于两种不同体系结构构建了14个自己的模型。这些模型大多被训练来执行单一任务——识别词汇、识别说话人、识别环境声音和识别音乐流派——而其中两个模型被训练来执行多个任务。 当研究人员向这些模型输入曾在人类fMRI实验中用作刺激的自然声音时,发现这些模型的内部表征倾向于与人脑生成的表征相似。最像大脑的模型是那些训练了多个任务且包含背景噪声的听觉输入进行训练的模型。 “如果在噪声中训练模型,它们能得到比不训练的模型更好的大脑预测,这在直观上是合理的,因为很多真实的听觉都是在噪声中进行的,这可能是听觉系统适应的东西。”Feather说。 层次化处理 这项新研究还支持人类听觉皮层存在某种程度的层次结构这一观点,其中处理被划分为支持不同计算功能的不同阶段。与2018年的研究一样,研究人员发现模型前期阶段生成的表征与在一级听觉皮层中看到的表征最为接近,而模型后期阶段生成的表征则更接近一级皮层之外的大脑区域生成的表征。 此外,研究人员还发现,训练不同任务的模型更能复制听觉的不同方面。例如,训练语音相关任务的模型更接近语音选择区域。 “即使模型看到了完全相同的训练数据,架构也相同,但当你优化某一特定任务时,你可以看到它选择性地解释大脑中的特定调谐属性。” Tuckute说。 McDermott的实验室现在计划利用他们的发现尝试开发出更成功地重现人类大脑反应的模型。除了帮助科学家进一步了解大脑的可能组织方式外,这种模型还可以用于帮助开发更好的助听器、人工耳蜗和大脑机接口。 “我们这个领域的目标是最终拥有一个可以预测大脑反应和行为的计算机模型。如果我们成功实现这个目标,将开启许多大门。” McDermott说。
Author: aitrendtrackers@rengongzhineng.io
DeepMind AI 超越人类数学家解决了未解之谜
最近,一种基于大型语言模型(LLMs)的技术显示,人工智能(AI)可以帮助数学家产生新的解决方案。这项技术被应用于“Set”这款纸牌游戏所启发的数学问题,取得了显著成果。 这个名为FunSearch的AI系统,在组合数学领域的Set启发问题上取得了进展。组合数学是研究如何计算有限物体集合可能排列的数学领域。但其发明者表示,这种方法不仅适用于数学和计算机科学中的多种问题,还在12月14日的《自然》杂志上进行了描述。 谷歌DeepMind的AI for Science团队负责人、计算机科学家Pushmeet Kohli说:“这是首次有人展示基于LLM的系统可以超越数学家和计算机科学家已知的内容。这不仅是新颖的,而且比现存的任何方法都更有效。” 与此相反,之前的实验中,研究人员使用大型语言模型解决已知解决方案的数学问题。 FunSearch通过自动创建请求来使用特别训练的LLM,要求它编写能生成特定数学问题解决方案的短程序。然后,系统会快速检查这些解决方案是否优于已知的。如果不是,它会向LLM提供反馈,以便下一轮改进。 DeepMind的计算机科学家Bernardino Romera-Paredes表示:“我们使用LLM的方式就像是一个创造力引擎。” LLM生成的程序并非都有用,有些甚至错误到无法运行。但另一个程序可以迅速丢弃错误的程序并测试正确程序的输出。 该团队在“cap set problem”上测试了FunSearch。这个问题起源于1970年代遗传学家Marsha Falco发明的游戏Set。Set牌组包含81张卡片,每张卡片展示了一、二或三个相同颜色、形状和阴影的符号——对于这些特征,每个都有三个可能的选项。这些可能性加在一起等于3 × 3 × 3 × 3 = 81。玩家需要翻开卡片,找出三张卡片的特殊组合,称为sets。 数学家已经证明,如果翻开的卡片至少有21张,玩家就保证能找到一个set。他们还为游戏的更复杂版本找到了解决方案,在这些版本中,卡片的抽象版本具有五个或更多的属性。但仍有一些谜团未解。例如,如果有n个属性,其中n是任何整数,那么就有3n种可能的卡片——但保证找到解决方案所需的最小卡片数尚不明确。 这个问题可以用离散几何的方式来表达。在那里,它相当于在n维空间中找到三个点的特定排列。数学家已经能够对可能的通用解决方案设定界限——给定n,他们发现桌上必须有的“卡片”数量必须大于某个公式给出的数,但小于另一个公式给出的数。 FunSearch在n = 8的下界上取得了进展,生成了满足游戏所有要求的卡片集合。DeepMind的计算机科学家Alhussein Fawzi说:“我们没有证明我们无法在此基础上取得进展,但我们确实得到了一个超越以前已知内容的构造。” FunSearch的一个重要特点是,人们可以看到LLM创建的成功程序,并从中学习,这与其他应用不同,在其他应用中,AI是一个黑箱。 共同作者、威斯康星大学麦迪逊分校的数学家Jordan Ellenberg说:“对我来说最激动人心的是,模拟新的人机合作模式。我不是想用这些作为人类数学家的替代品,而是作为一种力量的放大器。”
OpenAI 认为超人工智能即将来临,并希望构建工具来控制它
看看OpenAI“超对齐”团队啥水准! 就在投资者准备针对萨姆·奥尔特曼被OpenAI无礼解聘一事群情激奋的时候,奥尔特曼本人正密谋重返OpenAI。与此同时,OpenAI“超对齐”团队的成员一直在苦心孤诣地攻克如何控制比人类更智能的AI这一难题。 当然,这只是他们想给外界的印象。 本周,我与超对齐团队的三名成员科林·伯恩斯、帕维尔·伊兹梅洛夫和莱奥波德·阿申布伦纳进行了通话。他们当时正在新奥尔良参加每年一度的机器学习大会NeurIPS,发表OpenAI在确保AI系统按预期行事方面的最新研究成果。 OpenAI于今年7月成立了超对齐团队,目标是开发各种方法来引导、规范和治理“超级智能”AI系统,也就是理论上智能远超人类的系统。 “如今我们基本能对付比我们更低能的模型,最多对人类级别的模型进行对齐。”伯恩斯说,“但要对真正比我们更智能的模型进行对齐,那就不是那么回事了——我们该怎么做到啊?” 超对齐项目由OpenAI联合创始人兼首席科学家伊利亚·萨斯凯沃领衔。7月的时候这没什么好诟病的,但是现在哈哈哈,我们都知道萨斯凯沃就是那批最初要开除奥尔特曼的人之一。虽然某些报道暗示萨斯凯沃在奥尔特曼归来后处于“游移状态”,但OpenAI的公关至少跟我说,萨斯凯沃如今还在带领超对齐团队开展研究。 在AI研究界,超对齐一直是个敏感话题。有人认为这一分支领域还为时过早;有人则暗示它是个幌子。 尽管奥尔特曼一直把OpenAI比喻为“曼哈顿计划”,甚至组建了一个团队来探查AI模型,防止它们带来“灾难性风险”,包括化学和核威胁。但一些专家表示,目前还没有证据表明这家创业公司的技术在任何时候——至少短期内不会——获得足以威胁世界或战胜人类的能力。这些专家补充道,所谓即将来临的超级智能的说法只是故意转移视线,不去正视当下迫在眉睫的AI监管问题,比如算法偏见和AI的“嗜血”倾向。 不管怎样,萨斯凯沃似乎确实认为,AI总有一天会对人类生存构成威胁,当然这里指的不是OpenAI的AI。据报道,他甚至在公司的一次远足中烧了一个木人来表明自己致力于防止AI伤害人类。为了超对齐团队的研究,他控制了OpenAI目前计算能力的20%。 “AI最近的进步非常迅速,我向你保证进度只会越来越快。”阿申布伦纳说,“我认为我们很快就能达到人类水准的系统,但它不会就此停下来——我们会直接进入超人类级别……那么,如何对齐超人类AI系统并使之安全运转呢?这真的是整个人类面临的问题,也许是我们这个时代最重要的未解决技术难题。” 目前,超对齐团队正试图建立治理和控制框架,适用于未来强大的AI系统。考虑到“超级智能”的定义及某AI系统是否已达此级别都是存在争议的问题,这并非一项简单的任务。但是团队目前采取的方法是,使用一个较弱、较不复杂的AI模型(如GPT-2)来引导一个更高级、更精密的模型(如GPT-4),使其朝着理想的方向发展,远离不良方向。 类似于中学生试图指导大学生。即使中学生的指示在细节上可能有误,但大学生仍能抓住要点,比指导者做得更好。 在超对齐团队的设置中,一个在特定任务上微调过的弱模型生成标签,这些标签用于“传达”该任务的主要思想给强大的模型。在这些标签的基础上,即使弱模型的标签包含错误和偏见,强模型仍能根据弱模型的意图做出更多或更少正确的推广。 这种弱模型-强模型方法甚至可能在减少“幻象”方面有突破。“幻象”很有趣,因为模型内部其实知道自己说的东西是事实还是虚构。但是人类在训练模型时,有时会不经意地对模型的虚假陈述给予肯定,造成这种情况。如果我们的研究成功,我们将能开发出技术,来召唤模型对某事实虚构的判断,从而减少幻象。 当然这种类比也并非完美。因此OpenAI希望能群策群力。 为此,OpenAI启动了一项1000万美元的资助计划,支持超级智能对齐领域的技术研究。其中一部分资金将分配给学术实验室、非营利组织、个人研究者和研究生。OpenAI还计划在2025年初举办一次学术会议,分享和推广超对齐大奖决赛者的研究工作。 有趣的是,部分资助将来自前谷歌CEO、董事长埃里克·施密特。施密特是奥尔特曼的坚定支持者,他坚信危险的AI系统正迅速来袭,监管者并没有做好充分准备。这当然不一定出于利他主义——Protocol和联线的报道指出,作为AI的积极投资者,如果美国政府采纳他的AI研发蓝图,施密特有望从商业上获利数十亿美元。 那么从这个角度看,这笔捐赠有点像“擦亮金身”。施密特个人财富约240亿美元,他已经向其他一些决不会考虑道德的AI创业企业和基金投入了数亿美元——包括他自己的。 当然,施密特否认这种说法。他在一封电子邮件声明中说:“AI和其他新兴技术正在重塑我们的经济和社会。确保它们与人类价值观保持一致至关重要,我很自豪能支持OpenAI的新计划,负责任地为公共利益开发和控制AI。” 的确,一个商业动机如此明显的人物的介入不禁让人思考:OpenAI的超对齐研究以及它鼓励社区提交的未来会议论文是否会公开提供他人自由使用? 超对齐团队向我保证,是的,OpenAI的研究(包括代码)以及其他获得OpenAI超对齐类资助和奖项的工作都将公开共享。我们拭目以待。 “为我们自己的模型的安全性做贡献当然很重要,但为其他实验室的模型和整个先进AI的安全性做贡献也是我们的使命的一部分。”阿申布伦纳说,“这对实现我们的使命,‘造福全人类,安全地开发AI’,是绝对必要的。我们认为这项研究对于让它成为有益和安全的工具至关重要。”
AI影响谷歌正在推出新的人工智能模型,用于医疗保健。以下是医生如何使用它们的介绍
Google最近宣布推出了MedLM,这是一套面向医疗保健行业的新型AI模型套件。它旨在帮助临床医生和研究人员进行复杂的研究,总结医患互动等。 这标志着Google进一步试图通过医疗保健行业的AI工具获得收入。而在亚马逊、微软等竞争对手之间的市场争夺依然激烈。CNN采访了一些已经在测试Google技术的公司,比如HCA医疗保健。专家表示,这项技术的影响力是真实的,不过企业也在谨慎使用。 MedLM套件包括一个大型和一个中型AI模型,都是基于Med-PaLM 2开发的。后者是一个在医疗数据上训练的大型语言模型,Google在3月首次宣布。从本周三开始,符合条件的美国Google Cloud客户可以使用这个套件。Google表示,虽然不同模型的使用成本有所不同,但中型模型的运行成本更低。 Google还表示,它计划在未来将MedLM升级为Gemini的医疗保健行业专属版本。Gemini是Google最新推出也“最强大”的AI模型。 Google云计算全球医疗战略与解决方案主管Aashima Gupta表示,公司发现不同的医学调优AI模型更适合执行某些特定任务。这就是为什么Google决定推出一套模型,而不是设法建立“一刀切”的解决方案。 例如,Google表示,更大的MedLM模型更适合执行需要深度知识和大量计算能力的复杂任务,如使用某医疗机构全部患者数据进行研究。但是如果企业需要一个更敏捷的模型,可以针对某些特定或实时功能进行优化,比如总结医生和患者的互动,那么根据Gupta的说法,中型模型的效果会更好。 实际应用案例 Google在3月宣布Med-PaLM 2时,最初表示它可以用来回答诸如“肺炎的首要预警信号是什么”和“失禁可以治愈吗”这样的问题。但是随着公司与客户测试这项技术,使用案例已经发生了变化。Google健康AI主管Greg Corrado表示,临床医生并不经常需要获取有关某种疾病性质的“可访问”信息的帮助,因此Google没有看到客户对这些功能的太大需求。相反,医疗机构更希望AI能够帮助解决一些比较后台或流程性的问题,比如管理文书工作。 例如,美国最大的医疗系统公司HCA医疗保健已经从今年春天开始测试谷歌的AI技术。该公司在8月与Google云正式宣布合作, Ziel使用其生成式AI来“提高流程效率,减少费时任务”。 HCA医疗转型与创新高级副总裁Michael Schlosser博士表示,公司一直在使用MedLM帮助急诊医学医生自动记录与患者的互动。例如,HCA使用名为Augmedix的公司提供的环境语音记录系统来转录医患会谈。然后Google的MedLM套件可以将这些转录内容分解为急诊医生笔记的组成部分。 Schlosser表示,MedLM目前在HCA旗下4家医院的急诊室中使用,公司希望在未来一年内扩大应用范围。他补充说,到1月份,他预计Google的技术将能够成功生成超过一半的医生笔记内容,而无需医生参与。对于每天要花长达4小时做文书工作的医生来说,Schlosser说节省下来的时间和精力意义重大。 但是HCA也发现,MedLM并非万无一失。Schlosser说,AI模型会输出错误信息是一个很大的挑战。HCA一直在与Google合作制定最佳实践,以最大限度地减少这种“捏造”。他还表示,符号限制和随时间管理AI也对HCA提出了额外挑战。 “我想说的是,当前这些AI模型在医疗保健中的应用,还没有达到宣传的那么理想化。每个人都在应对这个问题,还没有哪家医疗系统敢大规模应用这些模型,就是因为这个原因。”即便如此,Schlosser还是说,医生对MedLM的初步反应很正面,他们也明白目前还不是最终产品。他说HCA正在努力以负责任的方式实现这项技术,以避免危及患者。 “我们在应对这些AI模型时非常谨慎。我们不会使用那些可能影响某人诊断和治疗的用例。” Google还计划在未来让Gemini的医疗保健行业专属版本加入MedLM。Google股价在Gemini推出后狂涨5%,但随后Google就不得不面对Bloomberg的质疑,承认演示视频不是实时进行的。 Google告诉CNN:“这个视频是基于真实的多模态输入和输出进行创作的,用以展示与Gemini互动的可能性。我们期待着12月13日Gemini专业版解锁时,人们会创造出什么。” Google的Corrado和Gupta表示,Gemini仍处于初期阶段,它需要在受控的医疗环境下接受客户的测试和评估,然后才能通过MedLM进行更广泛的推出。 “我们已经与客户测试Med-PaLM 2数月了,现在我们已经足够安心将其作为MedLM的一部分。”Gupta说,“Gemini也会遵循同样的方案。” Schlosser说HCA对Gemini“非常兴奋”,公司已经开始制定测试计划。“我们认为这可能会给我们带来额外的性能提升。” 除HCA外,药物发现初创公司BenchSci也在测试MedLM。Google是BenchSci的投资者,该公司已经使用了Google的MedLM技术几个月。 BenchSci联合创始人兼CEO Liran Belenzon说,该公司已经将MedLM的AI与自主研发的技术相结合,帮助科学家识别生物标志物,这对于理解疾病的发展和治疗至关重要。 Belenzon说,公司花了很多时间测试和验证这个模型,包括向Google提供必要的改进反馈。现在,Belenzon说BenchSci正准备向市场推广这项技术。 他告诉CNN:“它无法直接使用,但可以加速你的特定工作。” Corrado说,围绕MedLM的研究还在继续,他认为Google云的医疗客户将能够为组织内的多个不同用例调优模型。他还表示,Google将继续开发“更小、更便宜、更快、更好”的特定领域模型。 德勤也在向医疗客户部署之前反复测试了MedLM。德勤美国生命科学和医疗保健咨询负责人Kulleni Gebreyes博士表示,他们现在使用Google的技术帮助医疗系统和医保计划回答会员有关就医的问题。例如,如果患者需要做结肠镜检查,他们可以使用MedLM根据性别、位置、保险范围等条件查找医生。 Gebreyes说,客户发现MedLM准确高效。但是与其他模型一样,AI并不总是能准确理解用户的意图。如果患者不知道结肠镜检查的正确词汇或拼写,使用其他俚语,也会带来挑战。 她说:“它终究不能替代经过培训的专业人士的诊断。它让专业知识更贴近患者、更易获取。”
2024年即将面世的人脑级超级计算机,将拥有高达228万亿的链接
澳大利亚科学家们手头上的这台开创性超级计算机,旨在模拟人类大脑突触的全尺度活动。 这台神经形态超级计算机将能够每秒进行228万亿次突触操作,这与人类大脑估计的操作数量不相上下。 位于西悉尼大学国际神经形态系统中心(ICNS)的研究团队给它起名为DeepSouth。IBM的 预计2024年4月投入运行 人类大脑的惊人计算能力体现在它每秒仅使用20瓦特电力进行数十亿次数学运算。DeepSouth通过采用神经形态工程学的设计方法,实现了类似的并行处理能力,这种方法模仿了大脑的功能。 另请参阅 相关内容 英伟达推出最新超级计算机人工智能芯片 – H200 天河星翼:中国发布“最快”的国产超级计算机 ICNS主任安德烈·范·斯凯克教授在强调DeepSouth的独特特点时强调,这台超级计算机的设计目的独特 – 以类似于神经元网络的方式运行,神经元是人类大脑的基本单位。 神经形态系统利用相互连接的人工神经元和突触来执行任务。这些系统试图模仿大脑学习、适应和以高度并行和分布式的方式处理信息的能力。 神经形态系统常用于人工智能和机器学习领域,其目标是创建更高效且类似大脑的计算系统。 传统计算架构通常基于冯·诺依曼架构,其中计算机由单独的CPU和存储单元组成,数据和指令存储在后者中。 DeepSouth能够快速处理大量数据,同时消耗的电力显著少于传统超级计算机,并且体积更小。 范·斯凯克教授说:“我们对于大脑如何使用神经元进行计算的理解受到了阻碍,因为我们无法在大规模上模拟类似大脑的网络。在标准计算机上使用图形处理单元(GPUs)和多核心中央处理单元(CPUs)模拟尖峰神经网络速度太慢,而且耗能太大。我们的系统将改变这一点。” 该系统具有可扩展性 团队根据IBM的TrueNorth系统(启动了构建类似大量神经元网络的计算机的想法)和Deep Blue(第一台击败世界象棋冠军的计算机)给超级计算机命名为DeepSouth。 这个名字也暗指超级计算机的地理位置:位于南半球的澳大利亚。 团队认为,DeepSouth将有助于感应、生物医学、机器人、航天和大规模人工智能应用等多个领域的进步。 团队还认为,DeepSouth还将彻底改变智能设备。这包括移动电话和用于制造和农业的传感器等设备。
特斯拉最新推出的人形机器人Optimus Gen 2,在演示视频中亮相了
周二,特斯拉发布了一段展示其最新原型人形机器人Optimus Gen 2的演示视频。在首次公开展示Optimus机器人超过一年后,当时的机器人动作不稳、摇摆不定,如今看来技术进步显著,前提是视频真实反映了技术水平。 2022年AI日,特斯拉展示了尚未完成的人形机器人原型特斯拉高级软件工程师朱利安·伊巴兹在X平台上写道:“这个视频中的一切都是真实的,没有CGI。都是实时的,没有加速。团队在硬件上取得了惊人的进步。” 考虑到谷歌最近在AI演示中为了营销炒作而作弊的事件,最好持保留态度看待特斯拉的宣称,直到它们在实际的、现实世界中的演示中被独立验证。带着这种怀疑态度,让我们来看看特斯拉在这个非生产原型机器人中承诺的内容。 宣传视频以“大黄蜂”,特斯拉2022年9月的首个人形原型机器人的镜头开始。然后展示了2023年3月的“Optimus – Gen 1”。在一些不同机器人的诱惑镜头之后,视频在屏幕上显示文字:“介绍Optimus – Gen 2. 2023年12月。”当机器人执行各种任务时,比如缓慢行走、蹲下、操作鸡蛋而不破坏它们、挥动手臂时,列出了Gen 2的这些特点: 特斯拉设计的执行器和传感器2-DoF(自由度)驱动的脖子集成电子设备和线束的执行器步行速度提高30%脚部力/扭矩感应关节脚趾部分人类脚部几何形状总重量减少10公斤平衡和全身控制能力提高更快的11-DoF全新手部所有手指上的触觉感应精细物体操控(拿着鸡蛋) 如前所述,Optimus Gen 2并非设计用于生产或销售。作为原型机,它代表了通往更实用的人形机器人的更长旅程上的一个可能的里程碑,特斯拉CEO埃隆·马斯克表示,这种机器人将能够做人类不想做的任何事情。它被设计成与人类形状和大小相似,可以无缝替代人类劳动。无论应用何种场合,只需替换一个人,插入一个Optimus即可。 鉴于工程上的困难,这种人类劳动替代将何时发生仍有待观察,但如果视频中所展示的是真实的,特斯拉看起来正在朝着其目标取得重大进展。
IBM 刚刚发布了首个 1000 量子比特的量子芯片
IBM 最近发布了超过 1000 量子比特的首台量子计算机,这在普通电脑的数字比特中简直是个划时代的进步。但公司表示,接下来将转变重心,专注于提高机器的抗错误能力,而不再追求增大其规模。 多年来,IBM 按照一条量子计算路线图稳步前进,大约每年量子比特数翻一番。12月4日公布的这款芯片名为“秃鹰”,拥有1121个超导量子比特,以蜂窝状排列。它继承了之前创纪录的鸟类命名系列,包括2021年的127量子比特芯片和去年的433量子比特芯片。 量子计算机承诺实现传统计算机难以触及的某些计算。它们通过利用唯有量子特有的现象,如纠缠和叠加,使多个量子比特同时处于多种集体状态,来实现这一目标。 但这些量子状态也非常不稳定,容易出错。物理学家们试图通过促使几个物理量子比特——例如在超导电路或单个离子中编码的量子比特——共同工作,代表一个信息量子比特,即“逻辑量子比特”。 作为新战略的一部分,该公司还推出了一款名为“苍鹭”的芯片,拥有133个量子比特,但错误率创纪录地低,比它之前的量子处理器低了三倍。 研究人员普遍认为,最先进的错误纠正技术将需要超过1000个物理量子比特来支持一个逻辑量子比特。然后,一个能进行有用计算的机器需要拥有数百万个物理量子比特。 但近几个月来,物理学家对一种叫做量子低密度奇偶校验(qLDPC)的替代错误纠正方案感到兴奋。根据IBM研究人员的预印本,这种方法有望将所需量子比特数减少10倍甚至更多。公司表示,现在将专注于制造旨在仅用大约400个物理量子比特就能容纳几个经qLDPC纠正的量子比特的芯片,并将这些芯片网络化。 哈佛大学物理学家Mikhail Lukin表示,IBM的预印本是“出色的理论工作”。但他也说,用超导量子比特实现这一方案极具挑战性,可能需要数年时间才能进行初步的概念验证实验。Lukin及其合作者进行了类似的研究,探讨使用单个原子而非超导环来实现qLDPC。 qLDPC技术的难点在于,它要求每个量子比特至少直接连接六个其他量子比特。在典型的超导芯片中,每个量子比特只连接两个或三个邻居。但IBM量子的首席技术官、位于纽约约克镇高地的IBM Thomas J. Watson研究中心的凝聚态物理学家Oliver Dial表示,公司有一个计划:它将在量子芯片的设计中增加一层,以实现qLDPC方案所需的额外连接。 IBM今天公布的新量子研究路线图预计到本世纪末将实现有用的计算——例如模拟催化剂分子的工作。“这一直是我们的梦想,也一直是一个遥远的梦想,” Dial说。“能够看到从我们今天所处的位置到达那里的路径,对我来说是巨大的。”
加州大学伯克利分校研究人员推出Starling-7B:一款通过人工智能反馈强化学习(RLAIF)训练的开源大型语言模型(LLM)
人工智能大型语言模型(LLM)在自然语言处理任务中扮演着重要角色。这些模型通过大量数据集进行训练,能够理解和生成类似人类的文本。它们已经彻底改变了自然语言处理的领域,因为它们能够理解和发展出类人的文本。这些模型在生活的各个领域都有着广泛的应用。 加州大学伯克利分校的研究人员最近推出了一款开源大型语言模型Starling-7B。该模型通过从人工智能反馈中学习强化(RLAIF)进行训练。它不仅利用了我们最新开发的奖励训练和策略调整管道,还结合了新的GPT-4标记排名数据集Nectar以及先进的奖励训练和策略调整管道。 Starling-7B: Increasing LLM Helpfulness & Harmlessness with RLAIF Starling-7B的基础是GPT-4标记排名数据集Nectar。该数据集包含183,000个聊天提示,每个提示提供来自不同模型(如GPT-4、GPT-3.5-instruct、GPT-3.5-turbo、Mistral-7B-Instruct和Llama2-7B)的七种响应,共计380万对比较。为了确保公平性,研究人员在使用GPT-4进行排名时,投入了大量精力来减少位置偏见,这一过程在数据集部分有详细说明。 https://huggingface.co/berkeley-nest/Starling-LM-7B-alpha 他们使用学习奖励模型对Openchat 3.5语言模型进行了改进,并取得了令人印象深刻的成果。AlpacaEval评分从88.51%提高到91.99%,而MT-Bench评分从7.81提高到8.09。这些指标作为标准,评估了聊天机器人的实用性。 研究人员还用直接偏好优化(DPO)方法,将该模型与早期的开源模型(如Zephyra-7B、Neural-Chat-7B和Tulu-2-DPO-70B)进行了测试。尽管这些模型在Chatbot Arena中表现良好,但与顶级的SFT模型(如OpenHermes 2.5和Openchat 3.5)相比,它们还未能完全发挥RLHF的全部潜力。 研究人员强调,该模型还面临一些挑战。它容易受到欺骗或操纵方法的影响。此外,该模型在数学或推理任务上表现不佳,其输出的事实准确性有时也无法保证。他们还指出,该模型偶尔会出现冗长和易受越狱提示的问题。尽管如此,他们仍致力于改进Starling-7B。 为了解决这个问题,他们提出进一步完善该模型,利用基于规则的奖励模型,其中GPT-4作为指导,使用GPT-4技术报告中概述的技术。 总之,Starling-7B代表了LLM领域的重大进步,展示了通过人工智能反馈进行强化学习的可能性。自然语言处理领域因这些模型与社区共享知识的合作而得到增强。研究人员正在努力提高模型的性能并解决其局限性。
谷歌的最新人工智能实验,让你能够创造出受各种乐器启发的音乐
谷歌持续推动科技的边界,这次他们进军音乐领域。为了庆祝即将到来的节日季,这个搜索巨头正在进行一项新的人工智能实验。谷歌艺术与文化实验室的驻地艺术家西蒙·杜里为公司设计了一个名为“乐器游乐场”的新型AI工具。这个工具能帮助用户创作出受全球各种乐器启发的音乐。 去试试: https://artsandculture.google.com/experiment/8QFo2oQr2uT3pg 谷歌在其博客中表示:“开始你的旅程,通过探索来自世界各地的10种较不为人知的乐器,了解更多关于印度、韩国、日本或巴西的传统乐器和音乐。”这项AI实验由谷歌的MusicLM驱动,这是一款于今年五月向公众发布的文本到AI工具。它能根据文本描述生成任何类型的高保真音乐,可在AI测试厨房应用程序的网页、安卓或iOS上使用。 谷歌AI工具MusicLM乐器库 也阅读:一加有一个AI音乐商店:现在就可以创造你自己的音乐视频 它是如何工作的 该工具接受了来自世界各地的100种乐器的训练,包括来自印度的“维纳”、来自中国的“笛子”和来自津巴布韦的“姆布里亚”。只需输入一个乐器的名称和一个可选的形容词,MusicLM就可以生成一个20秒的音频剪辑来启动你的音乐创造力。此外,你还可以向你的提示中添加形容词,如“忧郁”、“快乐”或“浪漫”,以塑造结果。 请注意,它可能会莫名其妙地拒绝某些形容词。然而,生成的音乐可能并不总是与输入乐器的确切声音相符。例如,输入“愤怒的大号”可能会产生合成的管风琴声音,而不是激烈的铜管独奏。类似地,“奇怪的迪吉里杜管”听起来像汉斯·季默的配乐中的一个不祥部分。结果看起来像是有层次的声音的抽象组合,它们(有点)捕捉到了提示的‘感觉’,而不是具体的‘声音’。 在其博客文章中,该公司指出,用户可以添加词汇“欢快”或“愉快”来创作节日铃声。在生成了他们喜欢的片段后,用户可以进一步定制作品的多个组成部分,如“氛围”、“节拍”和“音高”,使其更加独特。该工具甚至允许用户在探索不同的音效时播放和创作音频剪辑。 此外,用户还可以通过选择高级模式尝试使用序列器。这将帮助他们层叠和循环最多四种乐器。谷歌还创作了一些节日铃声,包括“Chime Chime Ya”——一首受节日风铃启发的经典铃声作品,以及“Ho Ho Ho”——一首向圣诞老人致敬的作品,它融合了“节日教堂钟声”和“天堂般的锣声”。一旦对他们的创作感到满意,用户可以将其下载为“.wav文件”。 在这里尝试谷歌的新乐器游乐场工具。谷歌使开始使用这个实验制作抽象音乐变得非常流畅。用户可以玩得开心,使用不同的提示和乐器创作各种曲目。然而,值得注意的是,该工具在某些情况下似乎并不正常工作,有时会完全拒绝其他提示。在某些情况下,还会弹出错误,表示不允许引用特定艺术家的提示。希望谷歌将很快解决这个问题。
AI “自主运行”的计算机概念正逐渐成为现实
晚上和新生儿在一起的时光,有时会催生出意想不到的突破。OthersideAI的开发人员Josh Bickett就是在一次深夜喂养女儿时,萌生了一个开创性的“自主运行计算机框架”的想法。Bickett向VentureBeat解释说:“我非常享受和我四周大的女儿在一起的时光,这段时间我学到了很多关于为人父的新课程。但同时,我也有点时间去思考,因为我看到了GPT-4视觉的不同演示。我们现在正在研究的事情实际上可以通过GPT-4视觉实现。” 在抱着女儿的同时,Bickett在电脑上勾勒出了基本框架。“我找到了一个初步的实现……它在正确点击鼠标方面还不是很好。但我们正在做的是定义问题:我们需要弄清楚如何操作计算机。”当OthersideAI的联合创始人兼CEO Matt Shumer看到这个新框架时,他意识到了它巨大的潜力。Shumer对VentureBeat说:“这是通往计算机自动驾驶的里程碑。我们现在拥有传感器。我们有激光雷达系统。接下来,我们要构建智能。” 正如Bickett所描述的,这个框架“让AI控制鼠标的点击位置和所有键盘触发器。它就像一个自动GPT代理,但它不是基于文本的。它是基于视觉的,所以它会截取电脑屏幕的截图,然后决定鼠标点击和键盘操作,就像人类一样。”Shumer进一步阐释了这个框架如何代表了超越之前完全依赖APIs的方法的重大进步。“很多人在计算机上做的事情,你用APIs是做不到的,这是很多其他人在解决这个问题时的方法,他们想要构建一个代理。他们在这项服务的公开API之上构建它,但这并不能扩展到所有东西。”正如Shumer所断言的,“如果你真的想解决一个自主的问题,可以真正帮助我们或让我们完成更多的事情。你必须允许它像人一样工作,因为世界是为人们构建的。”这个框架将屏幕截图作为输入,输出鼠标点击和键盘命令,就像人类一样。但正如Bickett和Shumer所承认的,真正的潜力不在于轻量级框架本身,而在于可以插入它的先进的计算机视觉和推理模型。“框架将只是插入和播放,你只需要插入一个更好的模型,它就会变得更好,”Bickett说。 看看怎样: 当被VentureBeat问及未来的影响时,Shumer描绘了一个大胆的愿景:“一旦这个东西足够可靠,它将成为你的电脑,它将成为你进入数字世界的界面。”有了自主运行计算机框架,先进的AI模型可以学会通过对话命令接管所有计算机交互。正如Shumer所预测的,不同类型的专业计算机代理模型可能会出现来处理不同的任务。 一些可能专注于简单任务的速度,而其他人则擅长复杂推理。模型也可能因企业与消费者使用案例而有所不同。但据Shumer所说,总体目标是开发使人们可以说,“这是我讨厌做的事情。现在,我不必再做了。我们想让它变得如此容易,以至于几乎不会使用计算机的人也可以做到。”Bickett相信,框架的开源性质将进一步加速进展,使全球开发者能够尝试新的应用。Shumer也同意,这个领域有“很多玩家的空间……各种模型提供者。各种应用。并且在这个行业中有很多空间来构建非常非常大的企业。” 尽管Bickett和Shumer看到了巨大的潜力,但要实现真正智能计算机代理的愿景,将需要巨大的资源和持续的创新。为此,AI研究公司Imbue(以前称为Generally Intelligent)最近与Dell建立了一项价值1.5亿美元的合作伙伴关系,以建立一个强大的AI训练平台。大约10000个Nvidia H100 GPU的大型集群将使Imbue能够开发专门针对推理能力优化的新基础模型,这是他们工作的关键重点。正如Imbue联合创始人兼首席执行官Kanjun Qiu所指出的,“推理是代理工作得非常好的核心障碍。”Imbue认为,强大的推理对于开发真正有效的AI代理至关重要,因为它允许机器处理不确定性,适应方法,收集新信息,做出复杂决策,并处理现实世界的复杂性——这些能力对于在狭窄任务之外自主运作至关重要。 该公司采用“全栈”方法,包括优化的基础模型训练、实验性代理和界面原型制作、健壮的工具构建和理论AI研究——旨在推进深度学习的实用和基本理解,以实现具有人类级推理能力和最终人工普遍智能的工程AI。 虽然自主运行计算机框架只是第一步,但Bickett和Shumer认为它将开启一个新时代,届时复杂的AI代理将完全取代人类的计算机界面。深夜可能会继续孕育出颠覆性的想法,但要实现电脑仅通过普通语言就能为任何人、任何地方服务的完整愿景,还需要专注的工作。 去看看 https://github.com/OthersideAI/self-operating-computer