日本科学家团队宣布,他们利用人工智能技术,成功地基于人类大脑活动创造了世界首批心灵影像,其中包括物体和风景。 这个来自国立量子科学技术研究所、另一家国家研究院和大阪大学的团队,能够生成粗略的图像,如一只豹子,其嘴巴、耳朵和斑点图案可辨认,以及带有红色灯光翅膀的飞机等物体。 这项被称为“大脑解码”的技术,能够基于大脑活动可视化感知内容,可应用于医疗和福利领域。 研究人员展示给实验对象的豹子图片(左)和通过利用大脑活动的生成型人工智能重构的图片。(国立量子科学技术研究所提供的照片)(共同社报道) 这些发现最近在线发表在国际科学期刊《神经网络》上。 此前的研究已表明,通过使用功能性磁共振成像(fMRI)测量的大脑活动,可以重构人类参与者所看到的图像,尽管这些研究限于特定领域,如字母表。 基于以往的方法,该团队开发了一种技术,它可以量化大脑活动,并结合预测技术,允许生成型AI绘制图像以重现复杂物体。 在研究期间,参与者被展示了1200张物体和风景的图像,他们的大脑信号与图像之间的关系被使用fMRI分析和量化。然后将相同的图像输入到生成型AI中,以学习其与大脑活动的对应关系。 据该文章称,这项技术可用于通信设备的开发,并有助于了解幻觉和梦境的大脑机制。
很抱歉,Midjourney,但Leonardo AI的图像指导暂时还无人能及…至少目前是这样
看看上面的图片,问问自己,三张中哪一张绝对是AI生成的图像。然后考虑,哪一张一定是照片?完成这个测试并向朋友们展示后,大家的答案都错了。但这个测试真正令人惊叹的部分不在于图像的真实性,而在于真实图像和AI生成图像之间的一致性。 在这篇文章中,将探讨Leonardo AI中的“图像指导”功能,以及它如何能够基于传统摄影生成几乎精确的图像和提示。比如,如果你有一些传统摄影拍摄的照片,而模特的表情或姿势不够完美,现在你可以将这张图片导入Leonardo AI,添加图像指导,然后“使用同一个模特”进行随心所欲的修正。这不仅仅是脸部调整,而且比Midjourney的种子选项要深入得多。 事实上,它可以用来创建具有更多独特机会和风格的类似构图,这些可能是在使用标准提示时没有考虑到的。更棒的是,原始照片越真实,最终Leonardo AI生成的图像就越真实。在之前的一篇文章中,我结合使用了Midjourney和Leonardo AI,取得了一些惊人的结果,但最终生成的图像还是有点太过AI化。 在数字艺术的世界里,Leonardo AI的图像指导功能无疑是一股清流。它不仅为艺术创作提供了前所未有的灵活性,还在真实性和创意表达之间架起了一座桥梁。无论是专业摄影师还是爱好者,都可以借此将传统摄影与AI艺术完美融合,开创出全新的视觉体验。而Midjourney,虽然也是个不错的工具,但在这方面还是略逊一筹。Leonardo AI的这项技术,不仅在提升图像的质量上有所帮助,更在艺术创作的深度和广度上提供了新的可能性。它的到来,无疑为数字艺术界带来了新的启示,让我们对AI的能力和未来的发展充满了更多期待。 在这种情况下,整体照明得到了改善,颜色调整为更加真实的色调,面部轮廓被柔化但仍保持真实。现在,注意中间的图像和右侧图像之间的相似之处,藤椅上的线条几乎一模一样;靠垫的褶皱和牛仔裤上的破洞也是如此。基于两侧的图像,中间的图像看起来像是一个不太成功的生成,特别是在照明方面。Leonardo为我们做了所有的色彩校正! 这个案例完美展示了Leonardo AI在图像优化方面的强大功能。它不仅能改善照明和色彩,还能在保持细节真实性的同时,优化图像的整体视觉效果。中间图像与旁边的两张图像在某些细节上的高度相似性,证明了Leonardo AI在复制和调整现实元素方面的精确性。尽管中间的图像在某些方面看起来不如两侧的图像那么完美,但这也反映了Leonardo AI在图像生成过程中的自然变化和灵活性。 Leonardo AI在这个过程中自动进行的色彩校正尤其令人印象深刻。它不仅简化了后期处理的工作流程,还提高了最终图像的质量。通过细微调整光线和色彩,Leonardo AI能够增强图像的真实感和视觉吸引力,这对于那些寻求在他们的视觉作品中实现专业级效果的艺术家和摄影师来说,无疑是一大福音。 这种技术的出现,不仅改变了我们对AI图像生成能力的看法,也为创意行业带来了全新的可能性。它允许艺术家们在保持原始图像真实性的同时,通过微妙的调整来增强其艺术表现力,这在以往是难以想象的。Leonardo AI的这一进步,无疑为数字艺术创作提供了更多的灵活性和创造力。 怎么做到的呢? Leonardo AI的“图像指导”功能非常独特,提供了将文本提示和图像输入结合在一起的能力。以下是这个功能的操作步骤和一些关键点: 1. **文本提示区域**:屏幕顶部是用于输入文本提示的区域。这里,你可以描述你想要创建或修改的图像的特点,比如场景、人物、氛围等。 2. **启用图像指导**:注意屏幕上的“图像指导”绿色按钮。当这个按钮处于“开启”状态时,它会激活“图像输入”部分。 3. **图像输入部分**:在这里,你可以上传多达四张图像。这些图像将作为Leonardo AI生成新图像的参考。通过提供这些指导图像,你可以指导AI更准确地模拟特定的风格、色调、光照和构图。 4. **设定新的文本提示**:在添加指导图像后,你可以设定一个新的文本提示,以指导AI生成期望的图像。确保文本提示与指导图像在视觉风格和内容上有一定的一致性。 5. **适应性和灵活性**:Leonardo AI的图像指导功能具有很强的适应性。虽然将一个商业厨房里的男性厨师变成站在月球上的女性消防员可能有点困难,但对于面部表情、姿势、位置等的一般性变化来说,只要有图像指导,Leonardo AI都能轻松应对。 6. **实现精准与现实性**:如果你想“重新拍摄”某个模特,并且希望达到惊人的准确性和现实感,可以上传四张指导图像。这些图像可以是不同角度的拍摄、不同表情或不同环境下的照片,帮助AI更全面地理解和重现目标人物或场景。 通过这种方式,Leonardo AI的图像指导功能不仅增强了图像的真实感和细节,还为用户提供了更广泛的创造可能性,使他们能够以前所未有的方式操纵和改变图像。 在AI领域,一周的发展确实可以媲美大多数科技领域一年的进步,因此Leonardo AI目前对Midjourney的领先地位可能很快就会发生变化。但就目前而言,Leonardo AI的“图像指导”功能无疑是一个游戏规则改变者。这一功能对传统摄影师来说是一个必要的补充,同时,它也为模特行业带来了一定的挑战,因为在初次拍摄后,摄影师可能就有足够的内容来创造新的“拍摄”,而无需再次雇佣模特。 尽管我们在视频方面还没有达到这样的水平,但这正是美国演员工会(SAG)和好莱坞演员对自己形象和肖像权进行抗议、罢工并最终获胜的部分原因。我很好奇模特行业是否也会效仿。AI的不断进步正模糊了伦理和创造力的界限。对于现在,我会继续学习这些新技术,并就将来是否使用某些特定功能做出个人决定。 这种技术的发展无疑带来了一系列复杂的问题,特别是在涉及形象权和创意产权方面。随着AI能力的增强,我们必须更加谨慎地考虑其对传统行业的影响,以及它如何改变我们对艺术和创造力的理解。在利用这些强大的工具时,我们需要不断地评估它们带来的机遇和挑战,确保我们的使用方式既符合伦理标准,又能促进创新和艺术表达。
深度神经网络在作为人类听觉模型方面显示出了前景
嘿小伙伴们!你听到最火的AI耳朵没? 模仿人耳结构和功能的计算模型能帮助研究人员设计更好的助听器、人工耳蜗和大脑机接口。麻省理工最新研究表明,来自机器学习的现代计算模型离这个目标越来越近咯~ 这项迄今为止最大的深度神经网络训练研究表明,大多训练用于听觉任务的模型能生成与人脑在听同样声音时高度相似的内部表征呢! 研究还发现,含背景噪声的听觉输入模型更能模拟人听觉皮层的激活模式哟! “这项研究比以往更全面地将这类模型与听觉系统进行了比较。”项目高级作者、麻省理工大脑与认知科学副教授Josh McDermott说,“研究表明,来自机器学习的模型朝正确方向发展,为我们提供了一些使它们成为更好的大脑模型的线索。” 麻省理工研究生Greta Tuckute和博士毕业生Jenelle Feather为这篇今天发表在《PLOS Biology》的开放获取论文的主要作者。 听觉模型 深度神经网络由多层信息处理单元组成,可以在海量数据上训练以执行特定任务。这种模型已经被广泛用于许多应用领域。神经科学家也开始探索这些系统是否也可以用来描述人类大脑执行某些任务的方式。 “这些利用机器学习构建的模型能实现之前模型难以达到的规模的行为,这引发了人们对模型中的表征是否能捕捉到大脑中发生的事情的兴趣。” Tuckute说。 当神经网络执行一个任务时,其处理单元对每个接收到的音频输入(如词或其他声音)都会生成激活模式。可以将这些模型对输入的表征与人们听同一输入时fMRI大脑扫描获得的激活模式进行比较。 McDermott和其时研究生Alexander Kell在2018年报告说,当他们训练神经网络执行听觉任务(如从音频信号中识别单词)时,模型生成的内部表征与人们听同样声音的fMRI扫描中看到的模式有相似之处。 自那以后,这种模型已经被广泛使用,所以McDermott的研究小组决定评估更大的模型集,看这种逼近人类大脑神经表征的能力是否是这些模型的通用特征。 在这项研究中,研究人员分析了9个公开可用的、用于执行听觉任务的深度神经网络模型,并基于两种不同体系结构构建了14个自己的模型。这些模型大多被训练来执行单一任务——识别词汇、识别说话人、识别环境声音和识别音乐流派——而其中两个模型被训练来执行多个任务。 当研究人员向这些模型输入曾在人类fMRI实验中用作刺激的自然声音时,发现这些模型的内部表征倾向于与人脑生成的表征相似。最像大脑的模型是那些训练了多个任务且包含背景噪声的听觉输入进行训练的模型。 “如果在噪声中训练模型,它们能得到比不训练的模型更好的大脑预测,这在直观上是合理的,因为很多真实的听觉都是在噪声中进行的,这可能是听觉系统适应的东西。”Feather说。 层次化处理 这项新研究还支持人类听觉皮层存在某种程度的层次结构这一观点,其中处理被划分为支持不同计算功能的不同阶段。与2018年的研究一样,研究人员发现模型前期阶段生成的表征与在一级听觉皮层中看到的表征最为接近,而模型后期阶段生成的表征则更接近一级皮层之外的大脑区域生成的表征。 此外,研究人员还发现,训练不同任务的模型更能复制听觉的不同方面。例如,训练语音相关任务的模型更接近语音选择区域。 “即使模型看到了完全相同的训练数据,架构也相同,但当你优化某一特定任务时,你可以看到它选择性地解释大脑中的特定调谐属性。” Tuckute说。 McDermott的实验室现在计划利用他们的发现尝试开发出更成功地重现人类大脑反应的模型。除了帮助科学家进一步了解大脑的可能组织方式外,这种模型还可以用于帮助开发更好的助听器、人工耳蜗和大脑机接口。 “我们这个领域的目标是最终拥有一个可以预测大脑反应和行为的计算机模型。如果我们成功实现这个目标,将开启许多大门。” McDermott说。
DeepMind AI 超越人类数学家解决了未解之谜
最近,一种基于大型语言模型(LLMs)的技术显示,人工智能(AI)可以帮助数学家产生新的解决方案。这项技术被应用于“Set”这款纸牌游戏所启发的数学问题,取得了显著成果。 这个名为FunSearch的AI系统,在组合数学领域的Set启发问题上取得了进展。组合数学是研究如何计算有限物体集合可能排列的数学领域。但其发明者表示,这种方法不仅适用于数学和计算机科学中的多种问题,还在12月14日的《自然》杂志上进行了描述。 谷歌DeepMind的AI for Science团队负责人、计算机科学家Pushmeet Kohli说:“这是首次有人展示基于LLM的系统可以超越数学家和计算机科学家已知的内容。这不仅是新颖的,而且比现存的任何方法都更有效。” 与此相反,之前的实验中,研究人员使用大型语言模型解决已知解决方案的数学问题。 FunSearch通过自动创建请求来使用特别训练的LLM,要求它编写能生成特定数学问题解决方案的短程序。然后,系统会快速检查这些解决方案是否优于已知的。如果不是,它会向LLM提供反馈,以便下一轮改进。 DeepMind的计算机科学家Bernardino Romera-Paredes表示:“我们使用LLM的方式就像是一个创造力引擎。” LLM生成的程序并非都有用,有些甚至错误到无法运行。但另一个程序可以迅速丢弃错误的程序并测试正确程序的输出。 该团队在“cap set problem”上测试了FunSearch。这个问题起源于1970年代遗传学家Marsha Falco发明的游戏Set。Set牌组包含81张卡片,每张卡片展示了一、二或三个相同颜色、形状和阴影的符号——对于这些特征,每个都有三个可能的选项。这些可能性加在一起等于3 × 3 × 3 × 3 = 81。玩家需要翻开卡片,找出三张卡片的特殊组合,称为sets。 数学家已经证明,如果翻开的卡片至少有21张,玩家就保证能找到一个set。他们还为游戏的更复杂版本找到了解决方案,在这些版本中,卡片的抽象版本具有五个或更多的属性。但仍有一些谜团未解。例如,如果有n个属性,其中n是任何整数,那么就有3n种可能的卡片——但保证找到解决方案所需的最小卡片数尚不明确。 这个问题可以用离散几何的方式来表达。在那里,它相当于在n维空间中找到三个点的特定排列。数学家已经能够对可能的通用解决方案设定界限——给定n,他们发现桌上必须有的“卡片”数量必须大于某个公式给出的数,但小于另一个公式给出的数。 FunSearch在n = 8的下界上取得了进展,生成了满足游戏所有要求的卡片集合。DeepMind的计算机科学家Alhussein Fawzi说:“我们没有证明我们无法在此基础上取得进展,但我们确实得到了一个超越以前已知内容的构造。” FunSearch的一个重要特点是,人们可以看到LLM创建的成功程序,并从中学习,这与其他应用不同,在其他应用中,AI是一个黑箱。 共同作者、威斯康星大学麦迪逊分校的数学家Jordan Ellenberg说:“对我来说最激动人心的是,模拟新的人机合作模式。我不是想用这些作为人类数学家的替代品,而是作为一种力量的放大器。”
OpenAI 认为超人工智能即将来临,并希望构建工具来控制它
看看OpenAI“超对齐”团队啥水准! 就在投资者准备针对萨姆·奥尔特曼被OpenAI无礼解聘一事群情激奋的时候,奥尔特曼本人正密谋重返OpenAI。与此同时,OpenAI“超对齐”团队的成员一直在苦心孤诣地攻克如何控制比人类更智能的AI这一难题。 当然,这只是他们想给外界的印象。 本周,我与超对齐团队的三名成员科林·伯恩斯、帕维尔·伊兹梅洛夫和莱奥波德·阿申布伦纳进行了通话。他们当时正在新奥尔良参加每年一度的机器学习大会NeurIPS,发表OpenAI在确保AI系统按预期行事方面的最新研究成果。 OpenAI于今年7月成立了超对齐团队,目标是开发各种方法来引导、规范和治理“超级智能”AI系统,也就是理论上智能远超人类的系统。 “如今我们基本能对付比我们更低能的模型,最多对人类级别的模型进行对齐。”伯恩斯说,“但要对真正比我们更智能的模型进行对齐,那就不是那么回事了——我们该怎么做到啊?” 超对齐项目由OpenAI联合创始人兼首席科学家伊利亚·萨斯凯沃领衔。7月的时候这没什么好诟病的,但是现在哈哈哈,我们都知道萨斯凯沃就是那批最初要开除奥尔特曼的人之一。虽然某些报道暗示萨斯凯沃在奥尔特曼归来后处于“游移状态”,但OpenAI的公关至少跟我说,萨斯凯沃如今还在带领超对齐团队开展研究。 在AI研究界,超对齐一直是个敏感话题。有人认为这一分支领域还为时过早;有人则暗示它是个幌子。 尽管奥尔特曼一直把OpenAI比喻为“曼哈顿计划”,甚至组建了一个团队来探查AI模型,防止它们带来“灾难性风险”,包括化学和核威胁。但一些专家表示,目前还没有证据表明这家创业公司的技术在任何时候——至少短期内不会——获得足以威胁世界或战胜人类的能力。这些专家补充道,所谓即将来临的超级智能的说法只是故意转移视线,不去正视当下迫在眉睫的AI监管问题,比如算法偏见和AI的“嗜血”倾向。 不管怎样,萨斯凯沃似乎确实认为,AI总有一天会对人类生存构成威胁,当然这里指的不是OpenAI的AI。据报道,他甚至在公司的一次远足中烧了一个木人来表明自己致力于防止AI伤害人类。为了超对齐团队的研究,他控制了OpenAI目前计算能力的20%。 “AI最近的进步非常迅速,我向你保证进度只会越来越快。”阿申布伦纳说,“我认为我们很快就能达到人类水准的系统,但它不会就此停下来——我们会直接进入超人类级别……那么,如何对齐超人类AI系统并使之安全运转呢?这真的是整个人类面临的问题,也许是我们这个时代最重要的未解决技术难题。” 目前,超对齐团队正试图建立治理和控制框架,适用于未来强大的AI系统。考虑到“超级智能”的定义及某AI系统是否已达此级别都是存在争议的问题,这并非一项简单的任务。但是团队目前采取的方法是,使用一个较弱、较不复杂的AI模型(如GPT-2)来引导一个更高级、更精密的模型(如GPT-4),使其朝着理想的方向发展,远离不良方向。 类似于中学生试图指导大学生。即使中学生的指示在细节上可能有误,但大学生仍能抓住要点,比指导者做得更好。 在超对齐团队的设置中,一个在特定任务上微调过的弱模型生成标签,这些标签用于“传达”该任务的主要思想给强大的模型。在这些标签的基础上,即使弱模型的标签包含错误和偏见,强模型仍能根据弱模型的意图做出更多或更少正确的推广。 这种弱模型-强模型方法甚至可能在减少“幻象”方面有突破。“幻象”很有趣,因为模型内部其实知道自己说的东西是事实还是虚构。但是人类在训练模型时,有时会不经意地对模型的虚假陈述给予肯定,造成这种情况。如果我们的研究成功,我们将能开发出技术,来召唤模型对某事实虚构的判断,从而减少幻象。 当然这种类比也并非完美。因此OpenAI希望能群策群力。 为此,OpenAI启动了一项1000万美元的资助计划,支持超级智能对齐领域的技术研究。其中一部分资金将分配给学术实验室、非营利组织、个人研究者和研究生。OpenAI还计划在2025年初举办一次学术会议,分享和推广超对齐大奖决赛者的研究工作。 有趣的是,部分资助将来自前谷歌CEO、董事长埃里克·施密特。施密特是奥尔特曼的坚定支持者,他坚信危险的AI系统正迅速来袭,监管者并没有做好充分准备。这当然不一定出于利他主义——Protocol和联线的报道指出,作为AI的积极投资者,如果美国政府采纳他的AI研发蓝图,施密特有望从商业上获利数十亿美元。 那么从这个角度看,这笔捐赠有点像“擦亮金身”。施密特个人财富约240亿美元,他已经向其他一些决不会考虑道德的AI创业企业和基金投入了数亿美元——包括他自己的。 当然,施密特否认这种说法。他在一封电子邮件声明中说:“AI和其他新兴技术正在重塑我们的经济和社会。确保它们与人类价值观保持一致至关重要,我很自豪能支持OpenAI的新计划,负责任地为公共利益开发和控制AI。” 的确,一个商业动机如此明显的人物的介入不禁让人思考:OpenAI的超对齐研究以及它鼓励社区提交的未来会议论文是否会公开提供他人自由使用? 超对齐团队向我保证,是的,OpenAI的研究(包括代码)以及其他获得OpenAI超对齐类资助和奖项的工作都将公开共享。我们拭目以待。 “为我们自己的模型的安全性做贡献当然很重要,但为其他实验室的模型和整个先进AI的安全性做贡献也是我们的使命的一部分。”阿申布伦纳说,“这对实现我们的使命,‘造福全人类,安全地开发AI’,是绝对必要的。我们认为这项研究对于让它成为有益和安全的工具至关重要。”
AI影响谷歌正在推出新的人工智能模型,用于医疗保健。以下是医生如何使用它们的介绍
Google最近宣布推出了MedLM,这是一套面向医疗保健行业的新型AI模型套件。它旨在帮助临床医生和研究人员进行复杂的研究,总结医患互动等。 这标志着Google进一步试图通过医疗保健行业的AI工具获得收入。而在亚马逊、微软等竞争对手之间的市场争夺依然激烈。CNN采访了一些已经在测试Google技术的公司,比如HCA医疗保健。专家表示,这项技术的影响力是真实的,不过企业也在谨慎使用。 MedLM套件包括一个大型和一个中型AI模型,都是基于Med-PaLM 2开发的。后者是一个在医疗数据上训练的大型语言模型,Google在3月首次宣布。从本周三开始,符合条件的美国Google Cloud客户可以使用这个套件。Google表示,虽然不同模型的使用成本有所不同,但中型模型的运行成本更低。 Google还表示,它计划在未来将MedLM升级为Gemini的医疗保健行业专属版本。Gemini是Google最新推出也“最强大”的AI模型。 Google云计算全球医疗战略与解决方案主管Aashima Gupta表示,公司发现不同的医学调优AI模型更适合执行某些特定任务。这就是为什么Google决定推出一套模型,而不是设法建立“一刀切”的解决方案。 例如,Google表示,更大的MedLM模型更适合执行需要深度知识和大量计算能力的复杂任务,如使用某医疗机构全部患者数据进行研究。但是如果企业需要一个更敏捷的模型,可以针对某些特定或实时功能进行优化,比如总结医生和患者的互动,那么根据Gupta的说法,中型模型的效果会更好。 实际应用案例 Google在3月宣布Med-PaLM 2时,最初表示它可以用来回答诸如“肺炎的首要预警信号是什么”和“失禁可以治愈吗”这样的问题。但是随着公司与客户测试这项技术,使用案例已经发生了变化。Google健康AI主管Greg Corrado表示,临床医生并不经常需要获取有关某种疾病性质的“可访问”信息的帮助,因此Google没有看到客户对这些功能的太大需求。相反,医疗机构更希望AI能够帮助解决一些比较后台或流程性的问题,比如管理文书工作。 例如,美国最大的医疗系统公司HCA医疗保健已经从今年春天开始测试谷歌的AI技术。该公司在8月与Google云正式宣布合作, Ziel使用其生成式AI来“提高流程效率,减少费时任务”。 HCA医疗转型与创新高级副总裁Michael Schlosser博士表示,公司一直在使用MedLM帮助急诊医学医生自动记录与患者的互动。例如,HCA使用名为Augmedix的公司提供的环境语音记录系统来转录医患会谈。然后Google的MedLM套件可以将这些转录内容分解为急诊医生笔记的组成部分。 Schlosser表示,MedLM目前在HCA旗下4家医院的急诊室中使用,公司希望在未来一年内扩大应用范围。他补充说,到1月份,他预计Google的技术将能够成功生成超过一半的医生笔记内容,而无需医生参与。对于每天要花长达4小时做文书工作的医生来说,Schlosser说节省下来的时间和精力意义重大。 但是HCA也发现,MedLM并非万无一失。Schlosser说,AI模型会输出错误信息是一个很大的挑战。HCA一直在与Google合作制定最佳实践,以最大限度地减少这种“捏造”。他还表示,符号限制和随时间管理AI也对HCA提出了额外挑战。 “我想说的是,当前这些AI模型在医疗保健中的应用,还没有达到宣传的那么理想化。每个人都在应对这个问题,还没有哪家医疗系统敢大规模应用这些模型,就是因为这个原因。”即便如此,Schlosser还是说,医生对MedLM的初步反应很正面,他们也明白目前还不是最终产品。他说HCA正在努力以负责任的方式实现这项技术,以避免危及患者。 “我们在应对这些AI模型时非常谨慎。我们不会使用那些可能影响某人诊断和治疗的用例。” Google还计划在未来让Gemini的医疗保健行业专属版本加入MedLM。Google股价在Gemini推出后狂涨5%,但随后Google就不得不面对Bloomberg的质疑,承认演示视频不是实时进行的。 Google告诉CNN:“这个视频是基于真实的多模态输入和输出进行创作的,用以展示与Gemini互动的可能性。我们期待着12月13日Gemini专业版解锁时,人们会创造出什么。” Google的Corrado和Gupta表示,Gemini仍处于初期阶段,它需要在受控的医疗环境下接受客户的测试和评估,然后才能通过MedLM进行更广泛的推出。 “我们已经与客户测试Med-PaLM 2数月了,现在我们已经足够安心将其作为MedLM的一部分。”Gupta说,“Gemini也会遵循同样的方案。” Schlosser说HCA对Gemini“非常兴奋”,公司已经开始制定测试计划。“我们认为这可能会给我们带来额外的性能提升。” 除HCA外,药物发现初创公司BenchSci也在测试MedLM。Google是BenchSci的投资者,该公司已经使用了Google的MedLM技术几个月。 BenchSci联合创始人兼CEO Liran Belenzon说,该公司已经将MedLM的AI与自主研发的技术相结合,帮助科学家识别生物标志物,这对于理解疾病的发展和治疗至关重要。 Belenzon说,公司花了很多时间测试和验证这个模型,包括向Google提供必要的改进反馈。现在,Belenzon说BenchSci正准备向市场推广这项技术。 他告诉CNN:“它无法直接使用,但可以加速你的特定工作。” Corrado说,围绕MedLM的研究还在继续,他认为Google云的医疗客户将能够为组织内的多个不同用例调优模型。他还表示,Google将继续开发“更小、更便宜、更快、更好”的特定领域模型。 德勤也在向医疗客户部署之前反复测试了MedLM。德勤美国生命科学和医疗保健咨询负责人Kulleni Gebreyes博士表示,他们现在使用Google的技术帮助医疗系统和医保计划回答会员有关就医的问题。例如,如果患者需要做结肠镜检查,他们可以使用MedLM根据性别、位置、保险范围等条件查找医生。 Gebreyes说,客户发现MedLM准确高效。但是与其他模型一样,AI并不总是能准确理解用户的意图。如果患者不知道结肠镜检查的正确词汇或拼写,使用其他俚语,也会带来挑战。 她说:“它终究不能替代经过培训的专业人士的诊断。它让专业知识更贴近患者、更易获取。”
2024年即将面世的人脑级超级计算机,将拥有高达228万亿的链接
澳大利亚科学家们手头上的这台开创性超级计算机,旨在模拟人类大脑突触的全尺度活动。 这台神经形态超级计算机将能够每秒进行228万亿次突触操作,这与人类大脑估计的操作数量不相上下。 位于西悉尼大学国际神经形态系统中心(ICNS)的研究团队给它起名为DeepSouth。IBM的 预计2024年4月投入运行 人类大脑的惊人计算能力体现在它每秒仅使用20瓦特电力进行数十亿次数学运算。DeepSouth通过采用神经形态工程学的设计方法,实现了类似的并行处理能力,这种方法模仿了大脑的功能。 另请参阅 相关内容 英伟达推出最新超级计算机人工智能芯片 – H200 天河星翼:中国发布“最快”的国产超级计算机 ICNS主任安德烈·范·斯凯克教授在强调DeepSouth的独特特点时强调,这台超级计算机的设计目的独特 – 以类似于神经元网络的方式运行,神经元是人类大脑的基本单位。 神经形态系统利用相互连接的人工神经元和突触来执行任务。这些系统试图模仿大脑学习、适应和以高度并行和分布式的方式处理信息的能力。 神经形态系统常用于人工智能和机器学习领域,其目标是创建更高效且类似大脑的计算系统。 传统计算架构通常基于冯·诺依曼架构,其中计算机由单独的CPU和存储单元组成,数据和指令存储在后者中。 DeepSouth能够快速处理大量数据,同时消耗的电力显著少于传统超级计算机,并且体积更小。 范·斯凯克教授说:“我们对于大脑如何使用神经元进行计算的理解受到了阻碍,因为我们无法在大规模上模拟类似大脑的网络。在标准计算机上使用图形处理单元(GPUs)和多核心中央处理单元(CPUs)模拟尖峰神经网络速度太慢,而且耗能太大。我们的系统将改变这一点。” 该系统具有可扩展性 团队根据IBM的TrueNorth系统(启动了构建类似大量神经元网络的计算机的想法)和Deep Blue(第一台击败世界象棋冠军的计算机)给超级计算机命名为DeepSouth。 这个名字也暗指超级计算机的地理位置:位于南半球的澳大利亚。 团队认为,DeepSouth将有助于感应、生物医学、机器人、航天和大规模人工智能应用等多个领域的进步。 团队还认为,DeepSouth还将彻底改变智能设备。这包括移动电话和用于制造和农业的传感器等设备。
特斯拉最新推出的人形机器人Optimus Gen 2,在演示视频中亮相了
周二,特斯拉发布了一段展示其最新原型人形机器人Optimus Gen 2的演示视频。在首次公开展示Optimus机器人超过一年后,当时的机器人动作不稳、摇摆不定,如今看来技术进步显著,前提是视频真实反映了技术水平。 2022年AI日,特斯拉展示了尚未完成的人形机器人原型特斯拉高级软件工程师朱利安·伊巴兹在X平台上写道:“这个视频中的一切都是真实的,没有CGI。都是实时的,没有加速。团队在硬件上取得了惊人的进步。” 考虑到谷歌最近在AI演示中为了营销炒作而作弊的事件,最好持保留态度看待特斯拉的宣称,直到它们在实际的、现实世界中的演示中被独立验证。带着这种怀疑态度,让我们来看看特斯拉在这个非生产原型机器人中承诺的内容。 宣传视频以“大黄蜂”,特斯拉2022年9月的首个人形原型机器人的镜头开始。然后展示了2023年3月的“Optimus – Gen 1”。在一些不同机器人的诱惑镜头之后,视频在屏幕上显示文字:“介绍Optimus – Gen 2. 2023年12月。”当机器人执行各种任务时,比如缓慢行走、蹲下、操作鸡蛋而不破坏它们、挥动手臂时,列出了Gen 2的这些特点: 特斯拉设计的执行器和传感器2-DoF(自由度)驱动的脖子集成电子设备和线束的执行器步行速度提高30%脚部力/扭矩感应关节脚趾部分人类脚部几何形状总重量减少10公斤平衡和全身控制能力提高更快的11-DoF全新手部所有手指上的触觉感应精细物体操控(拿着鸡蛋) 如前所述,Optimus Gen 2并非设计用于生产或销售。作为原型机,它代表了通往更实用的人形机器人的更长旅程上的一个可能的里程碑,特斯拉CEO埃隆·马斯克表示,这种机器人将能够做人类不想做的任何事情。它被设计成与人类形状和大小相似,可以无缝替代人类劳动。无论应用何种场合,只需替换一个人,插入一个Optimus即可。 鉴于工程上的困难,这种人类劳动替代将何时发生仍有待观察,但如果视频中所展示的是真实的,特斯拉看起来正在朝着其目标取得重大进展。
IBM 刚刚发布了首个 1000 量子比特的量子芯片
IBM 最近发布了超过 1000 量子比特的首台量子计算机,这在普通电脑的数字比特中简直是个划时代的进步。但公司表示,接下来将转变重心,专注于提高机器的抗错误能力,而不再追求增大其规模。 多年来,IBM 按照一条量子计算路线图稳步前进,大约每年量子比特数翻一番。12月4日公布的这款芯片名为“秃鹰”,拥有1121个超导量子比特,以蜂窝状排列。它继承了之前创纪录的鸟类命名系列,包括2021年的127量子比特芯片和去年的433量子比特芯片。 量子计算机承诺实现传统计算机难以触及的某些计算。它们通过利用唯有量子特有的现象,如纠缠和叠加,使多个量子比特同时处于多种集体状态,来实现这一目标。 但这些量子状态也非常不稳定,容易出错。物理学家们试图通过促使几个物理量子比特——例如在超导电路或单个离子中编码的量子比特——共同工作,代表一个信息量子比特,即“逻辑量子比特”。 作为新战略的一部分,该公司还推出了一款名为“苍鹭”的芯片,拥有133个量子比特,但错误率创纪录地低,比它之前的量子处理器低了三倍。 研究人员普遍认为,最先进的错误纠正技术将需要超过1000个物理量子比特来支持一个逻辑量子比特。然后,一个能进行有用计算的机器需要拥有数百万个物理量子比特。 但近几个月来,物理学家对一种叫做量子低密度奇偶校验(qLDPC)的替代错误纠正方案感到兴奋。根据IBM研究人员的预印本,这种方法有望将所需量子比特数减少10倍甚至更多。公司表示,现在将专注于制造旨在仅用大约400个物理量子比特就能容纳几个经qLDPC纠正的量子比特的芯片,并将这些芯片网络化。 哈佛大学物理学家Mikhail Lukin表示,IBM的预印本是“出色的理论工作”。但他也说,用超导量子比特实现这一方案极具挑战性,可能需要数年时间才能进行初步的概念验证实验。Lukin及其合作者进行了类似的研究,探讨使用单个原子而非超导环来实现qLDPC。 qLDPC技术的难点在于,它要求每个量子比特至少直接连接六个其他量子比特。在典型的超导芯片中,每个量子比特只连接两个或三个邻居。但IBM量子的首席技术官、位于纽约约克镇高地的IBM Thomas J. Watson研究中心的凝聚态物理学家Oliver Dial表示,公司有一个计划:它将在量子芯片的设计中增加一层,以实现qLDPC方案所需的额外连接。 IBM今天公布的新量子研究路线图预计到本世纪末将实现有用的计算——例如模拟催化剂分子的工作。“这一直是我们的梦想,也一直是一个遥远的梦想,” Dial说。“能够看到从我们今天所处的位置到达那里的路径,对我来说是巨大的。”
加州大学伯克利分校研究人员推出Starling-7B:一款通过人工智能反馈强化学习(RLAIF)训练的开源大型语言模型(LLM)
人工智能大型语言模型(LLM)在自然语言处理任务中扮演着重要角色。这些模型通过大量数据集进行训练,能够理解和生成类似人类的文本。它们已经彻底改变了自然语言处理的领域,因为它们能够理解和发展出类人的文本。这些模型在生活的各个领域都有着广泛的应用。 加州大学伯克利分校的研究人员最近推出了一款开源大型语言模型Starling-7B。该模型通过从人工智能反馈中学习强化(RLAIF)进行训练。它不仅利用了我们最新开发的奖励训练和策略调整管道,还结合了新的GPT-4标记排名数据集Nectar以及先进的奖励训练和策略调整管道。 Starling-7B: Increasing LLM Helpfulness & Harmlessness with RLAIF Starling-7B的基础是GPT-4标记排名数据集Nectar。该数据集包含183,000个聊天提示,每个提示提供来自不同模型(如GPT-4、GPT-3.5-instruct、GPT-3.5-turbo、Mistral-7B-Instruct和Llama2-7B)的七种响应,共计380万对比较。为了确保公平性,研究人员在使用GPT-4进行排名时,投入了大量精力来减少位置偏见,这一过程在数据集部分有详细说明。 https://huggingface.co/berkeley-nest/Starling-LM-7B-alpha 他们使用学习奖励模型对Openchat 3.5语言模型进行了改进,并取得了令人印象深刻的成果。AlpacaEval评分从88.51%提高到91.99%,而MT-Bench评分从7.81提高到8.09。这些指标作为标准,评估了聊天机器人的实用性。 研究人员还用直接偏好优化(DPO)方法,将该模型与早期的开源模型(如Zephyra-7B、Neural-Chat-7B和Tulu-2-DPO-70B)进行了测试。尽管这些模型在Chatbot Arena中表现良好,但与顶级的SFT模型(如OpenHermes 2.5和Openchat 3.5)相比,它们还未能完全发挥RLHF的全部潜力。 研究人员强调,该模型还面临一些挑战。它容易受到欺骗或操纵方法的影响。此外,该模型在数学或推理任务上表现不佳,其输出的事实准确性有时也无法保证。他们还指出,该模型偶尔会出现冗长和易受越狱提示的问题。尽管如此,他们仍致力于改进Starling-7B。 为了解决这个问题,他们提出进一步完善该模型,利用基于规则的奖励模型,其中GPT-4作为指导,使用GPT-4技术报告中概述的技术。 总之,Starling-7B代表了LLM领域的重大进步,展示了通过人工智能反馈进行强化学习的可能性。自然语言处理领域因这些模型与社区共享知识的合作而得到增强。研究人员正在努力提高模型的性能并解决其局限性。