OpenAI最近宣布了一个激动人心的更新:现在,人们可以立即使用ChatGPT,无需进行注册。这项变革让ChatGPT的便利性和可及性大大增强,目标是让全球范围内对人工智能功能好奇的每一个人都能轻松体验到AI的魅力。据悉,每周已有超过1亿用户来自185个国家通过ChatGPT来学习新知识、寻找创意灵感或解答各种问题。 OpenAI同时提到,为了不断改善其模型,以更好地服务于所有用户,他们可能会利用用户提供给ChatGPT的内容。值得注意的是,用户无论是否创建账户,均可通过设置选择关闭此功能。关于如何使用内容来训练模型以及用户可行的选择,OpenAI在其帮助中心提供了更多信息。 为了增强这一体验的安全性,OpenAI还引入了额外的内容安全措施,包括在更广泛的类别中阻止某些提示和生成内容。 此外,OpenAI强调创建账户将带来多项好处,如能够保存和回顾聊天历史、分享聊天内容,以及解锁更多附加功能,包括语音对话和自定义指令。 对于那些一直好奇于AI潜力但又不想完成账户设置步骤的人,OpenAI的这一最新动向无疑提供了一个极佳的机会,让他们可以直接开始探索和使用ChatGPT。
Somme Requiem 全AI制作的电影短片
未来画卷:当AI短片撼动视界,虚拟与现实的界限模糊
上个月,OpenAI搞了个大动作,推出了个新玩意儿,名叫Sora的视频生成模型。这不,才玩了没几天,一群拍电影的大佬就被拉来试水。成果呢?七个梦幻般的短片一出炉,立马让人看到了,生成视频的未来,简直要飞速赶来了! 要说起这玩意儿,其实早在2022年底,一些大公司,比如Meta、谷歌,还有那个啥Runway的小创业公司,都玩过类似的把戏。只不过那时候的视频,质量嘛,说好听点是艺术感十足,说直白点就是粗糙得跟我的初中美术作业似的,而且还短得可怜。 时间一晃眼到了18个月后,Sora玩出来的高清逼真效果,美得让人窒息,搞得一些人激动得预言好莱坞的末日都要来了。Runway家的新模型也不甘落后,能做出能跟大片儿动画工作室较劲的短片来。而且,那两个做图像模型出名的公司,Midjourney和Stability AI,现在也开始往视频这块儿扩展了。 现在的问题是,一大波公司正摩拳擦掌,准备在这个领域大展拳脚。大家都还在摸索怎么利用这股风潮来赚钱呢。Vyond的CEO Gary Lipkowitz就说了,玩这玩意儿是真的酷,但怎么在工作上用起来呢? 不管怎样,这技术改变游戏的方式肯定不少,各行各业都得重新洗牌。当然,也担心会被滥用,比如生成假视频什么的,网上已经够乱的了,这下更加雪上加霜。我们都看到问题来了,就是没人知道怎么解决。 好了,废话不多说,直接上干货。我们这就来聊聊,搞这个视频生成技术,未来会有啥新花样。 首先,Sora这货只是个开头,其他公司也在紧追不舍。接下来几个月,市场上将挤满了Sora的竞争对手。 比如,这个月从暗处走出来的英国创业公司Haiper,一开始是想做能让2D图片转变成3D场景的技术,后来一拍脑袋,觉得做视频更有前途。CEO Yishu Miao说,对视频的需求超级大。 像Sora这样的技术,用的是某种扩散模型来搞定视觉效果,再加上一个变压器来保持帧之间的连贯性。但是,让这技术保持正轨,需要海量的数据和成群的电脑。 Irreverent Labs就选择了另一条路。他们不跟风,因为那样的话就变成了硬件战争,最后赢家也只有一个,穿皮夹克的那位大佬(没错,说的就是Nvidia的CEO Jensen Huang)。 他们的技术结合了扩散模型和一种预测下一帧内容的模型,但这种方法还能省点成本,减少出错率。不过,就算这样,做出来的视频还是会有些小瑕疵。 总之,现在的技术还处于初级阶段,就像几年前的大型语言模型GPT-2一样,当时大家都惊叹不已,但真正成为改变游戏规则的东西,还得过几年。 至于生成视频将如何被利用,不用说,视频是互联网的灵魂。从YouTube到TikTok,再到新闻和广告,合成视频马上就要遍布每个角落了。 营销行业特别是,已经开始大力投入。Adobe最近的一项调查显示,三分之二的营销专业人士在工作中尝试过生成AI,超过一半的人说他们已经用它来制作图像了。 《Somme Requiem》这部短片就是一个例子,它讲述的是第一次世界大战圣诞休战期间的故事,通过拼接、调色和配音,展示了混合工作流程的未来。 但是,不要太早下结论,认为生成视频就能取代好莱坞。技术虽好,但还不够成熟,控制输出的能力还有待提高。就现在而言,它更适合制作那些只需几秒的场景设置镜头,而且成本还低。 虚假信息的问题也不能忽视,深度伪造技术的出现,只会让情况变得更糟。我们正在逐渐失去对媒体、机构乃至彼此的信任,如果再加上假视频,我们共享的现实基础可能就会完全崩溃。 总之,虽然前景一片光明,但挑战和风险同样存在,我们还在为掌握这项技术而努力。
NHS测试AI工具Mia成功识别被遗漏的乳腺癌案例
NHS测试的一款AI工具成功识别了11名女性乳腺癌的微小迹象,这些迹象之前被人类医生遗漏。 这款名为Mia的工具与NHS临床医生一起进行了试点,分析了超过1万名女性的乳房X光片。其中大多数女性未患癌症,但它成功标记了所有有症状的病例,以及11个医生未识别的额外病例。 在最初阶段,癌症可能非常小,难以被发现。 BBC在NHS Grampian看到了Mia的实际操作,我们被展示了几乎肉眼无法看到的肿瘤。但是,根据它们的类型,这些肿瘤可以迅速生长和扩散。 Barbara是11位患者之一,她的癌症被Mia标记出来,但在医院放射科医生研究她的扫描时没有被发现。 因为Barbara的6mm肿瘤被很早发现,她接受了手术,但只需要五天的放疗。发现时肿瘤小于15mm的乳腺癌患者,在接下来的五年里有90%的存活率。 Barbara表示,她很高兴治疗比她之前同样与病魔抗争的姐妹和母亲要少侵入性。她告诉我,她遇到了一位表示同情Barbara患有“大C”的亲戚。“我说,‘这不是大C,这是一个很小的C’,”她说。如果没有AI工具的帮助,Barbara的癌症可能直到她下一次常规的乳房X光检查三年后才会被发现。她之前没有经历过任何明显的症状。由于它能即时工作,像Mia这样的工具还有可能将结果的等待时间从14天减少到3天,其开发者Kheiron声称。 试验中的所有病例都不是单独由Mia分析的——每个都进行了人工审查。目前每个个别扫描都由两名放射科医生查看,但希望未来其中一人可以被工具替代,有效减半每对医生的工作量。 参与试验的10,889名女性中,只有81人不希望AI工具审查他们的扫描,据领导该项目的苏格兰东北部乳腺筛查临床主任Gerald Lip医生说。 AI工具通常非常擅长识别特定疾病的症状,如果它们接受了足够的数据训练以识别这些症状。这意味着需要向程序提供尽可能多的不同的匿名症状图像,来自尽可能多样化的人群。 由于患者隐私和隐私关切,获取这些数据可能很困难。 Kheiron Medical的首席战略官Sarah Kerruish表示,建立和训练Mia花了六年时间,它在微软的云计算能力上运行,训练了来自“全世界妇女的数百万”乳房X光片。 “我认为我学到的最重要的一点是,当你为医疗情况开发AI时,你必须从第一天开始就构建包容性,”她说。 乳腺癌医生平均每年查看约5,000张乳房扫描,一次可查看100张。 “有一种疲劳感,”Lip医生说。 “你会受到干扰,有人进来,背景中有人在聊天。还有很多事情可能会打乱你的常规。那些你被分心的日子,你会问,‘我怎么会错过那个?’这确实会发生。” 我问他是否担心像Mia这样的工具有一天可能完全取代他的工作。 他说,他相信这项技术最终能让他有更多时间与患者相处。 “我将Mia视为一个朋友和对我的实践的增强,”Lip医生说。 Mia并不完美。它无法访问任何患者历史记录,例如,它会标记之前的扫描已经识别并确定为无害的囊肿。 此外,由于当前的健康法规,AI工具的机器学习元素被禁用——所以它不能在工作中学习和进化。每次更新时,它都必须进行新的审查。 Mia试验只是一个早期测试,是一个产品在一个地点的测试。阿伯丁大学独立验证了研究,但评估结果尚未经过同行评审。放射科医生皇家学院表示,技术有潜力。 “这些结果是鼓舞人心的,帮助突显了AI在诊断中呈现的令人兴奋的潜力。无疑,真实的临床放射科医生是必不可少的,不可替代的,但使用经过验证的AI工具的临床放射科医生将越来越成为患者护理中的强大力量。”放射科医生皇家学院院长Katharine Halliday博士说。 癌症研究UK的健康信息负责人Julie Sharp博士表示,每年诊断出的癌症病例数量不断增加,技术创新将是“至关重要的”,以帮助改善NHS服务并减轻其员工的压力。 “还需要更多研究,以找到使用这项技术改善癌症患者结果的最佳方法,”她补充说。 在英国还有其他与医疗相关的AI试验正在进行,包括一家名为Presymptom Health的公司正在分析血液样本,寻找症状出现前的脓毒症迹象——但许多仍处于早期阶段,没有公布结果。
Demis Hassabis,这位被封为爵士的AI领域的杰出研究者和神经科学家,是否能成为Google的救星?
当我询问Demis Hassabis是否能拯救Google时,他通过屏幕紧紧地盯着我。在他的家乡英国,已是傍晚时分,而这位DeepMind的创始人正在加班。自从去年夏天吞并了Google Brain后,他所在的这家Google旗下AI研究机构如今领导着公司的全部AI研究工作,面前的任务无比庞大。 Google的核心业务正蓬勃发展,但那似乎与本质无关。Hassabis和我是通过Google Meet交谈,在Gmail安排的采访中,通过Google Calendar安排时间,并通过Google搜索进行研究。主要得益于这些核心产品,Google去年公布了3070亿美元的收入,第四季度增长了13%,股价接近历史最高点。但是,关于其是否能赢得AI竞赛,或者甚至能否胜任竞赛的问题,已经给它最近的成功蒙上了阴影。 “我并不是那样看待的,”Hassabis挑战我的问题的前提。他说,人工智能将“颠覆很多很多事情。当然,你想要站在影响那些颠覆的前沿,而不是处在被动接受的一端。” Hassabis是那个应该保持Google处于这一前沿的人。这位屡获殊荣的研究员和神经科学家——就在周四被授予爵士称号——领导了一个充满活力的AI团队,该团队负责Google多项突破。自2014年被收购以来,DeepMind已经通过革命性的AI模型攻克了看似不可能的棋类游戏AlphaGo,解码了蛋白质AlphaFold,并为合成数千种新材料奠定了基础。 但现在,Hassabis和合并后的Google DeepMind团队必须将这些类型的突破转化为一个价值1.8万亿美元的公司在日益增长的AI世界中寻求的实质性产品改进。而且他必须在不破坏提供丰厚蓝链接收益的搜索广告业务的情况下完成这一切,AI正威胁着这一业务。 对于聊天机器人的推出延迟,充斥着命名混乱,以及刚刚过去的尴尬图像生成事件,前进的道路不会简单。但Hassabis有机会修正这一切。对于那些认识他、与他共事并且仍然与他共事的人——所有这些人我都为这个故事采访过——Hassabis可能正是这份工作的完美人选。 “我们非常擅长发明新的突破,”Hassabis告诉我。“我认为我们将在未来再次处于做到这一点的前沿。” 从大脑到计算机 Hassabis于1976年7月出生于一个有着华裔新加坡母亲和希腊塞浦路斯父亲的家庭,在北伦敦的童年里,他开始思考AI。作为一个有职业抱负的年轻棋手,Hassabis在11岁时注意到他一直在对抗训练的电子棋盘内部有某种形式的智能,并对这项技术产生了兴趣。“我对这块塑料是如何被编程来下棋的很感兴趣,”他说。“我开始读一些关于它的书并编程我自己的小AI游戏。” 在17岁时共同创造了热门游戏《主题公园》后,Hassabis继续在剑桥大学学习计算机科学,然后在20多岁时回到游戏开发领域。到那时,游戏中的基础AI系统已经变得无处不在,Hassabis决定如果他想在该领域有所作为,就需要理解人类大脑是如何工作的。于是他报名参加了伦敦大学学院的神经科学研究生课程,然后在麻省理工学院和哈佛大学进行博士后研究。 “他非常聪明,而且与我认识的一些其他聪明人不同,”麻省理工学院教授、计算神经科学先驱、Hassabis的博士后导师Tomaso Poggio说。“并不是说他在任何一个领域技术上是魔术师——好吧,也许是棋类游戏——但他对你能谈论的所有事情都非常聪明。而且非常有说服力,毫不费力。” 有一天晚上,Poggio邀请Hassabis共进晚餐,他的学生正酝酿一个新公司的想法,这家公司将利用神经科学的教训来推进AI的发展。他相信,人工大脑可以像人类一样工作。而游戏可以模拟现实世界环境,是理想的训练场。 晚餐后,Poggio问他的妻子是否应该投资Hassabis的新公司,尽管她刚刚见过他,但她告诉他要参与进来。Poggio成为DeepMind最早的投资者之一,尽管他希望自己能给Hassabis更多的资金。“这是件好事。不幸的是,钱不够多,”他说。 在DeepMind的早期,Hassabis通过在游戏模拟中运行AI代理来实现这一愿景。通过这种方式,他帮助推进了强化学习,一种AI训练类型,你让一个机器人在没有任何指令的情况下运行,给予它无数次失败的机会,最终它学会了需要做什么才能赢。 “他们有一个代理在玩所有的Atari游戏,”在DeepMind工作过现在是AI创业公司Common Sense Machines首席执行官的Tejas Kulkarni说。“这是深度强化学习首次证明了自己。就像,哇,这是要去的地方。包括我在内的每个人都涌向那里。” 如果说Atari是前菜,AlphaGo就是主菜。围棋是一个比宇宙中的原子还要多的可玩组合的棋类游戏,正如Hassabis所说,它是AI的“珠穆朗玛峰”。2016年3月,DeepMind的AlphaGo——一个结合了强化学习和深度学习(另一种AI方法)的程序——在七天内以四比一击败了围棋大师李世石。这是AI的一个分水岭时刻,展示了有足够的计算能力和正确的算法,AI可以学习,感知其环境,计划,推理,甚至创造。对于那些参与其中的人来说,这次胜利让人工通用智能——与人类智能相当的AI——首次感觉到触手可及。 “那是纯粹的魔法,”Kulkarni说。“那是人们开始认为,好吧,AGI现在要来了。” “自DeepMind开始,我们就一直有这个20年计划,”当被问及AGI时,Hassabis说。“我认为我们正处于正确的轨道上,但我觉得那是一个我们知道需要跨越的巨大里程碑。” 进入OpenAI 当DeepMind欢庆之际,一个严峻的挑战在其鼻子底下酝酿。埃隆·马斯克和萨姆·奥特曼在2015年创立了OpenAI,尽管内部充满戏剧,但该组织开始致力于文本生成。 讽刺的是,Google内部的一个突破——称为变换器模型——导致了真正的飞跃。OpenAI使用变换器来构建其GPT模型,最终驱动了ChatGPT。其生成的“大型语言”模型采用了一种称为“自监督学习”的训练形式,专注于预测模式,而不是像AlphaGo那样理解它们的环境。OpenAI的生成模型对它们所处的物理世界一无所知,使它们成为通向人类级智能的可疑路径,但仍然变得非常强大。 根据内部人士的说法,DeepMind并没有足够重视生成模型,也许是因为它们与Hassabis的AGI优先级不一致,与强化学习相距甚远。无论出于何种理由,DeepMind在一个关键领域落后了。 “我们一直在自监督和深度学习上做惊人的前沿工作,”Hassabis告诉我。“但也许是工程和扩展组件——我们本可以更早、更努力地做。显然我们现在完全在做这个。” 前DeepMind工程师Kulkarni认为,当时整个AI领域都不尊重生成模型,简单地没有显示出足够的潜力来证明投资。他说:“有人采取反向押注必须追随那条道路。那就是OpenAI所做的。” 当OpenAI致力于反向押注时,DeepMind及其在Google内部的AI研究对手Google Brain,在沟通上遇到了困难。多位前DeepMind员工告诉我,他们的部门有一种优越感。它还努力将自己与Google母船隔离开来,也许是因为Google的产品焦点可能会分散对更广泛AGI目标的注意力。或许仅仅是因为简单的部落主义。无论如何,在发明了变换器模型之后,Google的两个AI团队并没有立即利用它。 “我因为与Brain合作论文而惹上麻烦,因为想法就像,嗯,你为什么要与Brain合作呢?”一位前DeepMind工程师说。“你为什么不只在DeepMind内部工作呢?” DeepMind继续推动其核心研究向前发展。2022年7月,其AlphaFold模型预测 了科学已知的几乎所有蛋白质的3D结构。这又是一个重大进步,可能会推动几十年的药物发现。Hassabis告诉我,这是他的标志性项目。 “我们有成千上万的生物学家和科学家从世界各地访问那个数据库,”DeepMind首席商务官Colin Murdoch在Big Technology Podcast采访中说。科学家们正在从事一切从抗生素抗性到疟疾疫苗开发的工作。这是一个巨大的突破。 然后,几个月后,OpenAI发布了ChatGPT。 AI战争与Google的未来 起初,ChatGPT只是一个好奇心。这个OpenAI的聊天机器人在2022年底出现在舞台上,出版物试图理解它的重要性。“ChatGPT是OpenAI对GPT-3的最新修正,”MIT Tech回顾标题消化它的首次亮相。“它很流畅但仍然胡说八道。” 在Google内部,这款产品让人想起了LaMDA,一款公司内部运行的生成式AI聊天机器人——甚至让一名员工相信它是有知觉的——但从未发布。当ChatGPT成为历史上增长最快的消费产品,并且似乎对搜索查询有用时,Google意识到它手上有一个问题。几乎立即,人们开始将它与创新者的困境联系起来。从精神上讲,如果不是从名称上讲,公司内部开始实行“紧急状态”。 Google的和平时期结束了。在新的AI战争中,它的第一大举措是将竞争对手Google Brain和DeepMind团队合并为Google DeepMind,并由Hassabis领导。大型语言模型需要大量的计算来运行和训练,将计算分配给两个AI研究部门将阻碍它们的进展。因此,从这个角度来看,合并是有实际意义的。 按照Hassabis的说法,AI研究和产品也开始碰撞到一个程度,合并它们是合乎逻辑的。是否解决蛋白质折叠可以带来更好的搜索仍然有点不确定,但Hassabis提供了一个值得考虑的论点。他说,构建一个可靠的科学助手,需要解决AI的幻觉问题才能工作。“如果我们在那个领域解决了这个问题,”他说,“我们可以将其引入核心Gemini,然后为聊天机器人和助手解决它。” “他们就像这样一辆大型半挂车,试图以法拉利的速度移动” Gemini,Hassabis提到的产品,是Google对OpenAI GPT模型的回应。根据大多数专家的说法,它与OpenAI的技术不相上下。在二月,Hassabis和Google CEO…
星际门计划:微软与OpenAI联手打造未来AI超级计算机
微软公司正计划建造一台拥有数百万处理器的超级计算机来支持OpenAI的研究,据《信息》今日报道。 这台系统将专注于运行人工智能工作负载。据报道,这台超级计算机被微软高管暗地里称为“星际门”,被认为是一项更广泛计划的一部分,该计划还将看到公司建造几个其他AI集群。该项目预计耗资高达1000亿美元。 OpenAI已经在使用微软的基础设施来训练其AI模型。2020年,这家云计算和软件巨头透露,它已经建造了一台托管在Azure上、配备了1万张图形卡的超级计算机来支持OpenAI的工作。据这两家公司说,这台系统在启动时是世界上五大最快超级计算机之一。 去年三月,微软提供了关于其与OpenAI基础设施合作的更新。公司详细说明了原来为AI开发者建造的1万GPU超级计算机已经升级,包括了数万个A100芯片。微软高管Scott Guthrie表示,这个系统的成本“可能”超过了几亿美元。 今日《信息》的报道表明,更多升级工作正在进行中。根据该出版物来源的说法,微软计划在2030年之前建造几个额外的AI基础设施设施。该计划据说分为五个阶段,目前微软和OpenAI据信处于第三阶段中间。 第四阶段预计将涉及建造一台新的超级计算机,该计算机将在“大约”2026年推出。第五阶段则将围绕微软高管内部称为“星际门”的系统。这台拥有数百万芯片的超级计算机预计最早在2028年投入运行。 截至去年三月,微软主要使用Nvidia Corp.的图形卡为OpenAI提供超级计算基础设施。这一情况未来可能会发生变化。去年十一月,公司详细介绍了一种名为Azure Maia的内部开发的AI加速器,它拥有1050亿个晶体管。 OpenAI可能不会是“星际门”和微软预计部署的其他新AI集群的唯一用户。去年,后者公司详细说明,它已经使用为OpenAI建造的超级计算基础设施来训练自己的AI模型。微软还将硬件提供给云客户,这是一种可能采取的方式,以“星际门”等系统为例,更快地回收系统可能高昂的成本。 鉴于它预计最早在2028年上线,“星际门”可能不会用来训练OpenAI的GPT-4的后继者。上周,《内部人士》报道称GPT-5将在几个月内推出。据信OpenAI已经有了一个工作原型,其能力“明显优于”GPT-4。
语音克隆技术浪潮:探索OpenAI Voice Engine的奇妙之旅
OpenAI最近搞了个大新闻,推出了一个叫做Voice Engine的语音生成平台,只要给它一小段15秒的声音样本,它就能创造出一个能够读出各种语言文字的合成声音。这技术听起来是不是很酷?他们说,这些小范围的应用实验对他们理解如何在各个行业中利用Voice Engine起到了很大的帮助。现在,能用这项技术的公司还挺有看头的,包括教育科技公司Age of Learning、视觉故事平台HeyGen、前线健康软件制造商Dimagi、AI通讯应用开发者Livox,还有健康系统Lifespan呢。 通过OpenAI发布的样本,你能听到Age of Learning是怎样使用这项技术生成预设的配音内容,以及如何用GPT-4写出的“实时、个性化回应”来读给学生听。 OpenAI透露,Voice Engine的开发工作从2022年底就开始了,现在已经能为文本到语音的API和ChatGPT的朗读功能提供预设声音了。在接受TechCrunch采访时,OpenAI的Voice Engine产品团队成员Jeff Harris表示,这个模型是通过训练“一系列获得许可和公开可用的数据”来完成的。OpenAI告诉这家媒体,这个模型最初只会向大约10个开发者开放。 AI文本到音频的生成是个持续发展的领域,尽管大家更多地关注乐器或自然声音的生成,但能产生人声的公司相对较少,部分原因是OpenAI提到的那些问题。一些在这个领域的公司,比如Podcastle和ElevenLabs,提供AI语音克隆技术和工具,去年Vergecast还专门探讨过这些。 同时,美国政府也在努力遏制AI语音技术的不道德使用。上个月,联邦通信委员会(FCC)禁止使用AI语音的自动电话拨打,因为有人收到用AI克隆的乔·拜登总统声音的垃圾电话。 根据OpenAI的说法,它的合作伙伴同意遵守使用政策,即不使用语音生成技术来冒充没有同意的人或组织。还要求合作伙伴获得原始说话者的“明确且知情的同意”,不为个别用户创建自己的声音,并向听众透露这些声音是由AI生成的。OpenAI还给音频剪辑加上了水印,以追踪其来源,并积极监控音频的使用方式。 OpenAI提出了几个步骤,认为这些可以限制这类工具周围的风险,包括逐步淘汰基于声音的身份验证以访问银行账户、保护人们声音在AI中使用的政策、对AI深度伪造的更大教育,以及开发AI内容的追踪系统。
谷歌DeepMind推出了一款“超人”人工智能系统,专长于事实核查,不仅节省成本还提高了准确性
谷歌DeepMind研究团队的最新研究发现,当评估由大型语言模型生成的信息准确性时,人工智能系统能够胜过人类事实核查员。 研究论文名为《大型语言模型中的长篇事实性》,已在预印本服务器arXiv上发布。文中介绍了一种名为搜索增强事实评估器(SAFE)的方法,利用大型语言模型将生成的文本分解为个别事实,再通过谷歌搜索结果来确定每个声明的准确性。 “SAFE利用LLM将长篇回应分解为一组个别事实,并通过发送搜索查询至谷歌搜索并确定一个事实是否得到搜索结果支持的多步骤推理过程来评估每个事实的准确性。”作者这样解释。 在一项涉及大约16,000个事实的数据集测试中,研究人员将SAFE与人类注释者进行了比较,发现SAFE的评估与人类评级相符的比例为72%。更引人注目的是,在SAFE与人类评审者意见不一致的100个样本中,SAFE的判断在76%的案例中被认为是正确的。 尽管该论文声称“LLM代理可以实现超人的评级表现”,但一些专家对此提出质疑。著名AI研究员Gary Marcus在社交媒体上建议,“超人”可能仅仅意味着“比低薪的众包工人更好,而不是真正的人类事实核查员”。 为了真正证明超人表现,SAFE需要与专家人类事实核查员而不仅是众包工人进行基准测试。人类评审者的具体细节,如他们的资格、报酬和事实核查过程,对于正确理解结果至关重要。 SAFE的一个明显优势是成本——研究人员发现,使用AI系统的成本大约是人类事实核查者的20倍。DeepMind团队还使用SAFE评估了13种顶尖语言模型在一个名为LongFact的新基准上的事实准确性。他们的结果表明,更大的模型通常产生较少的事实错误。 然而,即使是表现最好的模型也生成了大量的错误声明,这强调了过度依赖可能流畅表达不准确信息的语言模型的风险。像SAFE这样的自动事实核查工具在缓解这些风险中可能发挥关键作用。 尽管SAFE代码和LongFact数据集已在GitHub上开源,允许其他研究人员审查和建立工作,但围绕研究中使用的人类基线仍需要更多透明度。了解众包工作者背景和过程的具体情况对于正确评估SAFE的能力至关重要。 随着科技巨头争相开发越来越强大的语言模型,自动事实核查这些系统的输出的能力可能会成为关键。然而,开发如此重大技术的过程必须公开进行,需要来自公司墙外的广泛利益相关者的输入。与人类专家——而不仅是众包工作者——进行严格、透明的基准测试将是衡量真正进步的关键。
Jamba LLM模型:破解大型上下文窗口挑战的AI新星
近年来,人工智能行业正越来越多地转向具有更长上下文窗口的生成式AI模型。然而,拥有大上下文窗口的模型往往需要消耗大量计算资源。但是,AI21 Labs的产品负责人Or Dagan声称,情况并非必然如此——而且他的公司发布的一款新型生成模型就是最好的证明。 所谓的上下文窗口,是指模型在生成输出(更多文本)之前所考虑的输入数据(例如文本)。小上下文窗口的模型倾向于忘记即便是非常近期的对话内容,而大上下文窗口的模型则避免了这一缺陷——而且,作为额外的好处,它们更好地掌握了输入数据的流动。 AI21 Labs推出的Jamba,这款全新的文本生成及分析模型,能够执行许多像OpenAI的ChatGPT和Google的Gemini等模型所能完成的任务。Jamba经过了公共及专有数据的混合训练,能够用英语、法语、西班牙语和葡萄牙语编写文本。 Jamba能够在单个GPU上处理高达140,000个标记,而这样的GPU至少需要有80GB的内存(例如高端的Nvidia A100)。这相当于大约105,000个单词,或者210页——一个相当大的小说。 相比之下,Meta的Llama 2拥有32,000标记的上下文窗口——按照今天的标准来看,这属于较小范围——但只需要一个约12GB内存的GPU就能运行。(上下文窗口通常以标记计量,标记是原始文本和其他数据的片段。) 乍一看,Jamba并不引人注目。市面上有大量免费可下载的生成式AI模型,从Databricks最近发布的DBRX到上文提到的Llama 2。 但Jamba独特之处在于其内部结构。它结合了两种模型架构:变压器(transformers)和状态空间模型(SSMs)。 变压器是执行复杂推理任务的首选架构,为像GPT-4和Google的Gemini等模型提供动力。它们有几个独特的特点,但变压器的定义特征远远是它们的“注意力机制”。对于每一条输入数据(例如一个句子),变压器评估每个其他输入(其他句子)的相关性,并从中汲取信息以生成输出(一个新句子)。 另一方面,SSMs结合了旧型AI模型的几个特性,如循环神经网络和卷积神经网络,创建了一种能够处理长序列数据的更具计算效率的架构。 当然,SSMs也有其局限性。但是,一些早期版本,包括普林斯顿和卡内基梅隆研究人员开源的模型Mamba,能够处理比它们的变压器基础对等物更大的输入,同时在语言生成任务上超越它们。 事实上,Jamba就是使用Mamba作为核心模型的一部分——Dagan声称,与同等大小的基于变压器的模型相比,它在处理长上下文方面的吞吐量提高了三倍。 “虽然SSM模型有一些初步的学术示例,但这是第一个商业级别、生产规模的模型,”Dagan在接受TechCrunch采访时说道。“这种架构,除了对社区进一步研究具有创新性和趣味性外,还为效率和吞吐量的提高打开了大门。” 现在,虽然Jamba已经以Apache 2.0许可发布,这是一种相对使用限制较少的开源许可,但Dagan强调这是一次研究发布,不意味着用于商业用途。该模型没有防止生成有害文本的安全措施,也没有解决潜在偏见的措施;一个经过微调、表面上“更安全”的版本将在未来几周内提供。 但Dagan坚称,即使在这个早期阶段,Jamba展示了SSM架构的潜力。 “这个模型的附加价值,既因为其大小,也因为其创新的架构,是它可以轻松适配到单个GPU上,”他说。“我们相信,随着Mamba获得更多调整,性能将进一步提高。”
截至今日,Claude 3 Opus的性能超越了GPT-4 Turbo
周二,Anthropic公司的Claude 3 Opus大型语言模型(LLM)在Chatbot Arena上首次超越了OpenAI的GPT-4(即ChatGPT的驱动力),Chatbot Arena是一个受欢迎的由AI研究者使用的众包排行榜,用以衡量AI语言模型的相对能力。软件开发者Nick Dobos在推特上发文比较GPT-4 Turbo和Claude 3 Opus,这条推文在社交媒体上广为流传:“国王已死。”“GPT-4安息。” 自从2023年5月10日GPT-4被包含在Chatbot Arena以来(该排行榜在那年的5月3日启动),GPT-4的各种版本一直稳居榜首,直到现在,所以在AI语言模型相对较短的历史中,它在竞技场上的失利是一个值得注意的时刻。Anthropic的一个较小的模型,Haiku,也因其在排行榜上的表现而引人注目。 “这是第一次,最好的模型——Opus用于高级任务,Haiku用于成本和效率——来自于非OpenAI的供应商,”独立AI研究者Simon Willison告诉Ars Technica。“这是令人安心的——在这个领域拥有多样化的顶级供应商对我们所有人都有好处。但是GPT-4在这个时点已经超过一年老了,而且用了那么一年的时间别人才追上。”