几个月前,OpenAI用一款名叫Sora的生成式AI模型震撼了科技界,这款模型能将场景描述转换成原创视频——无需摄像机或拍摄团队。但到目前为止,Sora的使用权限非常严格,公司似乎打算将其定位于资金充裕的创意人士,比如好莱坞导演——而不太可能是业余爱好者或小规模营销人员。 然而,Snap前生成式AI负责人亚历克斯·马什拉博夫嗅到了机会。因此,他推出了Higgsfield AI,这是一个为更加定制化、个性化应用设计的AI视频创作与编辑平台。 通过定制的文本到视频模型,Higgsfield的首款应用Diffuse能够从零开始生成视频,或者拍摄自拍并生成以该人物为主角的短片。 马什拉博夫在接受TechCrunch采访时表示,“我们的目标受众是各种类型的创作者,从想要与朋友一起创作有趣内容的普通用户,到希望尝试新内容格式的社交内容创作者,再到希望他们的品牌脱颖而出的社交媒体营销人员。” 马什拉博夫通过他之前的创业项目AI Factory加入Snap,该项目于2020年以1.66亿美元被Snap收购。在Snap期间,马什拉博夫帮助构建了Snapchat的AR效果和滤镜,包括Cameos,以及Snapchat备受争议的MyAI聊天机器人。 Higgsfield与AI研究员、专门从事生成视频的Yerzat Dulat共同推出,提供一套精选的预生成剪辑、一个上传参考媒体(如图片和视频)的工具,以及一个提示编辑器,让用户描述他们希望描绘的角色、动作和场景。通过Diffuse,用户可以直接将自己插入到AI生成的场景中,或让他们的数字化形象模仿其他视频中捕捉到的动作——如舞蹈动作。 马什拉博夫说:“我们的模型支持高度逼真的动作和表情。我们正在为消费者开创‘世界模型’,这将使我们能够构建具有极高控制级别的一流视频生成和编辑。” Higgsfield并不是唯一一家与OpenAI竞争的生成视频初创公司。Runway是最早进入这一领域的公司之一,其工具持续改进。还有Haiper,它得到了两位DeepMind校友的支持,以及超过1300万美元的风险投资。 马什拉博夫认为,Diffuse将凭借其面向移动设备、社交导向的市场进入策略脱颖而出。 “通过优先考虑iOS和Android应用而不是桌面工作流,我们使创作者能够随时随地创建引人注目的社交媒体内容,”马什拉博夫说。“实际上,通过构建移动平台,我们能够从第一天起优先考虑易用性和面向消费者的特性。” Higgsfield还在保持精简运营。马什拉博夫表示,支撑平台的生成模型是由一个16人的团队在不到九个月的时间内开发的,并在一个32GPU的集群上进行了训练(32GPU听起来可能很多,但考虑到OpenAI使用了数万个,这实际上并不多)。到目前为止,Higgsfield只筹集了800万美元,其中大部分来自于最近一轮由Menlo Ventures领投的种子融资。 为了领先于竞争对手,Higgsfield计划将种子资金用于构建一个改进的视频编辑器,让用户能够修改视频中的角色和物体,以及针对社交媒体用例训练更强大的视频生成模型。实际上,马什拉博夫认为社交媒体——以及社交媒体营销——是Higgsfield的主要盈利领域。 虽然Diffuse目前是免费使用的,但马什拉博夫设想未来营销人员将为高级功能,或大规模活动付费或订阅。 “我们相信Higgsfield为社交媒体营销人员解锁了难以置信的现实主义和内容制作用例,”他说。“我们经常听到首席营销官和创意总监说,他们需要在保持内容影响力的同时,优化内容制作预算并缩短时间表。因此,我们相信视频生成AI解决方案将成为帮助他们实现这一目标的核心解决方案。” 当然,Higgsfield也无法避免面临生成式AI初创公司普遍面临的挑战。 众所周知,像Diffuse这样的生成式AI模型可以“重复”训练数据。为什么这是个问题呢?嗯,如果这些模型是在没有获得许可或某种许可协议的情况下,使用了 受版权保护的内容进行训练,那么这些模型的用户可能会无意中生成侵犯版权的作品——将他们暴露于诉讼风险中。 马什拉博夫不愿透露Higgsfield训练数据的来源(除了说它来自“多个公开可用”的地方),也不愿说Higgsfield是否会保留用户数据以训练未来的模型,这可能不会让一些商业客户感到满意。他确实指出,Diffuse用户可以随时通过应用程序要求删除他们的数据。 像Higgsfield这样的数字“克隆”平台也容易被滥用,正如近几个月社交媒体上深度伪造视频的疯狂传播所显示的那样。 以类似的方式,Higgsfield可能使窃取创作者内容变得更容易。例如,只需上传某人舞蹈编排的视频,就可以生成一个展示自己执行同样舞蹈的视频。 我询问了马什拉博夫关于Higgsfield可能使用的任何保护措施或防范措施,以试图防止滥用——虽然他不愿透露具体细节——他声称平台采用了自动和人工审核的混合模式。 “我们决定首先在选定的市场逐步推出产品,这样我们就可以监控潜在的滥用情况,并根据需要对产品进行调整,”马什拉博夫补充说。 我们将不得不等待并看看这在实践中的效果如何。 Higgsfield – Foundational video model for social media
人类创造力与AI音乐制作的对决:艺术与技术的战场
近日,200位音乐人联名发表了一封公开信,呼吁科技公司和开发者不要让AI音乐生成工具破坏人类的创造力。 签名的艺术家名单强大且广泛,足以组成一个绝佳的科切拉音乐节阵容——包括Billie Eilish、Bob Marley遗产、Chappell Roan、Elvis Costello、Greta Van Fleet、Imagine Dragons、Jon Bon Jovi、Jonas Brothers、Kacey Musgraves、Katy Perry、Mac DeMarco、Miranda Lambert、Mumford & Sons、Nicki Minaj、Noah Kahan、Pearl Jam、Sheryl Crow和Zayn Malik等。 信中写道:“如果AI使用不当,将对我们保护隐私、身份、音乐和生计的能力构成巨大威胁。一些最大、最有影响力的公司未经许可,正在使用我们的作品训练AI模型。……对于那些只是试图维持生计的工作音乐人、艺术家和歌曲作者来说,这将是灾难性的。” 这些艺术家的担忧是有道理的。生成新音乐、艺术品和文字的AI模型,是通过训练大量现有作品的数据集来实现的,在大多数情况下,要求从这些模型中移除你的作品几乎是徒劳的。这就像是这些艺术家试图阻止别人盗版他们的音乐一样——这根本就不现实。目前已经能够制作出令人信服的流行艺人深度伪造作品,而这项技术只会变得越来越好。 一些公司如Adobe和Stability AI正在开发使用授权或免版税音乐的AI音乐生成器。但即便是这些工具,也可能对那些为电视广告或其他可能被艺术家用于其作品的节拍制作音乐的艺术家产生负面影响。 随着技术越来越先进,历史上音乐人常常是受害者。首先是文件共享让人们很容易免费获取音乐;流媒体出现是对这一问题的回应,但这并没有让艺术家们感到满意。音乐家及相关工作者联盟(UMAW)花了多年时间努力为艺术家争取更好的流媒体支付——该工会的艺术家估计Spotify的平均流媒体版税率约为0.0038美元,或约四分之一美分。因此,音乐家们对这项新兴技术持怀疑态度是有道理的。 作者们也对生成式AI的崛起采取了立场。7月,超过15,000名作家——包括James Patterson、Michael Chabon、Suzanne Collins、Roxane Gay等——签署了一封类似的公开信,致信OpenAI、Alphabet、Meta、Stability AI、IBM和Microsoft的CEO们。 “这些技术模仿并重复我们的语言、故事、风格和思想。成千上万的受版权保护的书籍、文章、散文和诗歌为AI系统提供了‘食物’,这是无尽的大餐,但却没有支付账单,”作者们的信中写道。 但这些科技公司并没有在听。你仍然可以在ChatGPT上请求它生成一段玛格丽特·阿特伍德风格的文章——这可能并不好,但这确实表明了大型语言模型已经吸收了《使女的故事》并能够吐出它的退化版本。由于版权法并不足以解决生成式AI的问题,目前法律诉讼几乎毫无用处。 音乐家们的信中说:“这种对人类创造力的攻击必须停止。我们必须防止AI掠夺性地使用专业艺术家的声音和肖像,侵犯创作者的权利,以及破坏音乐生态系统。”
2000家定义今日AI科技风向的公司
2024年的机器学习、人工智能和数据生态:2000家定义今日科技风向的公司大盘点。这是关于机器学习和AI领域公司最全面的资源之一
苹果推出ReALM AI系统:一款能搞懂屏幕指代的神器
苹果的研究员们近日推出了一款名为ReALM(指代解析作为语言建模)的AI系统,这玩意儿能在对话中或屏幕上的元素里搞懂那些让人摸不着头脑的暧昧指代。ReALM: Reference Resolution As Language Modeling 说白了,ReALM就是把这个难题变成了一个语言建模的游戏,用上了大型语言模型的超能力。这招不仅让它能根据识别出来的元素重建屏幕布局,还能生成一种文本表现形式,帮助理解视觉上下文。比起现有的方法,甚至是那个牛逼闪闪的GPT-4模型,ReALM在处理屏幕上的指代时表现得更加出色。 看样子,苹果可能打算让ReALM能“读懂”你屏幕上的上下文,并通过分析展示的数据来执行AI功能,可能又向全自动代理人迈进了一步。 但这系统还是靠自动化屏幕解析,这东西有它的局限性。未来的进步需要结合计算机视觉和多模态技术,来处理那些更复杂的视觉指代。
三星加强Bixby智能:迈向生成式AI,抗衡谷歌Gemini
看来Bixby还没“挂”,至少现在还没。一位三星高管向CNBC透露,公司正“全力以赴”为其语音助手装上AI功能,这暗示了三星视Gemini等产品为竞争对手,而非替代品。 这个消息挺让人安心的,因为有些人已经开始怀疑了。今年早些时候,当三星宣布其旗舰手机将配备大量新的生成式AI功能时,他们的语音助手几乎没被提及。三星和谷歌还大肆宣传Galaxy S24手机将使用谷歌的设备上AI模型——Gemini Nano。人们本以为三星可能会用谷歌的Gemini驱动的助手来替换Bixby,但显然,这并非计划中的事。 三星移动业务执行副总裁崔元俊向CNBC表示:“我相信我们必须重新定义Bixby的角色,使Bixby能够配备生成式AI”,他补充说,这将需要Bixby变得“更聪明”,并能更自然地进行对话。目前来看,三星并不是唯一一个急于将AI融入其语音助手的科技公司——预计苹果将在今年的WWDC上宣布一个AI化的Siri。 与此同时,Galaxy S24的AI功能通过One UI 6.1更新已经扩展到去年的手机上。整个套件被称为Galaxy AI,目前是免费的。如果三星未来计划对其AI功能收费,它必须提供远超现在能力的服务。无论这个愿景是什么样的,Bixby似乎都是其中的一部分。
OpenAI推出无需注册即可使用ChatGPT的新举措,旨在全球范围内提升人工智能的可及性与体验
OpenAI最近宣布了一个激动人心的更新:现在,人们可以立即使用ChatGPT,无需进行注册。这项变革让ChatGPT的便利性和可及性大大增强,目标是让全球范围内对人工智能功能好奇的每一个人都能轻松体验到AI的魅力。据悉,每周已有超过1亿用户来自185个国家通过ChatGPT来学习新知识、寻找创意灵感或解答各种问题。 OpenAI同时提到,为了不断改善其模型,以更好地服务于所有用户,他们可能会利用用户提供给ChatGPT的内容。值得注意的是,用户无论是否创建账户,均可通过设置选择关闭此功能。关于如何使用内容来训练模型以及用户可行的选择,OpenAI在其帮助中心提供了更多信息。 为了增强这一体验的安全性,OpenAI还引入了额外的内容安全措施,包括在更广泛的类别中阻止某些提示和生成内容。 此外,OpenAI强调创建账户将带来多项好处,如能够保存和回顾聊天历史、分享聊天内容,以及解锁更多附加功能,包括语音对话和自定义指令。 对于那些一直好奇于AI潜力但又不想完成账户设置步骤的人,OpenAI的这一最新动向无疑提供了一个极佳的机会,让他们可以直接开始探索和使用ChatGPT。
Somme Requiem 全AI制作的电影短片
未来画卷:当AI短片撼动视界,虚拟与现实的界限模糊
上个月,OpenAI搞了个大动作,推出了个新玩意儿,名叫Sora的视频生成模型。这不,才玩了没几天,一群拍电影的大佬就被拉来试水。成果呢?七个梦幻般的短片一出炉,立马让人看到了,生成视频的未来,简直要飞速赶来了! 要说起这玩意儿,其实早在2022年底,一些大公司,比如Meta、谷歌,还有那个啥Runway的小创业公司,都玩过类似的把戏。只不过那时候的视频,质量嘛,说好听点是艺术感十足,说直白点就是粗糙得跟我的初中美术作业似的,而且还短得可怜。 时间一晃眼到了18个月后,Sora玩出来的高清逼真效果,美得让人窒息,搞得一些人激动得预言好莱坞的末日都要来了。Runway家的新模型也不甘落后,能做出能跟大片儿动画工作室较劲的短片来。而且,那两个做图像模型出名的公司,Midjourney和Stability AI,现在也开始往视频这块儿扩展了。 现在的问题是,一大波公司正摩拳擦掌,准备在这个领域大展拳脚。大家都还在摸索怎么利用这股风潮来赚钱呢。Vyond的CEO Gary Lipkowitz就说了,玩这玩意儿是真的酷,但怎么在工作上用起来呢? 不管怎样,这技术改变游戏的方式肯定不少,各行各业都得重新洗牌。当然,也担心会被滥用,比如生成假视频什么的,网上已经够乱的了,这下更加雪上加霜。我们都看到问题来了,就是没人知道怎么解决。 好了,废话不多说,直接上干货。我们这就来聊聊,搞这个视频生成技术,未来会有啥新花样。 首先,Sora这货只是个开头,其他公司也在紧追不舍。接下来几个月,市场上将挤满了Sora的竞争对手。 比如,这个月从暗处走出来的英国创业公司Haiper,一开始是想做能让2D图片转变成3D场景的技术,后来一拍脑袋,觉得做视频更有前途。CEO Yishu Miao说,对视频的需求超级大。 像Sora这样的技术,用的是某种扩散模型来搞定视觉效果,再加上一个变压器来保持帧之间的连贯性。但是,让这技术保持正轨,需要海量的数据和成群的电脑。 Irreverent Labs就选择了另一条路。他们不跟风,因为那样的话就变成了硬件战争,最后赢家也只有一个,穿皮夹克的那位大佬(没错,说的就是Nvidia的CEO Jensen Huang)。 他们的技术结合了扩散模型和一种预测下一帧内容的模型,但这种方法还能省点成本,减少出错率。不过,就算这样,做出来的视频还是会有些小瑕疵。 总之,现在的技术还处于初级阶段,就像几年前的大型语言模型GPT-2一样,当时大家都惊叹不已,但真正成为改变游戏规则的东西,还得过几年。 至于生成视频将如何被利用,不用说,视频是互联网的灵魂。从YouTube到TikTok,再到新闻和广告,合成视频马上就要遍布每个角落了。 营销行业特别是,已经开始大力投入。Adobe最近的一项调查显示,三分之二的营销专业人士在工作中尝试过生成AI,超过一半的人说他们已经用它来制作图像了。 《Somme Requiem》这部短片就是一个例子,它讲述的是第一次世界大战圣诞休战期间的故事,通过拼接、调色和配音,展示了混合工作流程的未来。 但是,不要太早下结论,认为生成视频就能取代好莱坞。技术虽好,但还不够成熟,控制输出的能力还有待提高。就现在而言,它更适合制作那些只需几秒的场景设置镜头,而且成本还低。 虚假信息的问题也不能忽视,深度伪造技术的出现,只会让情况变得更糟。我们正在逐渐失去对媒体、机构乃至彼此的信任,如果再加上假视频,我们共享的现实基础可能就会完全崩溃。 总之,虽然前景一片光明,但挑战和风险同样存在,我们还在为掌握这项技术而努力。
NHS测试AI工具Mia成功识别被遗漏的乳腺癌案例
NHS测试的一款AI工具成功识别了11名女性乳腺癌的微小迹象,这些迹象之前被人类医生遗漏。 这款名为Mia的工具与NHS临床医生一起进行了试点,分析了超过1万名女性的乳房X光片。其中大多数女性未患癌症,但它成功标记了所有有症状的病例,以及11个医生未识别的额外病例。 在最初阶段,癌症可能非常小,难以被发现。 BBC在NHS Grampian看到了Mia的实际操作,我们被展示了几乎肉眼无法看到的肿瘤。但是,根据它们的类型,这些肿瘤可以迅速生长和扩散。 Barbara是11位患者之一,她的癌症被Mia标记出来,但在医院放射科医生研究她的扫描时没有被发现。 因为Barbara的6mm肿瘤被很早发现,她接受了手术,但只需要五天的放疗。发现时肿瘤小于15mm的乳腺癌患者,在接下来的五年里有90%的存活率。 Barbara表示,她很高兴治疗比她之前同样与病魔抗争的姐妹和母亲要少侵入性。她告诉我,她遇到了一位表示同情Barbara患有“大C”的亲戚。“我说,‘这不是大C,这是一个很小的C’,”她说。如果没有AI工具的帮助,Barbara的癌症可能直到她下一次常规的乳房X光检查三年后才会被发现。她之前没有经历过任何明显的症状。由于它能即时工作,像Mia这样的工具还有可能将结果的等待时间从14天减少到3天,其开发者Kheiron声称。 试验中的所有病例都不是单独由Mia分析的——每个都进行了人工审查。目前每个个别扫描都由两名放射科医生查看,但希望未来其中一人可以被工具替代,有效减半每对医生的工作量。 参与试验的10,889名女性中,只有81人不希望AI工具审查他们的扫描,据领导该项目的苏格兰东北部乳腺筛查临床主任Gerald Lip医生说。 AI工具通常非常擅长识别特定疾病的症状,如果它们接受了足够的数据训练以识别这些症状。这意味着需要向程序提供尽可能多的不同的匿名症状图像,来自尽可能多样化的人群。 由于患者隐私和隐私关切,获取这些数据可能很困难。 Kheiron Medical的首席战略官Sarah Kerruish表示,建立和训练Mia花了六年时间,它在微软的云计算能力上运行,训练了来自“全世界妇女的数百万”乳房X光片。 “我认为我学到的最重要的一点是,当你为医疗情况开发AI时,你必须从第一天开始就构建包容性,”她说。 乳腺癌医生平均每年查看约5,000张乳房扫描,一次可查看100张。 “有一种疲劳感,”Lip医生说。 “你会受到干扰,有人进来,背景中有人在聊天。还有很多事情可能会打乱你的常规。那些你被分心的日子,你会问,‘我怎么会错过那个?’这确实会发生。” 我问他是否担心像Mia这样的工具有一天可能完全取代他的工作。 他说,他相信这项技术最终能让他有更多时间与患者相处。 “我将Mia视为一个朋友和对我的实践的增强,”Lip医生说。 Mia并不完美。它无法访问任何患者历史记录,例如,它会标记之前的扫描已经识别并确定为无害的囊肿。 此外,由于当前的健康法规,AI工具的机器学习元素被禁用——所以它不能在工作中学习和进化。每次更新时,它都必须进行新的审查。 Mia试验只是一个早期测试,是一个产品在一个地点的测试。阿伯丁大学独立验证了研究,但评估结果尚未经过同行评审。放射科医生皇家学院表示,技术有潜力。 “这些结果是鼓舞人心的,帮助突显了AI在诊断中呈现的令人兴奋的潜力。无疑,真实的临床放射科医生是必不可少的,不可替代的,但使用经过验证的AI工具的临床放射科医生将越来越成为患者护理中的强大力量。”放射科医生皇家学院院长Katharine Halliday博士说。 癌症研究UK的健康信息负责人Julie Sharp博士表示,每年诊断出的癌症病例数量不断增加,技术创新将是“至关重要的”,以帮助改善NHS服务并减轻其员工的压力。 “还需要更多研究,以找到使用这项技术改善癌症患者结果的最佳方法,”她补充说。 在英国还有其他与医疗相关的AI试验正在进行,包括一家名为Presymptom Health的公司正在分析血液样本,寻找症状出现前的脓毒症迹象——但许多仍处于早期阶段,没有公布结果。
Demis Hassabis,这位被封为爵士的AI领域的杰出研究者和神经科学家,是否能成为Google的救星?
当我询问Demis Hassabis是否能拯救Google时,他通过屏幕紧紧地盯着我。在他的家乡英国,已是傍晚时分,而这位DeepMind的创始人正在加班。自从去年夏天吞并了Google Brain后,他所在的这家Google旗下AI研究机构如今领导着公司的全部AI研究工作,面前的任务无比庞大。 Google的核心业务正蓬勃发展,但那似乎与本质无关。Hassabis和我是通过Google Meet交谈,在Gmail安排的采访中,通过Google Calendar安排时间,并通过Google搜索进行研究。主要得益于这些核心产品,Google去年公布了3070亿美元的收入,第四季度增长了13%,股价接近历史最高点。但是,关于其是否能赢得AI竞赛,或者甚至能否胜任竞赛的问题,已经给它最近的成功蒙上了阴影。 “我并不是那样看待的,”Hassabis挑战我的问题的前提。他说,人工智能将“颠覆很多很多事情。当然,你想要站在影响那些颠覆的前沿,而不是处在被动接受的一端。” Hassabis是那个应该保持Google处于这一前沿的人。这位屡获殊荣的研究员和神经科学家——就在周四被授予爵士称号——领导了一个充满活力的AI团队,该团队负责Google多项突破。自2014年被收购以来,DeepMind已经通过革命性的AI模型攻克了看似不可能的棋类游戏AlphaGo,解码了蛋白质AlphaFold,并为合成数千种新材料奠定了基础。 但现在,Hassabis和合并后的Google DeepMind团队必须将这些类型的突破转化为一个价值1.8万亿美元的公司在日益增长的AI世界中寻求的实质性产品改进。而且他必须在不破坏提供丰厚蓝链接收益的搜索广告业务的情况下完成这一切,AI正威胁着这一业务。 对于聊天机器人的推出延迟,充斥着命名混乱,以及刚刚过去的尴尬图像生成事件,前进的道路不会简单。但Hassabis有机会修正这一切。对于那些认识他、与他共事并且仍然与他共事的人——所有这些人我都为这个故事采访过——Hassabis可能正是这份工作的完美人选。 “我们非常擅长发明新的突破,”Hassabis告诉我。“我认为我们将在未来再次处于做到这一点的前沿。” 从大脑到计算机 Hassabis于1976年7月出生于一个有着华裔新加坡母亲和希腊塞浦路斯父亲的家庭,在北伦敦的童年里,他开始思考AI。作为一个有职业抱负的年轻棋手,Hassabis在11岁时注意到他一直在对抗训练的电子棋盘内部有某种形式的智能,并对这项技术产生了兴趣。“我对这块塑料是如何被编程来下棋的很感兴趣,”他说。“我开始读一些关于它的书并编程我自己的小AI游戏。” 在17岁时共同创造了热门游戏《主题公园》后,Hassabis继续在剑桥大学学习计算机科学,然后在20多岁时回到游戏开发领域。到那时,游戏中的基础AI系统已经变得无处不在,Hassabis决定如果他想在该领域有所作为,就需要理解人类大脑是如何工作的。于是他报名参加了伦敦大学学院的神经科学研究生课程,然后在麻省理工学院和哈佛大学进行博士后研究。 “他非常聪明,而且与我认识的一些其他聪明人不同,”麻省理工学院教授、计算神经科学先驱、Hassabis的博士后导师Tomaso Poggio说。“并不是说他在任何一个领域技术上是魔术师——好吧,也许是棋类游戏——但他对你能谈论的所有事情都非常聪明。而且非常有说服力,毫不费力。” 有一天晚上,Poggio邀请Hassabis共进晚餐,他的学生正酝酿一个新公司的想法,这家公司将利用神经科学的教训来推进AI的发展。他相信,人工大脑可以像人类一样工作。而游戏可以模拟现实世界环境,是理想的训练场。 晚餐后,Poggio问他的妻子是否应该投资Hassabis的新公司,尽管她刚刚见过他,但她告诉他要参与进来。Poggio成为DeepMind最早的投资者之一,尽管他希望自己能给Hassabis更多的资金。“这是件好事。不幸的是,钱不够多,”他说。 在DeepMind的早期,Hassabis通过在游戏模拟中运行AI代理来实现这一愿景。通过这种方式,他帮助推进了强化学习,一种AI训练类型,你让一个机器人在没有任何指令的情况下运行,给予它无数次失败的机会,最终它学会了需要做什么才能赢。 “他们有一个代理在玩所有的Atari游戏,”在DeepMind工作过现在是AI创业公司Common Sense Machines首席执行官的Tejas Kulkarni说。“这是深度强化学习首次证明了自己。就像,哇,这是要去的地方。包括我在内的每个人都涌向那里。” 如果说Atari是前菜,AlphaGo就是主菜。围棋是一个比宇宙中的原子还要多的可玩组合的棋类游戏,正如Hassabis所说,它是AI的“珠穆朗玛峰”。2016年3月,DeepMind的AlphaGo——一个结合了强化学习和深度学习(另一种AI方法)的程序——在七天内以四比一击败了围棋大师李世石。这是AI的一个分水岭时刻,展示了有足够的计算能力和正确的算法,AI可以学习,感知其环境,计划,推理,甚至创造。对于那些参与其中的人来说,这次胜利让人工通用智能——与人类智能相当的AI——首次感觉到触手可及。 “那是纯粹的魔法,”Kulkarni说。“那是人们开始认为,好吧,AGI现在要来了。” “自DeepMind开始,我们就一直有这个20年计划,”当被问及AGI时,Hassabis说。“我认为我们正处于正确的轨道上,但我觉得那是一个我们知道需要跨越的巨大里程碑。” 进入OpenAI 当DeepMind欢庆之际,一个严峻的挑战在其鼻子底下酝酿。埃隆·马斯克和萨姆·奥特曼在2015年创立了OpenAI,尽管内部充满戏剧,但该组织开始致力于文本生成。 讽刺的是,Google内部的一个突破——称为变换器模型——导致了真正的飞跃。OpenAI使用变换器来构建其GPT模型,最终驱动了ChatGPT。其生成的“大型语言”模型采用了一种称为“自监督学习”的训练形式,专注于预测模式,而不是像AlphaGo那样理解它们的环境。OpenAI的生成模型对它们所处的物理世界一无所知,使它们成为通向人类级智能的可疑路径,但仍然变得非常强大。 根据内部人士的说法,DeepMind并没有足够重视生成模型,也许是因为它们与Hassabis的AGI优先级不一致,与强化学习相距甚远。无论出于何种理由,DeepMind在一个关键领域落后了。 “我们一直在自监督和深度学习上做惊人的前沿工作,”Hassabis告诉我。“但也许是工程和扩展组件——我们本可以更早、更努力地做。显然我们现在完全在做这个。” 前DeepMind工程师Kulkarni认为,当时整个AI领域都不尊重生成模型,简单地没有显示出足够的潜力来证明投资。他说:“有人采取反向押注必须追随那条道路。那就是OpenAI所做的。” 当OpenAI致力于反向押注时,DeepMind及其在Google内部的AI研究对手Google Brain,在沟通上遇到了困难。多位前DeepMind员工告诉我,他们的部门有一种优越感。它还努力将自己与Google母船隔离开来,也许是因为Google的产品焦点可能会分散对更广泛AGI目标的注意力。或许仅仅是因为简单的部落主义。无论如何,在发明了变换器模型之后,Google的两个AI团队并没有立即利用它。 “我因为与Brain合作论文而惹上麻烦,因为想法就像,嗯,你为什么要与Brain合作呢?”一位前DeepMind工程师说。“你为什么不只在DeepMind内部工作呢?” DeepMind继续推动其核心研究向前发展。2022年7月,其AlphaFold模型预测 了科学已知的几乎所有蛋白质的3D结构。这又是一个重大进步,可能会推动几十年的药物发现。Hassabis告诉我,这是他的标志性项目。 “我们有成千上万的生物学家和科学家从世界各地访问那个数据库,”DeepMind首席商务官Colin Murdoch在Big Technology Podcast采访中说。科学家们正在从事一切从抗生素抗性到疟疾疫苗开发的工作。这是一个巨大的突破。 然后,几个月后,OpenAI发布了ChatGPT。 AI战争与Google的未来 起初,ChatGPT只是一个好奇心。这个OpenAI的聊天机器人在2022年底出现在舞台上,出版物试图理解它的重要性。“ChatGPT是OpenAI对GPT-3的最新修正,”MIT Tech回顾标题消化它的首次亮相。“它很流畅但仍然胡说八道。” 在Google内部,这款产品让人想起了LaMDA,一款公司内部运行的生成式AI聊天机器人——甚至让一名员工相信它是有知觉的——但从未发布。当ChatGPT成为历史上增长最快的消费产品,并且似乎对搜索查询有用时,Google意识到它手上有一个问题。几乎立即,人们开始将它与创新者的困境联系起来。从精神上讲,如果不是从名称上讲,公司内部开始实行“紧急状态”。 Google的和平时期结束了。在新的AI战争中,它的第一大举措是将竞争对手Google Brain和DeepMind团队合并为Google DeepMind,并由Hassabis领导。大型语言模型需要大量的计算来运行和训练,将计算分配给两个AI研究部门将阻碍它们的进展。因此,从这个角度来看,合并是有实际意义的。 按照Hassabis的说法,AI研究和产品也开始碰撞到一个程度,合并它们是合乎逻辑的。是否解决蛋白质折叠可以带来更好的搜索仍然有点不确定,但Hassabis提供了一个值得考虑的论点。他说,构建一个可靠的科学助手,需要解决AI的幻觉问题才能工作。“如果我们在那个领域解决了这个问题,”他说,“我们可以将其引入核心Gemini,然后为聊天机器人和助手解决它。” “他们就像这样一辆大型半挂车,试图以法拉利的速度移动” Gemini,Hassabis提到的产品,是Google对OpenAI GPT模型的回应。根据大多数专家的说法,它与OpenAI的技术不相上下。在二月,Hassabis和Google CEO…