Facebook 正在努力吸引更多年轻用户,想让他们少花点时间在 TikTok、Instagram 等社交平台上,转而多用 Facebook。为此,母公司 Meta 在上周五宣布了一系列针对这个“老牌”社交平台的更新,重点将放在本地社区信息、视频和 Facebook 群组等内容上。同时,Meta 还对 Meta AI、Facebook Dating 和 Messenger 等产品进行了升级。 最引人注目的是,Facebook 这次改版将更多关注娱乐功能,意图与 TikTok 等应用竞争。这次更新还强调了 Facebook 在本地社区中更实用的功能。除了买卖群组外,Facebook 还成了许多本地群组的交流中心,特别是在天灾面前。例如,最近受飓风 Helene 影响的州就充分利用了该平台进行沟通协调。随着气候变化,类似的灾害应急群组可能会越来越常见。 这些更新正值 Facebook 品牌影响力下降之际,早在 2021 年,公司就更名为 Meta,将重心从其核心社交应用转向了元宇宙。而 Facebook 的用户群体日渐老龄化,年轻人也不再像从前那样蜂拥注册。 这种情况在美国尤为明显。皮尤研究中心数据显示,截至去年,只有 33% 的美国青少年还在用 Facebook,而 2014 年这一比例是 71%。 不过,Meta 依然抱有希望,因为公司发现一些 20 多岁的年轻人还是在使用 Facebook 的特定功能,比如 Facebook 群组和 Marketplace。《纽约时报》甚至专门报道了后者,指出新一代用户把 Facebook 当作二手交易平台,而不是社交工具。 今天发布的一系列更新正是顺应了这一趋势,目的是让 Facebook 成为那些想要与本地社区建立联系或寻求娱乐的人更容易上手的平台,而不再是单纯的好友社交网络。 Facebook…
分词的艺术:为AI拆解文本
什么是分词? 在计算机科学中,我们将像英语和中文这样的人类语言称为“自然语言”,而与计算机交互的语言,如汇编语言(Assembly)和LISP,则被称为“机器语言”,这些语言遵循严格的语法规则,几乎没有任何解读的余地。计算机擅长处理高度结构化的机器语言,但在人类语言的复杂性面前往往表现不佳。 语言,尤其是文本,构成了我们大部分的交流和知识存储。例如,互联网上的大部分内容都是文本。像ChatGPT、Claude和Llama这样的大型语言模型是通过处理海量的文本数据训练而成的,这些文本数据几乎涵盖了互联网上所有可用的文本,使用了复杂的计算技术。然而,计算机并不直接处理文字或句子,它们依赖于数字运算。那么,如何填补人类语言与机器理解之间的鸿沟呢? 这就是自然语言处理(NLP)发挥作用的地方。NLP是一个结合了语言学、计算机科学和人工智能的领域,旨在让计算机理解、解释和生成人类语言。不管是将文本从英语翻译成法语,还是总结文章,亦或是进行对话,NLP使得机器能够从文本输入中生成有意义的输出。 在NLP中,处理原始文本的第一个关键步骤是将其转换为计算机能够有效处理的格式,这个过程被称为分词(tokenization)。分词是将文本拆分为较小的、易于管理的单位,称为“词元”(tokens),这些词元可以是单词、子词,甚至是单个字符。以下是分词的典型工作流程: 文本标准化 我们来看看这两句话: 从表面上看,这两句话传达的含义相似。然而,计算机在处理这些句子时,尤其是在分词或编码时,可能会因为一些微小的差异而导致完全不同的结果,例如: 这些差异会显著影响算法如何解释文本。例如,没有撇号的“Isnt”可能无法被识别为“is not”的缩写,像“ã”这样的特殊字符也可能会被误解或引起编码问题。 因此,文本标准化是NLP中的一个重要预处理步骤,它能够减少不相关的变异性,确保输入模型的数据保持一致。这是特征工程的一种形式,目的是消除那些对任务无关紧要的差异。 一种简单的文本标准化方法包括: 通过这些步骤,前面的两个句子可以标准化为: 通过标准化文本,我们能够减少那些可能混淆计算模型的差异,从而使模型能够更加专注于句子之间的实际差异,例如“was gazing at”和“gazed at”之间的区别,而不是标点符号或大小写的不同。 分词 在文本标准化之后,NLP中的下一个关键步骤就是分词。分词是将标准化后的文本拆分成称为词元的小单位。这些词元是模型理解和生成人类语言的构建块。分词的目的是为向量化做好准备,即将每个词元转换为机器能够处理的数值表示。 常见的分词方法有三种: 输出: 输出: 输出: 子词分词为模型提供了更多的灵活性,它不仅能处理常见的词汇,还能通过分解罕见的单词来保留语义信息,帮助模型更有效地理解上下文。 总结 分词是自然语言处理中为计算模型准备文本数据的基础步骤。通过理解和实施适当的分词策略,我们可以使模型更加高效地处理和生成人类语言。这为进一步探索单词嵌入(word embeddings)和语言建模(language modeling)等高级主题奠定了基础。
一项研究表明,只需一滴干血,新的检测技术或许可以在几分钟内发现癌症
一项新型的AI检测技术或许未来能够通过一小滴干血快速准确地检测三种主要癌症。 在初步实验中,该工具成功区分了已确诊的胰腺癌、胃癌或结直肠癌患者与未患癌症的人群,而且分析仅需几分钟。研究人员表示,通过检测血液中的某些化学物质,该测试的准确率在82%到100%之间。 这项新工具利用人工智能中的机器学习技术,分析血液样本中的代谢产物(也称为代谢物)。这些代谢物存在于血液中的血清部分,作为“生物标志物”,可以帮助识别体内是否存在癌症。 对于这些血液中的生物标志物进行筛查,被认为是早期诊断癌症的潜在方法。当疾病处于早期阶段时,存活率更高,患者往往没有明显症状。尽管胰腺癌、结直肠癌和胃癌是全球最致命的癌症之一,目前仍没有单独的血液测试可以准确诊断这些疾病,医生通常依赖影像学或手术来发现癌组织。 值得注意的是,这种新测试理论上只需要不到0.05毫升的血液。该测试的开发者,来自中国的科学家们在《自然可持续性》期刊上发表了他们的研究成果。 相比液态血液,干血血清的采集、储存和运输成本更低,设备要求也更简单。虽然测试前景光明,但要真正应用到临床还有很长的路要走。专家表示,这类测试可能还需要数年才能广泛应用于患者。 在此次研究中,科学家进行了多项概念验证测试,展示了该工具在区分癌症患者和健康血液捐献者方面的准确性。同时,研究显示,干血样本的检测效果与传统液态血液检测相当。例如,在一次实验中,利用干血斑检测胰腺癌的准确率为81.2%,而使用液态血液的准确率为76.8%。 目前,美国食品药品监督管理局仅批准了一个生物标志物CA19-9用于胰腺癌的检测,其准确率约为80%,但对无症状患者的检测率仅为13%,因此早期筛查效果有限。 研究人员表示,如果该测试被广泛应用于癌症筛查项目,特别是在中国农村地区,可能将胰腺癌、胃癌和结直肠癌的未确诊比例降低20%至50%。 尽管初步研究令人振奋,但专家认为要验证该工具的效果,仍需要更多的大规模测试,尤其是在多样化的人群中进行。此外,当前的研究仅限于已经确诊癌症的患者,尚未作为真正的诊断工具进行测试。 这种血液测试未来可能需要经过大量的临床试验和严格的监管审查,才能正式投入使用。然而,专家一致认为,该工具的潜力巨大。通过进一步开发,它不仅有望应用于其他癌症的早期检测,还可能用于监测已确诊患者的病情发展。对于那些生活在资源有限的偏远地区的患者,干血的优势将显得尤为重要。到2030年,全球约75%的癌症死亡病例预计将发生在低收入和中等收入国家,这项技术可能会改善这些地区的医疗检测可及性。
Meta 推出Movie Gen
无论是希望在好莱坞闯出一片天的电影制作人,还是乐于为观众制作视频的创作者,每个人都应该有机会使用可以提升创意的工具。今天,Meta推出了全新的AI生成技术——Movie Gen。这项突破性的生成式AI技术涵盖图像、视频和音频等多种媒介。通过简单的文本输入,就能生成自定义视频和声音,编辑现有视频,甚至将个人形象转化为独特的视频。在多项任务中,Movie Gen的表现超越了行业内的同类模型。 Meta一向致力于与社区分享基础的AI研究,这次也不例外。早期的生成AI研究从Make-A-Scene系列模型开始,能够生成图像、音频、视频和3D动画。接着,随着扩散模型的引入,Meta开发了Llama Image基础模型,大幅提升了图像和视频的生成质量以及图像编辑能力。而Movie Gen则代表了第三波创新,融合了多种媒介,为用户提供了前所未有的精细化控制。这类模型有望加速创意产品的开发,带来更多新奇的应用。 虽然这些模型用途广泛,但也需要明确,生成AI并非要取代艺术家和动画师的工作。Meta希望通过分享这项技术,帮助更多人表达创意,尤其是那些可能缺乏相关机会的人。未来或许每个人都能通过Movie Gen,将他们的艺术愿景转化为高清视频和音频作品。 探秘Movie Gen 作为最先进的沉浸式叙事模型套件,Movie Gen具备四大核心能力:视频生成、个性化视频生成、精准视频编辑和音频生成。这些模型使用的是经过授权和公开数据集进行训练的。虽然技术细节将在研究论文中详细说明,但这篇文章将概述这些功能的实际表现。 视频生成通过简单的文本提示,Movie Gen能够生成高质量、高分辨率的图像和视频。这款拥有300亿参数的模型,能够以每秒16帧的速度生成最长16秒的视频,且在物体运动、物体互动以及镜头运动等方面有出色表现。它可以学习多种概念的合理运动方式,堪称同类中的顶尖模型。 个性化视频生成在基础模型的基础上,Meta还扩展了个性化视频生成功能。只需输入一个人的图像,结合文本提示,便可生成包含该人物并具有丰富视觉细节的视频。该模型在保持人类身份和动作的真实性方面表现优异。 精准视频编辑该模型的编辑版本结合了视频生成和高级图像编辑功能,能够根据视频和文本提示,进行局部调整或全局变化。Movie Gen可以实现传统工具难以做到的精确编辑,例如添加、删除或替换元素,或者修改背景和风格,并且在保持原有内容的基础上,只改变相关像素。 音频生成Meta还训练了一个拥有130亿参数的音频生成模型,能够为视频生成高质量的环境声、音效和背景音乐,且与视频内容完美同步。此外,Movie Gen引入了一种音频扩展技术,能够为任意时长的视频生成连贯的音频,无论是音质还是音画同步效果都处于业界领先水平。 成果展示 为了实现这些功能,Meta在模型架构、训练目标、数据处理、评估标准和推理优化方面进行了多项技术创新。Meta的A/B对比测试显示,在人类评价中,Movie Gen在四大功能上都有显著优势。 未来展望 虽然Movie Gen展示了未来应用的巨大潜力,但Meta也意识到当前的模型还有一些局限性。未来,Meta将继续优化模型,减少推理时间,提升生成质量。通过与电影制作人和创作者的密切合作,Meta希望能够不断改进这些工具,帮助人们以全新的方式释放创意。想象一下,通过文本提示创建并编辑一个“日常生活”短片分享到Reels,或者制作个性化的生日祝福动画发送给朋友,未来的创意表达机会将是无限的。
OpenAI预计明年将推出“代理”系统
OpenAI预计明年将推出“代理”系统,这是一种无需人类干预、能自主完成各种任务的独立AI模型,未来或将集成到ChatGPT中。 在旧金山举行的首届OpenAI开发者日活动上,CEO山姆·阿尔特曼(Sam Altman)表示,“2025年代理系统将投入使用”,并展示了一款早期的代理能力样例:一个语音助手独立拨打电话并订购草莓。这表明AI技术正在向自主决策和行动迈进。 OpenAI解释称,人工智能通用技术(AGI)的发展分为五个阶段。目前我们处于第二阶段,AI可以在做出反应前推理。而代理系统标志着第三阶段的开始,意味着AI不仅能推理,还能独立执行任务。 阿尔特曼曾提到,OpenAI的o1系列模型具备推动“代理”系统发展的能力,预计首批模型将很快问世。不过,确保这些模型与人类价值观保持一致并避免“失控”行为是主要的挑战,也是可能导致延迟的原因。 代理系统的目的 构建实用且功能强大的代理系统是所有AI实验室的共同目标。比如,代理系统不仅可以写书,还能自动完成自我出版的流程,包括注册亚马逊账户并在Kindle Direct上发布书籍。 阿尔特曼预计,未来人们将向代理提出原本需要一个月才能完成的任务,而代理可以在一小时内搞定。他还提到,随着技术进步,代理将成为实现AGI的重要一步,因为AGI需要能够自主执行必要任务以实现其目标。 OpenAI计划通过不断迭代AI模型,实现这一目标。阿尔特曼指出,o1系列模型将使代理系统成为现实,并且“当人们开始使用代理时,将会是一个重大事件。”他补充说:“人们将要求代理完成需要一个月才能做完的事情,而代理只需一个小时。” 代理系统的挑战:对齐与安全 实现AI代理最关键的难题是对齐问题,也就是确保代理的行为符合人类的价值观和利益。每次发布新模型时,OpenAI都会进行严格的安全测试,确保模型在符合安全标准的前提下才能发布。这一过程曾导致模型发布的延迟,并需要为模型设置“防护栏”以阻止某些潜在的有害行为。 一个明显的例子是GPT-4o模型,尽管具备生成图像、音乐和模仿声音的能力,但这些功能被“防护栏”限制,用户无法直接使用。然而,偶尔防护栏也会失效,表明模型实际上是能够实现这些功能的。 代理系统的防护栏问题尤为重要,因为代理可能获得银行账户的访问权限、在线执行任务,甚至雇佣他人在Fiverr平台上代为完成任务。在开发者日的演示中,一个语音机器人模拟助手与卖家通话,订购了400颗巧克力草莓,提供了特定地址,并声明用现金支付。尽管机器人宣称自己是AI助手,但从对话中很难分辨它的AI身份。 OpenAI首席产品官凯文·威尔(Kevin Weil)对《金融时报》表示,“我们希望让人们能够像与他人互动一样与AI互动。”他补充道,明年代理系统将进入主流市场,推动这一目标的实现。 威尔还指出,代理系统的一个防护措施是强制要求代理系统始终表明其AI身份。然而,如果你见过GPT-4o生成的完美矢量图形或听过Advanced Voice的拟声表演,你就会知道这些限制有时并不完善。 代理系统的未来展望 对于代理系统的到来,许多人充满期待。开发人员认为,代理将帮助加快开发流程,特别是在自动化测试等枯燥环节。此外,代理还能帮助人们处理大量未读邮件,正如一位开发者所言,“如果为了清空收件箱而不得不面对天网(Skynet)的崛起,那就让终结者来吧。”
Microsoft AI部门的CEO额备忘录
微软今天正式推出了重新设计的Copilot,目标是成为用户的AI助手或伴侣。为了庆祝这一发布,微软新任AI部门CEO穆斯塔法·苏莱曼撰写了一篇超过700字的备忘录,描述了他所认为的AI技术“范式转变”,即AI模型将能够理解人类所见和所闻的能力。 苏莱曼今年早些时候加入微软,成为其新成立的AI部门的CEO,此前微软从Inflection AI挖来了多名重要员工。今年6月,苏莱曼因公开宣称“任何发布在网络上的内容都是免费的,可以被AI模型复制、重建和再创造”而引发争议。如今,他乐观地认为,在微软的领导下,AI将开创一个“更平静、更加有用和支持性的技术时代”,这是以前从未见过的。 苏莱曼在备忘录中表示:“一些人担心AI会削弱我们作为人类的独特性,但我的毕生工作就是确保AI能做到完全相反的事情。” 微软的全新Copilot体验看起来与Inflection AI的Pi产品十分相似,显然苏莱曼正推动微软走向更加个性化的AI方向。“在微软AI,我们正在为每个人打造一个AI伴侣,”苏莱曼在备忘录中写道,“Copilot会始终站在你这边,支持你,确保与你的利益高度一致。” 微软今天还推出了全新的Copilot视觉和语音功能,使得AI助手更加个性化,同时更新的设计也更注重提供实用信息。“随着时间的推移,Copilot会根据你的行为习惯逐渐适应,并发展出围绕你的偏好和需求的功能,”苏莱曼说,“我们并不是在创造一个静态工具,而是建立一种动态、不断发展的互动方式。” 苏莱曼的完整备忘录如下: 我们正在经历一场技术范式的转变。短短几年内,我们的计算机已经学会了理解我们的语言,看见我们所见,听见我们所闻。 但技术本身没有意义,重要的是它给人们带来的感受,以及对社会的影响。它改变了生活、打开了大门、拓展了思维、缓解了压力。它或许是历史上最伟大的人类福祉的放大器之一,也是为数不多能为数十亿人带来实际和持久好处的方式之一。 然而,技术必须始终服务于人类:它是一种工具,是加深我们共同纽带和理解的路径,是激发我们的创造力和想象力的力量。 在AI领域,我们经常会迷失在技术细节中。我们谈论参数、计算能力、训练过程、数据中心和最新技术。在探索新领域时,专注于细节是很自然且不可避免的,因为细节确实重要。但我认为,在深耕技术的同时,我们不应忘记,不仅是我们在构建什么,更重要的是我们为什么要构建它。 在微软AI,我们正在为每个人创造一个AI伴侣。 我坚信,我们可以创造一个更加平静、有帮助和支持性的技术时代,这是以前从未见过的。优秀的技术体验应该关注用户的感受,而不是技术细节。它应着眼于你所经历的,而非我们所构建的。 Copilot会始终站在你这一边,支持你,并与你的利益保持高度一致。它会理解你的生活背景,同时保护你的隐私、数据和安全,记住在任何情况下最有用的细节。它将为你提供一个知识的宇宙,简化和梳理每天的大量信息,并在你需要时提供支持和鼓励。 随着时间的推移,Copilot会适应你的习惯,并发展出围绕你的偏好和需求的功能。我们并非在创造一个静态的工具,而是建立一种动态、不断发展的互动关系。它会始终支持你,帮助你在日常生活中以最理想的状态展现自己,成为促进人类联系和成就的新方式。 在获得你的许可后,Copilot最终将能够代表你采取行动,简化生活中的复杂问题,让你有更多时间专注于对你重要的事情。它将在许多重要时刻为你提供支持。无论是陪伴你去医生那里记录信息并在适当时候跟进,还是为孩子的生日派对做准备,甚至在你面临艰难的生活决策时提供帮助,Copilot都会陪在你身边。 一些人担心AI会削弱我们作为人类的独特性。而我毕生的工作就是确保它恰恰相反。我们选择创造什么,这是我们必须共同完成的任务。我们的职责是确保它始终能够丰富人们的生活,并加强我们与他人的联系,同时支持我们独特而复杂的人性。 这是一场全新的技术变革,不仅仅是“解决问题”,而是支持、教育和帮助你。从这个角度来看,Copilot与过去的互联网和移动技术浪潮截然不同。这是一场从根本上改变我们所有人可能性的开始。随着我们对Copilot的最新更新,你们现在看到的只是我们在这条路上的第一步。 耐心和谨慎是我们部署每个阶段的核心基础。我的承诺是,在每一个阶段都对用户负责,与用户合作并倾听用户的意见。对用户和社会的尊重与深切关怀是我们一切工作的核心。它优先于一切。这是我们共同承诺的旅程,我对能与你们一起踏上这段旅程感到无比激动。 穆斯塔法·苏莱曼
两名大学生利用Meta的智能眼镜展示了一项令人震惊的技术,能够实时“人肉”他人的身份信息
两位哈佛学生展示了一款让人不寒而栗的智能眼镜技术演示,展示了如何利用人脸识别技术即刻获取他人身份、电话号码和住址等敏感信息。令人担忧的是,这项演示所用的都是现成的技术,比如Ray-Ban Meta智能眼镜和公共数据库。 其中一位学生AnhPhu Nguyen在网上发布了一段视频,展示了这项被称为“I-XRAY”的技术如何运作。该技术通过Meta智能眼镜的实时视频直播功能,将视频传输到Instagram,然后计算机程序监控视频并使用AI识别人脸。这些面部照片随后被输入公共数据库,进而找到姓名、住址、电话号码,甚至亲属关系。最终,信息会通过手机应用传回。 在演示中,Nguyen和Caine Ardayfio(该项目的另一位学生)通过眼镜识别了多位同学的身份、住址以及亲属信息。更令人不安的是,他们还在公共交通工具上与陌生人交谈,假装认识他们,实际是通过技术获取的个人信息。 这项技术的背后依赖于像PimEyes这样的面部搜索引擎,《纽约时报》曾形容PimEyes为“精确到令人惊讶”的工具,任何人都能使用它。这让人联想到Clearview AI,后者曾帮助执法机构通过面部识别追踪目标。Nguyen和Ardayfio的演示则是首次将这种技术与消费者产品相结合,让这款隐蔽且易于获取的设备变得更加危险。 两位学生表示,他们开发这项技术的初衷不是为了滥用,因此不会公开发布。他们的目标是引发公众对现有技术的警觉,表明这并非遥远的反乌托邦未来,而是现实中已经可以做到的事。通过大语言模型(LLMs),I-XRAY能够自动将姓名与照片关联起来,从庞大的数据源中提取信息。 智能眼镜的隐私问题由来已久,谷歌眼镜因公众担忧隐私被侵犯而遭遇了失败。尽管现在人们因智能手机、博主和TikTok等普及,已习惯了随时随地被录像,但现代智能眼镜因为外形更为低调,隐私威胁也随之增加。Ray-Ban Meta智能眼镜看起来与普通的Ray-Bans几乎无异,这虽然有助于智能眼镜的普及,但也让人更难察觉到正在被拍摄。虽然眼镜配有隐私灯,录像时会自动亮起,但在明亮的户外环境下,这个灯往往难以被察觉,特别是在拥挤的公共场所。 Meta在隐私政策中呼吁用户尊重他人的隐私,并在录像、直播或拍照时通过手势或语音控制提示他人。然而,现实情况是,不少用户可能不会遵循这些规范。 这次演示敲响了智能眼镜滥用的警钟,但也有一些措施可以保护个人隐私。Nguyen和Ardayfio提供了一些面部搜索和人物搜索数据库的退出方法。然而,完全删除你的网络信息几乎不可能,最多只能降低你的信息的可获得性。
埃隆·马斯克在OpenAI旧总部举办的这场AI派对
这场招募活动表面上看像是旧金山科技初创公司的常规招聘会,现场有免费食物、饮料,甚至还有通过实时编写代码生成的音乐。但现场的安保却显得格外严密:金属探测器、身份检查、保安遍布全场。这是埃隆·马斯克在OpenAI的旧总部举办的一场xAI招聘会。值得注意的是,OpenAI正巧在同一天的另一边举行了年度开发者大会。 活动在晚上8:30进入高潮,马斯克在一群保镖的护送下站上桌子,向在场的工程师们发表演讲,讲述了他创建xAI的初衷。他说xAI的目标是“创建尽可能友善的数字超级智能”,并号召在场的人加入xAI,共同开发这项技术及其应用。 马斯克还预测未来五年内,OpenAI、Anthropic、谷歌和xAI将主导人工智能领域。他还强调了xAI的速度,比较其成长过程就像SR-71“黑鸟”战机一样迅猛。活动的核心目的显然是为xAI的API寻找工程师。 当晚活动结束后,马斯克被火速带离现场,而参与者则带着披萨走入夜幕。就在这个过程中,AI领域的竞争更加激烈,xAI迅速崛起,马斯克也正在调动一切资源,争取在这一赛道上赢得主导地位。 xAI的诞生与快速扩展 xAI在2023年3月启动,最初团队汇集了来自马斯克其他公司的成员,如特斯拉和SpaceX,还包括他17岁的儿子和表亲。xAI的使命非常明确:在短短三个月内开发出足以竞争的语言模型。为了追求速度,xAI依赖外部技术,比如微软的Bing搜索和Meta的Llama模型。 截至2023年底,xAI已经发布了多款模型,虽然这些产品的背后依赖其他公司的技术,但马斯克的目标是尽快推出自家的生成器和更多功能。目前,xAI正在开发语音和搜索功能,未来用户不仅能通过Grok聊天机器人进行对话,还能获取新闻摘要和热门话题的总结。 激烈的AI人才争夺战 在AI领域,马斯克面临着激烈的人才竞争。尽管资金对他来说不是问题,但如何吸引顶尖人才是他目前的挑战。xAI的快速节奏和冒险精神吸引了一部分工程师,他们更愿意在小团队中推进项目,而不是在大公司里经历漫长的研发周期。 对于马斯克而言,打造xAI不仅是为了赚钱,更是为了击败他曾经的合作伙伴——OpenAI。通过这次招聘活动,他向硅谷的工程师们展现了自己的愿景:一个由他掌控并与世界共享的AGI(通用人工智能)。而在这场竞争中,速度和创新将是xAI取胜的关键。
在1万块H100 GPU上训练模型涉及到复杂的硬件架构和并行化策略
在使用1万块H100显卡时,目标是尽可能将网络规模和批处理大小最大化。为此,涉及多个并行化策略: 通过不断优化并行化,确保所有GPU的高效利用,最大化计算资源。 Checkpointing与计算/记忆权衡 为了执行反向传播,需要在前向计算时保存一些中间变量(如save_for_backward)。但当网络足够大时,可以选择释放这些变量,腾出内存以容纳更大的批处理量,并在需要时重新计算。类似于FSDP的技巧,可以将权重分片保存在不同GPU上,节省内存,等需要计算时再从其他GPU获取这些权重。 GPU间的快速通信 在多个GPU之间传输数据时,尽量让通信与计算并行进行。例如,当第N层完成反向传播时,第N-1层的反向传播仍在计算中,这时可以让第N层的GPU们进行梯度的all-reduce操作,从而减少等待时间。 网络拓扑结构的发现与利用 在大规模同步SGD训练中,必须快速传输大量的梯度和优化器状态。这通常涉及多个网络节点,并需要考虑复杂的网络拓扑结构。通过树状的all-reduce算法,可以将通信复杂度降低至log(n),同时尽量减少光纤连接节点间的通信延迟。 NCCL库可以智能发现网络拓扑并优化通信操作,比如all-reduce或scatter/gather。同时,网络设备(如交换机和NIC)的路由算法也需要优化,以实现负载均衡。此外,交换机的HBM内存在处理大规模通信时也非常关键,因为数据包排队时需要足够的缓存空间。 故障恢复 在拥有1万块GPU的环境中,硬件和软件故障几乎是常态。GPU、NIC、网络线缆等可能随时出问题。有些故障可以快速检测到,而有些只能通过延迟判断,比如NCCL的all-reduce操作卡住了。 另外,大规模训练时偶尔会出现内存位翻转导致的数据损坏,进而引发损失爆炸。这种现象在小规模训练中也有,但非常罕见,难以预先通过软件检测。虽然部分硬件具备内置校验功能,但像H100这样的GPU还没有这一特性。 为应对这些故障,建议频繁保存模型状态,并快速从故障中恢复。通常,模型状态会首先保存到CPU内存,然后再异步保存到磁盘或远程存储中。模型状态保存时可以分片处理,不需要每个GPU保存所有权重,而是保存一部分,其他部分可以从其他GPU的检查点中恢复。这样即使某个节点发生故障,恢复时间也会大大缩短。
OpenAI在周四推出了一种与ChatGPT互动的新方式——一种名为“Canvas”的界面
OpenAI在周四推出了一种与ChatGPT互动的新方式——一种名为“Canvas”的界面。这款新产品在常规聊天窗口旁边打开一个独立窗口,为写作和编程项目提供工作空间。用户可以直接在Canvas中生成文本或代码,然后高亮显示部分内容,进行模型编辑。Canvas从周四开始向ChatGPT Plus和Teams用户推出测试版,下周将向企业和教育用户开放。 现在,多个AI厂商都在围绕可编辑工作空间进行布局,将其作为使用生成式AI的实际工具。ChatGPT的新界面提供的功能与Anthropic在今年6月推出的Artifacts,以及备受欢迎的编程助手Cursor类似。OpenAI加快了与竞争对手的步伐,不仅匹配现有功能,还计划推出全新的能力,以吸引更多付费用户。 目前,AI聊天机器人还无法通过单个指令完成大型项目,但它们通常可以提供不错的起点。类似Canvas这样的可编辑工作空间,允许用户修正AI生成内容中的错误,而无需完全重新生成整段代码或文字。 ChatGPT的新可编辑项目窗口让用户能够更自然地与模型协作。OpenAI产品经理Daniel Levine在与TechCrunch的演示中表示,这种方式让人们更直观地使用ChatGPT。 在演示中,Levine需要从ChatGPT的模型选择器中选择“GPT-4 with canvas”,但OpenAI表示,当ChatGPT检测到用户正在处理长文本或复杂的编程任务时,Canvas窗口会自动弹出。用户还可以通过输入“use canvas”来直接打开该项目窗口。 Levine展示了ChatGPT如何通过这些新功能帮助撰写电子邮件。用户可以先让ChatGPT生成一封电子邮件,邮件会在Canvas窗口中弹出。然后,用户可以通过滑动按钮调整文本的长短,或者高亮显示某些句子,要求ChatGPT做出修改,比如“让它听起来更友好”或加入表情符号。用户还可以要求ChatGPT将整个邮件翻译成其他语言。 对于编程项目,Canvas提供了稍微不同的功能。Levine通过指令让ChatGPT生成了一个Python API服务器,生成的代码在Canvas窗口中显示。通过按下“添加注释”按钮,ChatGPT会为代码添加行内文档解释其功能。用户还可以高亮代码的某一部分,让ChatGPT解释其含义或解答相关问题。此外,ChatGPT还推出了“代码审查”按钮,能为用户生成或自写的代码提出修改建议,用户可以选择批准、手动编辑或拒绝。如果用户批准,ChatGPT会尝试自行修复代码中的错误。 一旦Canvas功能脱离测试版,OpenAI计划将其开放给免费用户。