2024年7月25日,OpenAI宣布推出了一款名为SearchGPT的全新AI搜索引擎原型,这款产品将搜索从传统的基于关键词的方式转变为对话式的搜索体验。我们将能够用自然语言来提问,就像在与人交谈一样。这与传统搜索引擎需要输入特定关键词以找到信息的方式有着显著的不同。 但是,SearchGPT真的能与Google竞争吗?SearchGPT与AI Overviews又有何不同?此外,SearchGPT和ChatGPT的区别是什么?请继续阅读,了解这些问题的答案。 什么是SearchGPT? SearchGPT是OpenAI开发的一款原型搜索引擎,旨在利用人工智能提升搜索体验。它不仅仅是一个类似于ChatGPT的聊天机器人,虽然它确实包含了一些对话式元素。让我们来看看它的核心功能。 直接回答 与仅仅提供一系列链接不同,SearchGPT会直接回答用户的提问。例如,如果你问SearchGPT“2024年最佳的无线降噪耳机是什么?”它应该能够直接总结出几款顶尖候选产品,并根据专家评论和用户反馈概述它们的优缺点。 这种方式与传统的搜索引擎形成对比,后者通常会提供一系列通向不同文章或视频的链接,用户需要自行筛选信息。 相关来源 SearchGPT的答案会附带清晰的引用和链接,确保信息的透明性和准确性。这使得用户可以轻松核实信息并进一步探索话题。 对话式搜索 SearchGPT允许用户与搜索引擎进行对话。这意味着用户可以基于收到的回复提出后续问题或优化初始查询,从而带来更互动和个性化的搜索体验。 SearchGPT与Google的对比 人们纷纷讨论SearchGPT可能成为未来Google最强劲的竞争对手。让我们来看看它们在搜索功能上的不同表现。 对话式搜索与关键词搜索 SearchGPT使用对话界面,允许用户通过自然语言提问,并通过后续互动来优化查询。这带来了更动态、更互动的搜索体验。 相比之下,Google依赖传统的关键词搜索,用户输入搜索词后会得到相关网页的列表。 直接回答与链接列表 SearchGPT的一大特点是能够直接回答问题。它会从多个来源总结信息,并清楚地引用这些来源,使用户能够在不需要点击多个链接的情况下快速获取所需信息。 而Google通常会提供相关网站的链接列表,用户需要自己浏览结果并找到所需信息。 Perplexity AI的联合创始人兼CTO Denis Yarats表示:“Google的搜索引擎是人类有史以来最复杂的机器之一,但我认为在某些方面还是有提升空间的。特别是,当你不需要筛选10个链接并进行大量手动操作时,可以节省大量时间。” 如果你想听到Denis Yarats的更多观点,可以查看这个关于Perplexity和AI未来的DataFramed播客。 AI驱动的理解与关键词匹配 SearchGPT通过AI语言模型理解用户查询背后的意图。这使得它即使在用户的查询措辞不完美或使用模糊术语时,依然能够提供更具上下文相关性的结果。 而Google的主要机制是关键词匹配,这有时会导致与复杂或微妙的查询不太相关的结果。 动态上下文与孤立搜索 SearchGPT能够在多次互动中保持上下文,允许用户在之前问题的基础上继续提问,并获得更个性化的回应。这使得搜索体验更像是在与一位知识渊博的助手对话。 而Google的每次搜索通常被视为一个孤立的查询,不记忆之前的互动。 最新信息与全网爬虫 SearchGPT旨在通过使用实时数据提供及时和准确的信息。这意味着用户更有可能获得最新的相关信息。 Google的网页索引虽然庞大,但可能包含过时或不太相关的信息。 SearchGPT与AI Overviews的对比 SearchGPT和AI Overviews都使用人工智能,但它们在方法和提供的详细程度上有所不同。不过需要注意的是,SearchGPT和AI Overviews都处于活跃开发阶段,它们的功能和特点可能会随着时间的推移而发生变化并趋同。 相似之处 让我们首先看看SearchGPT和AI Overviews之间的相似点: 不同之处 SearchGPT可能更适合需要深入研究和透明来源的用户,而AI Overviews则可能更适合那些寻求快速总结和入门信息的用户。 特点 SearchGPT AI Overviews 来源引用 清晰显著的引用,并提供直接链接到原始来源,便于核实 提供链接,但引用可能不如SearchGPT清晰或直接 对话能力 允许动态互动,支持后续问题和上下文保留…
Author: aitrendtrackers@rengongzhineng.io
Waymo第六代无人驾驶技术亮相:更少传感器,更高效率
Alphabet旗下的Waymo于周一公布了其最新的“第六代”自动驾驶技术细节。这项新的无人驾驶技术被集成到了吉利旗下的极氪电动车中,能够应对更广泛的天气条件,同时减少了对昂贵摄像头和传感器的依赖。 Waymo邀请CNBC前往其位于加州山景城的车库参观正在开发中的新型机器人出租车。Waymo工程副总裁Satish Jeyachandran表示,团队“有信心比上一代更快将这一代产品推向市场”,这得益于机器学习技术和半导体性能的进步。 Waymo的商业机器人出租车服务于2018年末在美国首次上线。此前,该公司将其无人驾驶系统集成到克莱斯勒Pacifica混合动力小型货车和全电动捷豹I-PACE SUV中。 随着Waymo努力扩大其现有服务Waymo One的规模,管理层正在分享即将推出的机器人出租车的细节。目前,Waymo One服务已覆盖旧金山、凤凰城、奥斯汀和洛杉矶等“阳光地带”城市。 如今,Waymo每周提供大约50,000次付费的无人驾驶行程,主要在旧金山和凤凰城。今年6月,该公司取消了旧金山的等候名单,向所有用户开放了Waymo乘车服务。截至目前,Waymo已完成了超过200万次行程。 上个月,Alphabet宣布将向其自动驾驶汽车部门再投资50亿美元。Waymo最早始于2009年谷歌内部的“项目司机”计划。 Jeyachandran告诉CNBC,这笔资金将主要用于扩大规模,包括在第六代机器人出租车测试和验证完成后,向车队添加新车型。他还表示,Waymo的捷豹I-PACE和极氪车辆将“共存”。 即将推出的Waymo-Zeekr车型更为方正,车身大小与现有的Waymo I-Pace SUV相当。 不过,极氪的内部设计可能对某些乘客更为友好。它拥有较低的踏板、更高的车顶和更宽敞的座椅间距等特点。 Waymo还继续定制开发了传感器和软件,包括激光雷达和雷达等,安装在极氪周围,使汽车系统能够获得“360度视野”来识别和避开障碍物。这些传感器还配备了刮水器,以清除大部分污垢和降水。 为了降低每辆机器人出租车的成本,Waymo表示已将车载摄像头数量从29个减少到13个,激光雷达传感器从5个减少到4个。公司目前正在公共道路上测试第六代车型,车上配有专业驾驶员。 Waymo还在底特律、纽约布法罗等地进行测试和验证,以了解其无人驾驶汽车在不同交通和天气条件下的表现。 尽管滴滴和Pony.ai的商业机器人出租车服务已在中国上线,但Waymo目前在美国几乎没有竞争。国内方面,通用旗下的Cruise遇到了一些问题,导致其无人驾驶车辆暂时停运,而Uber和福特则停止了早期的无人驾驶努力。特斯拉尚未推出无人驾驶汽车,但计划在10月发布其“专用机器人出租车”。
Roblox的持续增长与盈利挑战:从全球现象到运营难题
每个人都知道Roblox非常庞大。然而,随着COVID逐渐被遗忘,Roblox从“新颖”变成了“熟悉”,在游戏行业经历了近25年来最大的收缩时,这个平台却持续增长,而且增长势头不断加快。结果,Roblox的实际规模与人们对其的认知之间出现了显著的差距。 每天有超过8000万用户登录Roblox。作为一个历史性的对比,这意味着每10分钟左右就有比Second Life巅峰时期一个月还多的人登录Roblox。根据RTrack的数据,Roblox现在每月的用户数量超过3.8亿,是PC游戏领导者Steam的两倍,是索尼PlayStation的三倍,是任天堂Switch一年内独立用户的三倍,也是过去十年中购买Xbox主机人数的五倍。即使考虑到这些平台之间的用户重叠,以及Switch月活跃用户和年活跃用户之间的差距,Roblox的月活跃用户可能比整个AAA游戏生态系统的用户还要多。此外,NPD/Circana报告称,Roblox通常是PlayStation和Xbox上最受欢迎的3到7款游戏之一(Roblox无法在Switch或Steam上使用),而SensorTower表示,2023年,Roblox的iOS/Android月活跃用户数超过了任何其他游戏(包括Candy Crush!)。 与其最相似的竞争对手——社交虚拟世界平台Minecraft和Fortnite相比,Roblox的月活跃用户数分别是它们的5倍和2.25倍。对于非游戏玩家来说,Roblox的月活跃用户大约是Spotify的三分之二,是Snap的二分之一(尽管其日活跃用户与月活跃用户的比例可能较低),并且大致与2015年第四季度的Instagram和2009年第三季度的Facebook的受欢迎程度相当。 每个月,玩家在Roblox上花费近60亿小时。这还不包括观看Twitch或YouTube上的Roblox内容的时间——YouTube是全球最大的视频平台,非实时游戏内容是其第二大受欢迎的类别,而Roblox是其中五个最受欢迎的游戏之一。据估计,Disney+账户平均每月观看时间不会超过20小时,这意味着每月总观看时间约为31亿小时——还不到Roblox总时间的一半。 不仅Roblox非常受欢迎,而且它的增长令人震惊地线性化(尽管存在季度间的季节性波动,这在所有媒体产品中都很常见,尤其对Roblox来说,因为其用户中儿童比例较高,受学校日程影响较大)。即便在其现有规模下,仍然难以否认其增长的可持续性,平台的月活跃用户可能会突破5亿,日活跃用户达到1亿。这种增长也具有韧性。与其他所谓的“疫情宠儿”如Zoom、Shopify和Peloton不同,Roblox在疫情后并未出现收缩。相反,它保持了疫情期间的“前移”增长势头,并继续加速增长。 Roblox的增长构成也非常健康。平台日活跃用户占月活跃用户的比例从疫情前的16%-19%增长到现在的22%。每位日活跃用户和月活跃用户的游戏时间也有所增加,表明新用户的参与度并不低。年龄在13岁以上的玩家比例从40%增长到58%(现在13岁以上的用户数量是疫情前所有年龄段用户的2.5倍)。尽管美国和加拿大的玩家数量自疫情以来增长了250%,但其占总用户群的比例从35%下降到22%,因为亚太地区和其他地区的用户分别激增了650%和750%,使其份额从约16%和21%增长到24%和27%。全球玩家比例几乎与全球游戏时间比例完全一致,表明Roblox与所有主要社交平台一样,是一个全球现象。 尽管Roblox的玩家群体从高收入市场多元化到更多的发展中市场,但每月和每日活跃用户的收入相比疫情前有所增加(尽管消费比疫情高峰期有所下降,但当时消费因新用户激增而被推高,这些新用户在他们空虚的虚拟衣橱里大笔消费)。更令人印象深刻的是,即使现在用户每月的游戏时间比Roblox历史上的任何时候都多(除了疫情高峰期),每小时的消费也比疫情前有所上升。换句话说,Roblox继续扩大其吸引力、使用量和货币化能力。 Roblox的年消费额已超过38亿美元,预计到今年年底将突破40亿美元,其中四分之一归开发者所有。考虑到这些数字,Roblox用户的生产力也极高。2022年,Roblox用户每天设计了17万件虚拟服装和配饰,创造了1.5万个虚拟世界(尽管目前的具体数据不详,但每日用户数已增长40%,创作的便利性和输出质量也有所提升)。超过100个用户创建的世界的游戏次数已超过10亿次(其中一个世界的游戏次数超过50亿次)。 因此,是的,Roblox无疑“运转良好”。然而,Roblox仍未盈利。而且亏损非常严重。更糟糕的是,Roblox的亏损还在增加,因为其收入增长的速度被成本增长的速度超过。在过去四个季度中,Roblox的运营收入为(-12亿美元),而收入为32亿美元,利润率为-38%。在疫情前的四个季度中,收入为(6600万美元),而收入为5.08亿美元,利润率为-13%。换句话说,收入现在是6.2倍,但亏损是18倍。这并不是一家典型公司的发展路径,尤其不是一家像Roblox这样规模的平台型科技公司。那么,这背后的原因是什么?这一答案又有什么意义呢? 增长,但没有利润 显然,Roblox存在成本问题。在过去的12个月里,它的平均成本为每100美元收入138美元。 不幸的是,许多这些成本是Roblox无法控制的。首先,平均有23%的收入被各种应用商店和平台费用消耗(这个比例低于30%,因为大约20%的销售额是通过浏览器或PC直接完成的,在这种情况下,Roblox只需支付信用卡处理费用,而不必支付30%的商店佣金)。另有26%的收入支付给Roblox的UGC开发者。尽管公司理论上可以减少这些支付,但这样做会损害品牌和开发者的投资,而这两者都推动着收入增长。事实上,Roblox希望增加收入分成,这将使开发者能够向平台投入更多资金(许多开发者也对他们仅获得所产生收入的四分之一感到不满)。总的来说,Roblox在其自身成本之前就已经损失了49%的收入(更不用说利润的可能性了)。 基础设施和信任与安全的费用平均占收入的28%,比峰值时的37%有所下降,但仅比其六年平均水平低一个百分点。 与应用商店费用和开发者收入分成不同,这些费用并不是严格的边际费用。Roblox的运营每小时都有固定成本,而且这个成本并不低,但如果用户增加他们的消费,这个成本并不会增加。因此,这一类别的成本占收入的比例可能会下降。然而,这并不容易。例如,增加消费的最直接方式通常是增加游戏时间,但这会导致服务成本的增加(Roblox的用户数量是PlayStation的三倍,但游戏时间仅多50%,因为Roblox的玩家每月玩游戏的时间只有一半)。 为了吸引更多玩家——尤其是那些有更多消费能力并且可以自由支配资金的成年玩家——增加每位玩家的游戏时间以及每位玩家和每小时的消费,Roblox还在投资运营成本更高的体验,比如生成式AI。Roblox越来越关注利用生成式AI提供实时玩家通讯功能(如转录和翻译),同时还用于资产和世界的创建,运营AI代理和NPC——所有这些都不便宜。此外,该公司还在深度投资更多的AI工具和人类审核员,以应对骚扰、掠夺行为等问题。2024年8月,土耳其为了“保护我们的孩子”全面禁止了Roblox;一个月前,彭博社发表了一篇严厉的报道,揭露了该平台的“恋童癖问题”。 所以,在Roblox六大成本类别中的前三个已经消耗了77%的收入。接下来的三个类别的成本今天同样高,但它们相比之下有更多的改进空间,并且更多地受到Roblox的控制。一般管理和行政费用(13%)以及销售和市场费用(5%)相比几年前有所下降,并且应该会继续下降。即便Roblox将这些类别的成本削减三分之一,也只能减少六个百分点,而它们距离盈亏平衡还差三十八个百分点。 最大和最有趣的成本类别是研发。作为一个平台,研发不仅是Roblox当前规模的基础,它对所有未来的增长都至关重要——为此,公司将大量当前收入重新投入,以推动未来收入的增长(该公司有这样做的历史,这也是为什么它现在如此庞大的原因)。具体来说,Roblox工具和能力的改进有助于吸引开发者,并使他们能够创造“更好”和“更多”的体验,这有助于吸引更多用户,留住随着年龄增长的用户,并鼓励更多的用户消费——所有这些都增加了Roblox的收入,从而为更多的研发提供资金,并为开发者提供更多资金,他们可以进一步投资于他们的体验。如前所述,Roblox的大部分研发投资都集中在生成式AI上。Roblox创始人兼CEO David Baszucki表示,他相信生成式AI将使用户能够在2028年之前通过输入文字或语音来创建整个世界。今年早些时候,该公司还开始演示这些工具,包括详细的物体组件和属性(例如,当创建一辆车时,它由多个部分组成,而不仅仅是一辆“车”,这辆车不仅可以移动,还具有反射能力,能够承受和造成损害等属性)。Roblox还表示,他们正在努力将大规模语言模型(LLM)集成到他们的NPC中,以实现实时翻译。通过降低创建Roblox体验的成本、时间和难度,同时增强这些体验的沉浸感并促进更多/更轻松的社交游戏,Roblox应该能够增加该平台的受欢迎程度、使用量和收入。 同时,Roblox的研发投资也非常巨大。研发现在平均占收入的44%,相当于15亿美元的年化支出。相比之下,索尼的PlayStation预计在2024年的研发支出为22亿美元,这些投资涵盖了其二十一个相对独立的工作室、虚拟现实设备、配件(包括基于云的PlayStation Portal)、PlayStation 6(据传还有掌机)、网络技术等多个领域。2024年,Unity Technologies的研发支出“仅”为11亿美元,即使是对《侠盗猎车手VI》最为幻想的(无疑也是过高的)预期,预计其总开发成本也将接近10亿美元,耗时接近十年。很难想象研发支出会随着销售额的增长而继续增加——更不用说超过销售额的增长,就像过去几年那样。对于大多数大型科技公司,研发费用通常会稳定在收入的6%到12%之间。然而,即使研发费用下降到10%(大约与Spotify和Uber的支出相当),Roblox仍然无法盈利。 尽管Roblox没有盈利,但这一情况也有一些重要的补充说明。在过去的12个月中,运营现金流——一个比会计定义的利润更重要的指标——为6.5亿美元,占收入的20%左右。Roblox在过去至少24个季度中一直保持现金流为正。这难道不是一个“运转良好”的企业吗? 部分原因是Roblox的收入确认方式。当用户购买30美元的Robux(Roblox的虚拟货币)时,平台会记录30美元的预订收入。大约3美元会被立即消费在“消耗品”(即单用户或其他可消耗的商品)上,因此Roblox会立即将这3美元计为收入。剩余的27美元则花在“耐用品”上,如虚拟角色的服装。由于虚拟角色可以并且通常会长期使用,因此Roblox会在Roblox用户的平均生命周期内分摊这部分收入。当前,这个生命周期为27个月,因此剩余的27美元会在接下来的27个月里,每个月分摊1美元,这意味着第一个月的总收入为4美元(3美元+1美元),而26美元被递延。 Roblox的会计做法通常被认为是保守的。举个例子,Roblox指出,用户通常会在三天内用完他们新购买的Robux。而不像Roblox的收入确认政策所暗示的那样,用户不会花费两年以上的时间来花完他们的Robux账户余额。这一政策在一定程度上减少了会计利润,但当用户支出总额增加时,它会压缩账面利润。通常情况下,Roblox每个季度的预订收入(即用户在该季度内花费在Roblox上的金额)比Roblox确认的收入高出约23%。 不过,这种会计方法并不能完全掩盖Roblox目前的成本问题,但正是这些额外的因素使Roblox仍然能够保持健康的现金流,即使账面上还没有显现盈利能力。
Waymo的自动驾驶出租车停车场仍然在把旧金山的邻居们从梦中吵醒
旧金山的一些居民住在Waymo停车场旁边的楼里,最近一直被深夜的喇叭声吵得心烦意乱。尽管Waymo公司已经尝试解决了最初的问题——即停车场内汽车鸣笛的情况,但事情似乎比想象中更复杂。 上周Waymo公司解释说,这些鸣笛声是因为当Waymo车辆检测到另一辆车倒车靠近时,会触发安全功能。Sophia Tung,一位在YouTube上直播停车场情况的博主,向《The Verge》透露,Waymo推出修复方案的第一晚,几辆汽车没有正确进入停车场,反而莫名其妙地开进了她楼旁的死胡同。在她录制的视频中,这些车辆在胡同里堵住了,然后开始疯狂按喇叭。 Tung还提到,Waymo公司很快采取行动,完全禁止了车辆进入那个死胡同,并举办了一个冰淇淋社交活动来安抚附近的居民。她说,这之后的几天倒是清静了不少。 然而,今天凌晨,问题再次出现。这次是因为大量Waymo自动驾驶出租车同时返回停车场,结果排队的车辆太多,导致其中一辆车开始倒车,触发了连锁反应——接连几辆Waymo车都开始倒车、按喇叭,场面一度失控。 Tung表示,她已经联系了Waymo,反映了这次新的喇叭问题。同时,她计划在明天直播中与Waymo产品管理和运营总监Vishay Nihalani进行对话,时间定在东部时间下午5点30分。
AI赋能游戏世界:从NPC互动到超现实视觉体验的改变
AI无处不在,如果你正在浏览这个网站,可能早就察觉到了!不过,有一个领域我们很少去思考AI的影响,那就是游戏。毕竟,对于许多人来说,玩游戏是逃离现实、放松心情的时刻。 然而,游戏行业正是AI产生深远影响的领域之一。现在,让我们来看看AI正在如何改变游戏体验的几个方面。 AI增强了NPC互动 AI被用来训练NPC(非玩家角色)更加逼真地模拟人类行为,这是一项非常有趣的应用。比如,NPC会对环境做出反应:如果下雨了,他们可能会躲到树下,或者撑起一把伞。此外,NPC的反应也会因玩家的选择而不同。比如,当玩家向NPC要钱时,他们可能会态度粗鲁,而如果玩家送礼物,他们可能会表现得友好和感激。更复杂的行为也在被训练,比如竞争关系——就像《荒野大镖客2》中的兄弟俩经常针锋相对。所有这些特性使得与NPC的互动变得更加有趣,而不再是例行公事。 AI在在线赌场的应用 在线赌场在利用技术方面一直走在前沿,旨在为用户提供全新的体验。AI在这其中发挥了重要作用,帮助在线赌场更好地理解用户需求,同时保障用户安全。AI能够检测账户上的异常行为,这可能表明存在欺诈风险。因此,AI会将这些行为标记出来,交由反欺诈团队核实,从而防止不良事件的发生。由于AI比人类更擅长(且更快)发现模式,一旦发现异常,它就会提醒团队,从而节省了大量人力。 社交赌场也充分利用了AI,尤其是在了解用户需求方面。社交赌场与普通在线赌场类似,但玩家可以享受没有财务风险的游戏体验。AI在社交赌场中尤为重要,尤其是在游戏推荐方面。许多社交赌场都有一个动态主页,通过AI为玩家推荐精心挑选的游戏。AI不仅在这方面发挥作用,实际上,你可以在Oddschecker等平台查看对领先社交赌场平台的深入分析和比较,进一步了解AI的影响。 AI调整难度和内容 AI在主机游戏领域的表现也同样出色。许多大型游戏大作都在使用AI来创造更加接近现实的游戏体验。AI在生成动态故事情节和任务方面展现出了巨大潜力,这些内容基于玩家的行为进行个性化定制。这意味着每个玩家的故事线可能都不相同。以前这种定制化体验需要大量人力才能实现,而现在,AI甚至能够实时调整游戏难度,使其与玩家的技能水平相匹配。如果你发现某款游戏突然变得简单了,可能是AI正在悄悄帮你一把呢! AI在视觉效果方面也表现优异。像AI超分辨率技术可以通过降低噪点,将低分辨率的图像转化为高分辨率的图像。而光线追踪技术则能营造出更加逼真的光影效果,比如光线从水坑中反射,或雨滴在脸上投下阴影。正是这些精细的细节,使得未来的超现实游戏体验提前来到今天。
Geekbench AI 1.0正式发布:AI性能评估
Primate Labs正式发布了Geekbench AI,这是一款专为机器学习和AI工作负载设计的基准测试工具。https://www.geekbench.com/ai/download/ Geekbench AI 1.0的发布标志着多年研发工作的成果落地,这一过程还得益于客户、合作伙伴以及AI工程社区的共同努力。在预览阶段,这款工具被称为Geekbench ML,现在更名为Geekbench AI,以符合行业术语并确保用途明确。 Geekbench AI现已在Primate Labs官网上线,支持Windows、macOS和Linux系统。同时,移动端用户也可以在Google Play和苹果App Store下载使用。 Primate Labs推出的这款基准测试工具,旨在为不同平台和架构的AI能力提供统一的评估标准。与传统方法不同的是,Geekbench AI采用了独特的三分评分体系,反映了AI工作负载的复杂性和异质性。 Primate Labs表示:“衡量性能并不简单,这并不是因为运行测试困难,而是因为很难确定哪些测试对性能评估最为重要,尤其是在不同平台之间,且每个平台的实现方式略有不同。” 三分评分体系考虑了现代AI实现中不同精度级别和硬件优化的差异性。这种多维度的评估方式,使开发者、硬件供应商和技术爱好者能更深入了解设备在不同场景下的AI表现。 Geekbench AI的一个显著新增功能是每项测试的准确性测量,这表明AI性能不仅仅关乎速度,还与结果质量密切相关。通过结合速度和准确性指标,Geekbench AI提供了更加全面的AI能力评估,帮助用户理解性能与精度之间的权衡。 Geekbench AI 1.0支持多种AI框架,包括Linux和Windows上的OpenVINO,以及安卓系统上的特定厂商TensorFlow Lite扩展,如三星ENN、ArmNN和高通QNN。广泛的框架支持确保了基准测试反映了AI开发者使用的最新工具和方法。 这款工具还使用了更广泛且多样化的数据集,不仅提升了准确性评估,还更好地代表了现实世界中的AI使用场景。Geekbench AI 1.0中的所有工作负载运行时间至少为一秒,以确保设备在测试过程中达到最大性能,同时仍然能够反映出现实应用中突发性运算的特点。 Primate Labs还发布了详细的技术说明,介绍了Geekbench AI 1.0中使用的工作负载和模型,强调了其对透明度和行业标准测试方法的承诺。该基准测试工具与Geekbench Browser集成,方便跨平台比较和结果分享。 公司预计将定期更新Geekbench AI,以跟上市场变化和新兴AI功能的发展。然而,Primate Labs相信,Geekbench AI已经达到了足够的可靠性,可以集成到专业工作流程中。包括三星和英伟达在内的主要科技公司已经开始使用这款基准测试工具。
通过剪枝与知识蒸馏优化大型语言模型:NVIDIA在Llama 3.1模型上的实践与创新
大型语言模型现在在自然语言处理和理解领域占据了主导地位,凭借其高效性和多功能性脱颖而出。像Llama 3.1 405B和NVIDIA Nemotron-4 340B这样的大型语言模型在许多具有挑战性的任务中表现出色,包括编程、推理和数学。然而,这些模型的部署需要大量资源。因此,业界也在兴起另一种趋势,即开发小型语言模型。这些小型语言模型在许多语言任务中同样表现出色,但部署成本更低,更适合大规模应用。 最近,NVIDIA的研究人员表明,结合结构化权重剪枝和知识蒸馏是一种从大型模型逐渐获得小型模型的有效策略。NVIDIA Minitron 8B和4B就是通过剪枝和蒸馏其15B的“大型兄弟”NVIDIA Nemotron系列模型而得来的。 剪枝和蒸馏带来了多种好处: 该论文还提出了一套实用且有效的结构化压缩最佳实践,这些实践结合了深度、宽度、注意力和多层感知器剪枝,并通过基于知识蒸馏的再训练实现。 NVIDIA首先讨论这些最佳实践,然后展示它们在Llama 3.1 8B模型上的应用效果,得出Llama-3.1-Minitron 4B模型。Llama-3.1-Minitron 4B在与同类大小的开源模型(包括Minitron 4B、Phi-2 2.7B、Gemma2 2.6B和Qwen2-1.5B)的对比中表现优异。Llama-3.1-Minitron 4B即将发布到NVIDIA HuggingFace集合中,等待审批。 剪枝与蒸馏剪枝是使模型变得更小、更精简的过程,方法包括丢弃层或丢弃神经元、注意力头和嵌入通道。剪枝通常伴随一定量的再训练以恢复准确性。 模型蒸馏是一种技术,用于将大型复杂模型中的知识转移到较小、较简单的学生模型中。其目标是在保持原始大型模型大部分预测能力的同时,创建一个运行速度更快、资源消耗更少的高效模型。 经典知识蒸馏与SDG微调蒸馏主要有两种方式: 这两种蒸馏方式是互补的,而非互斥的。NVIDIA主要关注经典知识蒸馏方法。 剪枝与蒸馏过程NVIDIA提出了一种结合剪枝与经典知识蒸馏的资源高效再训练技术。 NVIDIA从一个15B的模型开始,评估每个组件的重要性(层、神经元、注意力头和嵌入通道),然后将模型修剪到目标大小:8B模型。NVIDIA使用教师模型作为学生模型的教师,通过模型蒸馏执行轻量再训练过程。训练完成后,小型模型(8B)作为起点进一步修剪和蒸馏到更小的4B模型。图1显示了逐步剪枝和蒸馏模型的过程,从15B到8B,再从8B到4B。 重要性分析要对模型进行剪枝,关键是要了解模型的哪些部分是重要的。NVIDIA建议使用一种基于激活的纯粹重要性估算策略,该策略通过使用小型校准数据集和仅前向传播计算,同时计算所有考虑轴(深度、神经元、头和嵌入通道)的敏感度信息。与依赖梯度信息且需要后向传播的策略相比,这种策略更加简单且具成本效益。 虽然可以针对给定的轴或轴的组合在剪枝和重要性估算之间反复交替进行,但NVIDIA的实验证明,使用单次重要性估算已经足够,迭代估算并没有带来任何好处。 经典知识蒸馏再训练图2展示了学生模型从教师模型蒸馏的过程。学生通过最小化嵌入输出损失、logit损失和变压器编码器特定损失的组合进行学习,这些损失映射在学生模型的S块和教师模型的T块之间。 剪枝与蒸馏最佳实践基于在《通过剪枝和知识蒸馏压缩语言模型》中进行的广泛消融研究,NVIDIA总结了几个结构化压缩的最佳实践: 尺寸: 剪枝: 再训练: Llama-3.1-Minitron:实践最佳实践Meta最近推出了功能强大的Llama 3.1模型系列,这是首批在许多基准测试中可与闭源模型相媲美的开源模型。Llama 3.1的规模从巨大的405B模型到70B和8B不等。 NVIDIA借鉴了Nemotron蒸馏的经验,开始将Llama 3.1 8B模型蒸馏为更小、更高效的4B模型: 教师微调为了纠正模型在原始数据集上的分布偏移,NVIDIA首先在数据集上对未剪枝的8B模型进行了微调。实验表明,如果不纠正分布偏移,教师模型在蒸馏过程中对数据集的指导效果会欠佳。 仅深度剪枝为了将模型从8B缩减到4B,NVIDIA剪去了16层。通过移除模型中的某些层,观察语言模型损失或在下游任务中的准确性降低,来评估每一层或连续层组的重要性。 图5显示了在验证集上移除1层、2层、8层或16层后的语言模型损失值。NVIDIA发现,模型开头和结尾的层最为重要。 然而,NVIDIA注意到语言模型损失与下游性能之间并不直接相关。图6展示了每个剪枝模型在Winogrande任务上的准确性,表明移除16到31层(即倒数第二层)效果最佳。NVIDIA据此洞见,移除了16到31层。 仅宽度剪枝NVIDIA通过宽度剪枝压缩了Llama 3.1 8B模型,主要剪掉了嵌入和MLP中间维度。具体而言,NVIDIA使用前面提到的基于激活的策略,计算每个注意力头、嵌入通道和MLP隐藏维度的重要性分数。随后: 6剪至3072。 值得注意的是,宽度剪枝后的一次性剪枝的语言模型损失高于深度剪枝,但经过短暂的再训练后,趋势发生了逆转。 准确性基准测试NVIDIA在以下参数下对模型进行了蒸馏: 表1展示了Llama-3.1-Minitron 4B模型(宽度剪枝和深度剪枝变体)与原始Llama 3.1 8B模型及其他类似大小模型在多个领域基准测试中的比较结果。整体上,NVIDIA再次确认宽度剪枝策略相比深度剪枝的有效性,这符合最佳实践。 性能基准测试NVIDIA使用NVIDIA…
Google前CEO的AI预言:未来两年将让你震惊
AI的颠覆性未来:从Eric Schmidt的角度看 前谷歌CEO埃里克·施密特(Eric Schmidt)在斯坦福大学的一次小型讨论会上透露了他对人工智能未来的最新看法,揭示了AI技术快速变化的内在不确定性、速度和规模。这次讨论由施密特的好友、斯坦福经济学教授埃里克·布林约尔夫森(Erik Brynjolfsson)主持,吸引了众多思想深刻的讨论者。以下是一些值得注意的要点。 前所未有的不确定性 施密特承认,他每六个月就会修正自己对人工智能的看法,这显示了这个领域的高度不确定性。他曾在六个月前相信小型模型有机会推动AI前沿技术发展,但如今他已改变看法。他曾大力投资一些小型AI公司,如Mistal、Kyutai和Asari,如今他对这些投资是否明智产生了疑问。 这一转变反映了人工智能领域的动荡,即使像施密特这样熟悉行业动态的专家,也难以准确预见未来的趋势。仅仅六个月时间,他的观点就发生了180度大转弯,这足以说明AI领域的不确定性。 前所未有的速度 施密特描述了一种强大的技术组合,包括大上下文窗口、能够自我学习和改进的AI代理,以及从文本到动作的转换能力。他认为这些技术的影响将超出人们的想象,甚至比社交媒体带来的冲击更为巨大。 如今,AI模型已经能够处理大量上下文信息,未来的模型将会更加强大。例如,施密特提到的Claude模型已经可以在工作记忆中处理200k个令牌(大约15万字)。随着这些技术的不断进步,未来两年的发展速度和变革程度可能会超越过去两年。 前所未有的颠覆 施密特的一个极具挑衅性的例子展示了这些趋势的结合可能带来的影响。他设想一个场景,用户可以对大型语言模型(LLM)说:“给我制作一个TikTok的复制品,吸引所有用户,盗取所有音乐,按我的喜好定制这个程序,在30秒内发布,如果一小时内没有火起来,就换个类似的方式再试一次。” 虽然这种情景看起来像科幻,但它体现了AI技术在数字和物理产品迭代方面的潜力。施密特的这一例子显示了LLM的未来应用可能带来的巨大经济价值。 前所未有的规模 施密特还谈到了AI发展的投资规模。他指出,领先公司正在讨论的资金需求从100亿到3000亿美元不等。这不仅仅是资金问题,还涉及巨大的能源需求,甚至可能重塑地缘政治格局。施密特坦言,“我们国家没有足够的能源来支持这一发展。” 在迷雾中前行 尽管施密特所讨论的内容并不全是新鲜话题,例如关于上下文窗口的扩展、变化速度和规模挑战等问题已经讨论多年,但这次在斯坦福的小型课堂上,他在较少过滤的情况下分享了自己对AI的真实看法。这些观点不依赖于任何科学突破或人工通用智能(AGI)的到来,而是基于他对未来的实际判断。 施密特的观点提醒我们,AI领域的变化速度之快,以至于连行业的资深人士也难以跟上。这些即将到来的技术发展已经开始影响未来的规划,因此,我们是否已经做好了应对这些变化的准备?
Snowflake与Databricks:科技巨头之间的激烈竞争
Snowflake公司一直在寻找收购机会,其中一家初创公司Tabular看起来是一项极具潜力的资产,能够帮助这家软件公司在人工智能领域追赶竞争对手。Snowflake为此展开了独家谈判,拟以超过6亿美元的价格收购该公司。 然而,Snowflake的主要竞争对手Databricks突然介入,最终以近20亿美元的价格收购了Tabular。据知情人士透露,这个价格对于一家年收入仅约100万美元的初创公司来说是前所未有的。更令Snowflake尴尬的是,这笔交易恰巧在Snowflake年度大会的开幕主题演讲前宣布,新任CEO斯里达尔·拉马斯瓦米(Sridhar Ramaswamy)的演讲还没开始,Tabular的交易新闻就已经传遍了整个行业。 这场围绕Tabular的争夺战,揭示了科技行业中最激烈的竞争之一。Snowflake和Databricks正在争夺成为组织、分析和利用海量数据以支持AI应用的核心平台的地位。超过四十多名软件供应商的现任或前任员工、客户或合作伙伴参与了这篇报道,他们中的大多数人选择匿名,以避免在这个充满竞争的环境中遭受职业报复。这些员工还描述了一个日益增长的共识,即大型云基础设施提供商,尤其是微软公司,正对他们的业务构成最大威胁。 两家公司都成立于2010年代初期,最初在数据软件领域有各自的细分市场。它们曾相互推荐业务,甚至Databricks的营销团队也使用Snowflake进行数据分析。 但近年来,随着两家公司推出了重叠的产品,这种合作关系开始破裂。Snowflake发展迅速,并在2021年完成了有史以来规模最大的企业软件首次公开募股(IPO)。而如今,Databricks则成为全球估值最高的初创公司之一,市场对其IPO的期待也日益高涨。 曾被视为“小兄弟”的Databricks,现在通过积极的市场营销和销售策略,扮演了公开挑战者的角色。据多位知情人士透露,Databricks内部有一个名为“SnowMelt”的计划,旨在从Snowflake手中夺取业务,尤其是在数据仓库领域。销售人员还能通过将Snowflake客户迁移到Databricks的竞争服务上获得奖金。此外,Databricks的销售人员有时还会为潜在客户提供抵消Snowflake合同费用的积分,或者以大幅折扣争取客户。 Databricks的典型宣传是其平台不仅功能更全面,还能为企业节省更多成本,尤其是在处理复杂的非结构化数据时,Databricks在构建AI模型方面更有优势。销售团队会使用一款程序来估算客户从Snowflake迁移到Databricks后能够节省的金额。 Snowflake方面则声称自己的产品更便宜。“关于成本的说法让我抓狂,”Snowflake的产品负责人Christian Kleinerman在接受采访时表示。“我告诉客户,试试就知道了,去跑个代表性的基准测试。” Databricks的宣传通过广告广为传播。当参加Snowflake 2023年用户大会的与会者抵达拉斯维加斯时,机场和会场外的广告牌上都写着Databricks的产品比Snowflake便宜九倍。 Databricks的CEO阿里·戈德西(Ali Ghodsi)以言辞激烈的媒体采访和在LinkedIn上发布迁移案例或有利的基准测试结果而闻名。员工们回忆说,他们曾被要求在自己的社交媒体账户上点赞或分享这些帖子。 戈德西在采访中表示,挑战Snowflake帮助提高了Databricks的知名度。“两三年前,选择Snowflake作为数据仓库并不会让人丢掉工作——但我认为现在不再如此。”他说,现在他已经不再专注于将员工的注意力放在Snowflake身上,而是转向推广AI和数据治理等新产品。 尽管很难确定Databricks的成功是否归因于其激进的风格,但无论如何,Databricks的确发展迅速。根据今年6月的投资者演示,其收入增长正在加速。预计到7月,其年化经常性收入将达到24亿美元,其中与Snowflake直接竞争的新仓储产品贡献了超过4亿美元的收入。 Snowflake也没有忽视竞争。公司在过去12个月中报告了30亿美元的年销售额,但其增长速度仅为Databricks的一半左右。Snowflake的首席财务官Mike Scarpelli在采访中表示,公司盈利能力更强。“现实情况是,我们在盈利,而他们在烧钱。他们还能坚持多久?” 无论是Snowflake还是Databricks,都可以用来处理和分析大量数据。例如,一家航空公司可以使用这些工具来分析哪些乘客最有可能根据票价、目的地和天气情况取消航班。这个市场正在快速增长,且并非零和博弈——许多公司同时使用Databricks和Snowflake来处理不同类型的工作,而根据市场研究公司Enterprise Technology Research的数据,仍有无数公司在使用传统工具,这些公司都是这些平台的潜在客户。 今年7月,ETR对同时使用这两款软件的公司进行了调查,结果显示,更多的客户正在将工作负载转移到Databricks上,但绝大多数客户表示他们会继续使用两者。尽管如此,Databricks的首席营收官Ron Gabrisko表示,他预计从长远来看,客户将选择其中一个平台。 “我不知道他为什么如此痴迷于Snowflake,因为我并没有痴迷于Databricks。”Scarpelli在谈到戈德西时说道。 Snowflake作为更成熟的软件供应商,收入更高,言辞上却没有那么激烈。但它也自豪地宣称自己挖走了Databricks的客户,并推出了与Databricks竞争的产品,例如用于数据工程和机器学习的工具。“SparkAttack”是公司内部的一项计划,旨在从Databricks手中夺取机器学习工作流,这个名字则源于戈德西和其他Databricks高管团队创造的“Spark”技术。 Scarpelli还补充道:“他们展示了这些客户——实际上,这些客户几乎都是Snowflake的核心数据仓库客户,并且业务还在我们这里不断增长。”他还指出,“作为一家私营公司,他们可以随便说自己想说的话。” Snowflake的产品主管Kleinerman表示,Databricks的负面营销提出了诸如成本和产品广度等方面的主张,但这些主张在近年来并不准确。他指出,Snowflake在机器学习、非结构化数据和成本管理等产品领域取得了巨大的进展。 Snowflake主打的卖点之一是易用性,尤其是在公司之间共享数据方面。销售人员经常将该平台比作易于操作的iPhone,而Databricks则被比作高度可定制但有时容易出错的Android系统。两家公司都根据客户的使用量收费,类似于公用事业账单的模式,而不是应用软件中常见的固定费率订阅模式。提供计算能力和存储的云公司,如亚马逊的AWS,也采用这种收费方式。 总部位于加拿大的客户体验公司Bond Brand Loyalty通过将大部分数据工作标准化为Snowflake节省了成本并提高了性能。该公司数据部门负责人Francis Silva表示,由于技术要求较低的用户能够使用Snowflake,而他们无法轻松使用Databricks,这带来了明显的优势。 然而,Snowflake一直处于防守状态。由于华尔街担忧客户削减软件支出,这影响了公司的销售增长,其股价今年下跌了36%。最近,一场针对没有启用多因素身份验证的客户的黑客攻击活动引发了大量负面报道。 拉马斯瓦米,这位前谷歌广告业务负责人于今年2月接任Snowflake CEO,专注于推出新产品。Snowflake的首席财务官Scarpelli表示:“他的到来给公司带来了更多的活力——更强的紧迫感。” 拉马斯瓦米最初是通过2023年Snowflake收购的AI搜索初创公司Neeva加入公司的。据知情人士透露,当时Databricks也曾参与了Neeva的竞购。当拉马斯瓦米成为CEO时,Databricks的戈德西曾在接受彭博电视采访时表示,这与他们施加的压力有关。“我认为我们给了他们很大的压力,”戈德西说道。“Snowflake基本上没有在做任何与AI相关的工作。” 尽管这种竞争引发了人们对早期科技巨头之争的联想,但每家公司面临的最大竞争风险可能来自大型云服务提供商——微软、亚马逊和谷歌。这些巨头已经是数据计算基础层的必需品,如今他们正在改善自己的数据产品,具备了捆绑不同工具并可能以更低价格击败较小供应商的能力。 “我们现在看到的最大竞争对手实际上是谷歌的BigQuery,”Snowflake的Scarpelli说道,并指出微软也是一个正在崛起的威胁。 在Databricks内部,合作竞争的概念越来越常见。该公司与微软的长期合作关系依然紧密——由于通过Azure云服务销售的联合服务,Databricks的大量业务来自于使用微软云基础设施的客户。据知情人士透露,2017年底,微软曾与Databricks讨论过收购事宜。 微软一直在投资其竞争性的数据分析服务,并在去年将其重新命名为“Fabric”。这款软件与Power BI一起销售,后者是许多Databricks和Snowflake客户常用的数据可视化工具。作为全球最大的软件制造商,微软在今年7月的文件中首次将Databricks列为竞争对手。 Databricks产品高级副总裁Adam Conway谈到微软的Fabric时表示:“这是一款相对较新的产品。公开场合我就说到这里。”他还补充道:“我不担心其他公司会在创新方面超越我们。” 尽管合作关系仍然是官方立场,但Databricks似乎正在对微软采取更强硬的态度。今年早些时候,Databricks推出了自己的可视化工具,与Power BI直接竞争。一些销售人员还收到了新的反Fabric的宣传指导,而其他人则在研究类似“SnowMelt”的Fabric竞争代号。正如Databricks员工曾在社交媒体上对Snowflake发起攻击,他们现在也开始对微软发起攻势。上个月,一位主管在LinkedIn上发布了一篇关于Fabric的帖子,类似于过去经典的反Snowflake策略。 一名Databricks员工在LinkedIn上写道:“公告:如果你或你认识的人正在考虑使用Fabric作为数据平台或构建生成式AI应用程序,请务必仔细阅读条款,否则你可能会在某些工作负载上支付三倍的费用。”
前谷歌CEO埃里克·施密特的“急转弯”
前谷歌CEO埃里克·施密特(Eric Schmidt)近日因批评谷歌优先考虑“居家办公”而非击败竞争对手(如OpenAI)而登上头条,并在斯坦福大学的一次视频采访中告诉学生们,AI初创公司可以盗取知识产权,之后只需雇律师处理法律纠纷。如今,他已收回其中一个爆炸性言论。 尽管施密特因抨击谷歌的“有害”居家办公政策而受到广泛批评,但此前也有多位行业领袖表示同意他的看法。例如,OpenAI的CEO山姆·奥特曼(Sam Altman)曾认为该行业犯的“最大错误之一”是允许员工“永久远程办公”,Meta的CEO马克·扎克伯格(Mark Zuckerberg)也表示“居家办公的人效率不高”,而特斯拉的CEO埃隆·马斯克(Elon Musk)则称远程办公“在道德上是错误的”。