联邦通信委员会(FCC)对Lingo电信公司处以100万美元的民事罚款,该公司因使用AI生成的机器人电话模仿乔·拜登,企图在1月的新罕布什尔州初选中劝阻选民投票。 FCC调查发现,Lingo是由政治顾问史蒂夫·克莱默雇佣的。克莱默为竞争对手阵营工作,曾策划过类似的骗局。他因此被罚款600万美元,并面临26项刑事指控。 除了七位数的罚款外,Lingo(曾用名Ameritel、Excel和Startec等)还需要遵守更严格的规定,包括来电显示身份验证规则。 FCC还要求Lingo“彻底核实其客户和上游提供商所提供信息的准确性”,因为公众“有权知道电话另一端的声音是否如其所说”。 FCC称此次执法是针对AI驱动的深度伪造的首例,并迅速采取了强硬措施,以阻止其他政治操纵者利用AI冒充政治人物来操纵公众舆论。
Author: aitrendtrackers@rengongzhineng.io
去中心化计算:打破大科技对AI的垄断
过去两年里,人工智能技术呈现爆发式增长,大型语言模型(LLM)如ChatGPT、Dall-E和Midjourney已经成为日常工具。在读这篇文章的时候,生成式AI程序正在回复电子邮件、编写营销文案、录制歌曲,甚至根据简单的输入创建图像。 更令人惊讶的是,个人和企业接受AI生态系统的速度。根据麦肯锡的最新调查显示,至少在一个业务功能中采用生成式AI的公司数量在一年内翻了一番,从2023年初的33%增长到了65%。 然而,和大多数技术进步一样,这一新兴创新领域也面临着挑战。训练和运行AI程序是一个资源密集的过程,目前来看,大型科技公司似乎占据了上风,这就带来了AI集中化的风险。 AI发展的计算瓶颈根据世界经济论坛的一篇文章,AI计算的需求正在加速增长;目前,维持AI开发所需的计算能力年增长率在26%到36%之间。 另一项由Epoch AI进行的研究证实了这一趋势,预测未来训练或运行AI程序的成本将达到数十亿美元。 Epoch AI的研究员Ben Cottier指出:“自2016年以来,最大规模的AI训练运行成本每年翻两到三倍,这意味着到2027年,甚至更早,可能会出现数十亿美元的价格标签。” 事实上,这一趋势已经显现。去年,微软向OpenAI投资了100亿美元,最近又有消息称两家公司计划建设一个数据中心,该中心将由数百万个专用芯片驱动的超级计算机支撑。其成本高达1000亿美元,是最初投资的十倍。 当然,微软并不是唯一一个在AI计算资源上大手笔投入的科技巨头。其他参与AI竞赛的公司如谷歌、Alphabet和英伟达也在AI研究和开发上投入了大量资金。 虽然巨额投资可能带来相应的成果,但不得不承认,当前AI开发似乎成了一场“大科技”游戏。只有这些财力雄厚的公司才有能力为AI项目投入数十亿甚至数百亿美元。 因此,一个问题不禁浮现:如何避免像Web2创新那样,因为少数公司控制创新而导致的问题? 斯坦福HAI副主任兼研究主任James Landay对此曾提出看法。他认为,随着大型科技公司优先使用其AI计算资源,GPU资源的争夺将推动开发更便宜的硬件解决方案。 在中国,由于与美国的芯片战争限制了中国公司获取关键芯片的能力,政府已经开始支持AI初创企业。今年早些时候,中国地方政府推出了补贴计划,承诺为AI初创企业提供14万到28万美元的计算券,以降低计算成本。 去中心化的AI计算成本从目前的AI计算现状来看,有一个共同点——整个行业高度集中。大科技公司控制了大部分计算能力和AI程序。事情越变越大,但本质却未曾改变。 不过,值得期待的是,这一次事情可能会有所不同,这要归功于像Qubic Layer 1区块链这样的去中心化计算基础设施。这种L1区块链使用了一种先进的挖矿机制,被称为“有用的工作量证明”(uPoW);与比特币传统的PoW不同,Qubic的uPoW利用其计算能力执行诸如训练神经网络等生产性AI任务。 简而言之,Qubic通过离开当前的范式,将AI计算资源的获取去中心化,不再局限于创新者拥有的硬件或从大科技公司租借的硬件。相反,它利用其可能达到数万台矿机的网络来提供计算能力。 虽然这一方式比让大科技公司处理后台问题更为技术化,但去中心化的AI计算资源获取方式更具经济性。而且,更重要的是,AI创新应该由更多利益相关者推动,而不是依赖当前行业的少数玩家。 如果这些公司都出现问题会怎样?更糟糕的是,这些科技公司在处理影响深远的技术进步时已经被证明不够值得信赖。 如今,大多数人对数据隐私侵犯问题感到愤怒,更不用提其他相关问题如社会操纵了。有了去中心化的AI创新,监控开发进展变得更容易,同时也降低了进入的成本。 结论AI创新才刚刚起步,但获得计算能力的挑战仍然是一个阻力。更糟的是,目前大科技公司控制了大部分资源,这对创新速度造成了巨大挑战,不仅如此,这些公司可能最终掌握更多对我们数据的控制权——这可是数字时代的“黄金”。 然而,随着去中心化基础设施的出现,整个AI生态系统有望降低计算成本,并消除大科技公司对21世纪最有价值技术的控制。
GPT-4o微调功能现已上线
今天,开发者最期待的功能之一终于上线了:GPT-4o微调功能!而且,在9月23日之前,每个组织每天还能免费获得100万个训练代币。 现在,开发者可以通过定制数据集来微调GPT-4o模型,以更低成本获得更高性能。微调可以帮助模型定制响应的结构和语气,甚至让它处理特定领域的复杂指令。仅用几打训练示例,开发者就能让应用表现出色。 从编程到创意写作,微调对各类领域的模型表现都有巨大提升。这只是个开始,未来会有更多模型定制选项供开发者使用。 如何开始? 今天起,所有付费等级的开发者都可以使用GPT-4o微调功能。只需访问微调控制台,点击创建,并从基础模型下拉菜单中选择gpt-4o-2024-08-06。GPT-4o微调训练费用为每百万代币25美元,推理费用为每百万输入代币3.75美元,输出代币15美元。 GPT-4o mini微调也对所有付费等级的开发者开放。每天提供200万个免费训练代币直至9月23日。开始使用,访问微调控制台,选择gpt-4o-mini-2024-07-18。 想了解更多微调使用方法,访问官方文档吧。 GPT-4o微调性能登顶! 过去几个月,官方与几家值得信赖的合作伙伴合作,测试GPT-4o的微调功能,并研究了他们的使用场景。以下是一些成功案例: Cosine公司在SWE-bench基准测试中取得SOTA成绩 Cosine的AI软件工程助手Genie,能够自动识别并解决bug、构建新功能、优化代码,与用户协同处理复杂技术问题。Genie使用了微调后的GPT-4o模型,基于真实软件工程师的工作示例进行训练,模型学会了如何以特定方式回应问题,还能输出易于提交到代码库的补丁格式。 通过微调的GPT-4o模型,Genie在上周二发布的SWE-bench Verified基准测试中取得了43.8%的SOTA成绩,在SWE-bench Full中也以30.08%的成绩刷新了之前的19.27%的纪录,成为历史上最大幅度的提升。 Distyl公司在BIRD-SQL基准测试中排名第一 作为多家财富500强企业的AI解决方案合作伙伴,Distyl公司最近在BIRD-SQL基准测试中夺得第一。Distyl微调后的GPT-4o在执行准确率方面达到了71.83%,并在查询重构、意图分类、思维链和自我纠错等任务中表现优异,尤其是在SQL生成方面表现突出。 数据隐私与安全 微调后的模型完全由用户掌控,业务数据(包括输入和输出)全权归客户所有,确保数据不会被分享或用于训练其他模型。同时,官方也实施了分层安全措施,自动安全评估微调模型,监控使用情况,确保符合使用政策。 官方期待开发者利用GPT-4o微调功能构建更多精彩应用。如果有更多定制需求,随时联系团队获取帮助!
SearchGPT vs. Google Search
2024年7月25日,OpenAI宣布推出了一款名为SearchGPT的全新AI搜索引擎原型,这款产品将搜索从传统的基于关键词的方式转变为对话式的搜索体验。我们将能够用自然语言来提问,就像在与人交谈一样。这与传统搜索引擎需要输入特定关键词以找到信息的方式有着显著的不同。 但是,SearchGPT真的能与Google竞争吗?SearchGPT与AI Overviews又有何不同?此外,SearchGPT和ChatGPT的区别是什么?请继续阅读,了解这些问题的答案。 什么是SearchGPT? SearchGPT是OpenAI开发的一款原型搜索引擎,旨在利用人工智能提升搜索体验。它不仅仅是一个类似于ChatGPT的聊天机器人,虽然它确实包含了一些对话式元素。让我们来看看它的核心功能。 直接回答 与仅仅提供一系列链接不同,SearchGPT会直接回答用户的提问。例如,如果你问SearchGPT“2024年最佳的无线降噪耳机是什么?”它应该能够直接总结出几款顶尖候选产品,并根据专家评论和用户反馈概述它们的优缺点。 这种方式与传统的搜索引擎形成对比,后者通常会提供一系列通向不同文章或视频的链接,用户需要自行筛选信息。 相关来源 SearchGPT的答案会附带清晰的引用和链接,确保信息的透明性和准确性。这使得用户可以轻松核实信息并进一步探索话题。 对话式搜索 SearchGPT允许用户与搜索引擎进行对话。这意味着用户可以基于收到的回复提出后续问题或优化初始查询,从而带来更互动和个性化的搜索体验。 SearchGPT与Google的对比 人们纷纷讨论SearchGPT可能成为未来Google最强劲的竞争对手。让我们来看看它们在搜索功能上的不同表现。 对话式搜索与关键词搜索 SearchGPT使用对话界面,允许用户通过自然语言提问,并通过后续互动来优化查询。这带来了更动态、更互动的搜索体验。 相比之下,Google依赖传统的关键词搜索,用户输入搜索词后会得到相关网页的列表。 直接回答与链接列表 SearchGPT的一大特点是能够直接回答问题。它会从多个来源总结信息,并清楚地引用这些来源,使用户能够在不需要点击多个链接的情况下快速获取所需信息。 而Google通常会提供相关网站的链接列表,用户需要自己浏览结果并找到所需信息。 Perplexity AI的联合创始人兼CTO Denis Yarats表示:“Google的搜索引擎是人类有史以来最复杂的机器之一,但我认为在某些方面还是有提升空间的。特别是,当你不需要筛选10个链接并进行大量手动操作时,可以节省大量时间。” 如果你想听到Denis Yarats的更多观点,可以查看这个关于Perplexity和AI未来的DataFramed播客。 AI驱动的理解与关键词匹配 SearchGPT通过AI语言模型理解用户查询背后的意图。这使得它即使在用户的查询措辞不完美或使用模糊术语时,依然能够提供更具上下文相关性的结果。 而Google的主要机制是关键词匹配,这有时会导致与复杂或微妙的查询不太相关的结果。 动态上下文与孤立搜索 SearchGPT能够在多次互动中保持上下文,允许用户在之前问题的基础上继续提问,并获得更个性化的回应。这使得搜索体验更像是在与一位知识渊博的助手对话。 而Google的每次搜索通常被视为一个孤立的查询,不记忆之前的互动。 最新信息与全网爬虫 SearchGPT旨在通过使用实时数据提供及时和准确的信息。这意味着用户更有可能获得最新的相关信息。 Google的网页索引虽然庞大,但可能包含过时或不太相关的信息。 SearchGPT与AI Overviews的对比 SearchGPT和AI Overviews都使用人工智能,但它们在方法和提供的详细程度上有所不同。不过需要注意的是,SearchGPT和AI Overviews都处于活跃开发阶段,它们的功能和特点可能会随着时间的推移而发生变化并趋同。 相似之处 让我们首先看看SearchGPT和AI Overviews之间的相似点: 不同之处 SearchGPT可能更适合需要深入研究和透明来源的用户,而AI Overviews则可能更适合那些寻求快速总结和入门信息的用户。 特点 SearchGPT AI Overviews 来源引用 清晰显著的引用,并提供直接链接到原始来源,便于核实 提供链接,但引用可能不如SearchGPT清晰或直接 对话能力 允许动态互动,支持后续问题和上下文保留…
Waymo第六代无人驾驶技术亮相:更少传感器,更高效率
Alphabet旗下的Waymo于周一公布了其最新的“第六代”自动驾驶技术细节。这项新的无人驾驶技术被集成到了吉利旗下的极氪电动车中,能够应对更广泛的天气条件,同时减少了对昂贵摄像头和传感器的依赖。 Waymo邀请CNBC前往其位于加州山景城的车库参观正在开发中的新型机器人出租车。Waymo工程副总裁Satish Jeyachandran表示,团队“有信心比上一代更快将这一代产品推向市场”,这得益于机器学习技术和半导体性能的进步。 Waymo的商业机器人出租车服务于2018年末在美国首次上线。此前,该公司将其无人驾驶系统集成到克莱斯勒Pacifica混合动力小型货车和全电动捷豹I-PACE SUV中。 随着Waymo努力扩大其现有服务Waymo One的规模,管理层正在分享即将推出的机器人出租车的细节。目前,Waymo One服务已覆盖旧金山、凤凰城、奥斯汀和洛杉矶等“阳光地带”城市。 如今,Waymo每周提供大约50,000次付费的无人驾驶行程,主要在旧金山和凤凰城。今年6月,该公司取消了旧金山的等候名单,向所有用户开放了Waymo乘车服务。截至目前,Waymo已完成了超过200万次行程。 上个月,Alphabet宣布将向其自动驾驶汽车部门再投资50亿美元。Waymo最早始于2009年谷歌内部的“项目司机”计划。 Jeyachandran告诉CNBC,这笔资金将主要用于扩大规模,包括在第六代机器人出租车测试和验证完成后,向车队添加新车型。他还表示,Waymo的捷豹I-PACE和极氪车辆将“共存”。 即将推出的Waymo-Zeekr车型更为方正,车身大小与现有的Waymo I-Pace SUV相当。 不过,极氪的内部设计可能对某些乘客更为友好。它拥有较低的踏板、更高的车顶和更宽敞的座椅间距等特点。 Waymo还继续定制开发了传感器和软件,包括激光雷达和雷达等,安装在极氪周围,使汽车系统能够获得“360度视野”来识别和避开障碍物。这些传感器还配备了刮水器,以清除大部分污垢和降水。 为了降低每辆机器人出租车的成本,Waymo表示已将车载摄像头数量从29个减少到13个,激光雷达传感器从5个减少到4个。公司目前正在公共道路上测试第六代车型,车上配有专业驾驶员。 Waymo还在底特律、纽约布法罗等地进行测试和验证,以了解其无人驾驶汽车在不同交通和天气条件下的表现。 尽管滴滴和Pony.ai的商业机器人出租车服务已在中国上线,但Waymo目前在美国几乎没有竞争。国内方面,通用旗下的Cruise遇到了一些问题,导致其无人驾驶车辆暂时停运,而Uber和福特则停止了早期的无人驾驶努力。特斯拉尚未推出无人驾驶汽车,但计划在10月发布其“专用机器人出租车”。
Roblox的持续增长与盈利挑战:从全球现象到运营难题
每个人都知道Roblox非常庞大。然而,随着COVID逐渐被遗忘,Roblox从“新颖”变成了“熟悉”,在游戏行业经历了近25年来最大的收缩时,这个平台却持续增长,而且增长势头不断加快。结果,Roblox的实际规模与人们对其的认知之间出现了显著的差距。 每天有超过8000万用户登录Roblox。作为一个历史性的对比,这意味着每10分钟左右就有比Second Life巅峰时期一个月还多的人登录Roblox。根据RTrack的数据,Roblox现在每月的用户数量超过3.8亿,是PC游戏领导者Steam的两倍,是索尼PlayStation的三倍,是任天堂Switch一年内独立用户的三倍,也是过去十年中购买Xbox主机人数的五倍。即使考虑到这些平台之间的用户重叠,以及Switch月活跃用户和年活跃用户之间的差距,Roblox的月活跃用户可能比整个AAA游戏生态系统的用户还要多。此外,NPD/Circana报告称,Roblox通常是PlayStation和Xbox上最受欢迎的3到7款游戏之一(Roblox无法在Switch或Steam上使用),而SensorTower表示,2023年,Roblox的iOS/Android月活跃用户数超过了任何其他游戏(包括Candy Crush!)。 与其最相似的竞争对手——社交虚拟世界平台Minecraft和Fortnite相比,Roblox的月活跃用户数分别是它们的5倍和2.25倍。对于非游戏玩家来说,Roblox的月活跃用户大约是Spotify的三分之二,是Snap的二分之一(尽管其日活跃用户与月活跃用户的比例可能较低),并且大致与2015年第四季度的Instagram和2009年第三季度的Facebook的受欢迎程度相当。 每个月,玩家在Roblox上花费近60亿小时。这还不包括观看Twitch或YouTube上的Roblox内容的时间——YouTube是全球最大的视频平台,非实时游戏内容是其第二大受欢迎的类别,而Roblox是其中五个最受欢迎的游戏之一。据估计,Disney+账户平均每月观看时间不会超过20小时,这意味着每月总观看时间约为31亿小时——还不到Roblox总时间的一半。 不仅Roblox非常受欢迎,而且它的增长令人震惊地线性化(尽管存在季度间的季节性波动,这在所有媒体产品中都很常见,尤其对Roblox来说,因为其用户中儿童比例较高,受学校日程影响较大)。即便在其现有规模下,仍然难以否认其增长的可持续性,平台的月活跃用户可能会突破5亿,日活跃用户达到1亿。这种增长也具有韧性。与其他所谓的“疫情宠儿”如Zoom、Shopify和Peloton不同,Roblox在疫情后并未出现收缩。相反,它保持了疫情期间的“前移”增长势头,并继续加速增长。 Roblox的增长构成也非常健康。平台日活跃用户占月活跃用户的比例从疫情前的16%-19%增长到现在的22%。每位日活跃用户和月活跃用户的游戏时间也有所增加,表明新用户的参与度并不低。年龄在13岁以上的玩家比例从40%增长到58%(现在13岁以上的用户数量是疫情前所有年龄段用户的2.5倍)。尽管美国和加拿大的玩家数量自疫情以来增长了250%,但其占总用户群的比例从35%下降到22%,因为亚太地区和其他地区的用户分别激增了650%和750%,使其份额从约16%和21%增长到24%和27%。全球玩家比例几乎与全球游戏时间比例完全一致,表明Roblox与所有主要社交平台一样,是一个全球现象。 尽管Roblox的玩家群体从高收入市场多元化到更多的发展中市场,但每月和每日活跃用户的收入相比疫情前有所增加(尽管消费比疫情高峰期有所下降,但当时消费因新用户激增而被推高,这些新用户在他们空虚的虚拟衣橱里大笔消费)。更令人印象深刻的是,即使现在用户每月的游戏时间比Roblox历史上的任何时候都多(除了疫情高峰期),每小时的消费也比疫情前有所上升。换句话说,Roblox继续扩大其吸引力、使用量和货币化能力。 Roblox的年消费额已超过38亿美元,预计到今年年底将突破40亿美元,其中四分之一归开发者所有。考虑到这些数字,Roblox用户的生产力也极高。2022年,Roblox用户每天设计了17万件虚拟服装和配饰,创造了1.5万个虚拟世界(尽管目前的具体数据不详,但每日用户数已增长40%,创作的便利性和输出质量也有所提升)。超过100个用户创建的世界的游戏次数已超过10亿次(其中一个世界的游戏次数超过50亿次)。 因此,是的,Roblox无疑“运转良好”。然而,Roblox仍未盈利。而且亏损非常严重。更糟糕的是,Roblox的亏损还在增加,因为其收入增长的速度被成本增长的速度超过。在过去四个季度中,Roblox的运营收入为(-12亿美元),而收入为32亿美元,利润率为-38%。在疫情前的四个季度中,收入为(6600万美元),而收入为5.08亿美元,利润率为-13%。换句话说,收入现在是6.2倍,但亏损是18倍。这并不是一家典型公司的发展路径,尤其不是一家像Roblox这样规模的平台型科技公司。那么,这背后的原因是什么?这一答案又有什么意义呢? 增长,但没有利润 显然,Roblox存在成本问题。在过去的12个月里,它的平均成本为每100美元收入138美元。 不幸的是,许多这些成本是Roblox无法控制的。首先,平均有23%的收入被各种应用商店和平台费用消耗(这个比例低于30%,因为大约20%的销售额是通过浏览器或PC直接完成的,在这种情况下,Roblox只需支付信用卡处理费用,而不必支付30%的商店佣金)。另有26%的收入支付给Roblox的UGC开发者。尽管公司理论上可以减少这些支付,但这样做会损害品牌和开发者的投资,而这两者都推动着收入增长。事实上,Roblox希望增加收入分成,这将使开发者能够向平台投入更多资金(许多开发者也对他们仅获得所产生收入的四分之一感到不满)。总的来说,Roblox在其自身成本之前就已经损失了49%的收入(更不用说利润的可能性了)。 基础设施和信任与安全的费用平均占收入的28%,比峰值时的37%有所下降,但仅比其六年平均水平低一个百分点。 与应用商店费用和开发者收入分成不同,这些费用并不是严格的边际费用。Roblox的运营每小时都有固定成本,而且这个成本并不低,但如果用户增加他们的消费,这个成本并不会增加。因此,这一类别的成本占收入的比例可能会下降。然而,这并不容易。例如,增加消费的最直接方式通常是增加游戏时间,但这会导致服务成本的增加(Roblox的用户数量是PlayStation的三倍,但游戏时间仅多50%,因为Roblox的玩家每月玩游戏的时间只有一半)。 为了吸引更多玩家——尤其是那些有更多消费能力并且可以自由支配资金的成年玩家——增加每位玩家的游戏时间以及每位玩家和每小时的消费,Roblox还在投资运营成本更高的体验,比如生成式AI。Roblox越来越关注利用生成式AI提供实时玩家通讯功能(如转录和翻译),同时还用于资产和世界的创建,运营AI代理和NPC——所有这些都不便宜。此外,该公司还在深度投资更多的AI工具和人类审核员,以应对骚扰、掠夺行为等问题。2024年8月,土耳其为了“保护我们的孩子”全面禁止了Roblox;一个月前,彭博社发表了一篇严厉的报道,揭露了该平台的“恋童癖问题”。 所以,在Roblox六大成本类别中的前三个已经消耗了77%的收入。接下来的三个类别的成本今天同样高,但它们相比之下有更多的改进空间,并且更多地受到Roblox的控制。一般管理和行政费用(13%)以及销售和市场费用(5%)相比几年前有所下降,并且应该会继续下降。即便Roblox将这些类别的成本削减三分之一,也只能减少六个百分点,而它们距离盈亏平衡还差三十八个百分点。 最大和最有趣的成本类别是研发。作为一个平台,研发不仅是Roblox当前规模的基础,它对所有未来的增长都至关重要——为此,公司将大量当前收入重新投入,以推动未来收入的增长(该公司有这样做的历史,这也是为什么它现在如此庞大的原因)。具体来说,Roblox工具和能力的改进有助于吸引开发者,并使他们能够创造“更好”和“更多”的体验,这有助于吸引更多用户,留住随着年龄增长的用户,并鼓励更多的用户消费——所有这些都增加了Roblox的收入,从而为更多的研发提供资金,并为开发者提供更多资金,他们可以进一步投资于他们的体验。如前所述,Roblox的大部分研发投资都集中在生成式AI上。Roblox创始人兼CEO David Baszucki表示,他相信生成式AI将使用户能够在2028年之前通过输入文字或语音来创建整个世界。今年早些时候,该公司还开始演示这些工具,包括详细的物体组件和属性(例如,当创建一辆车时,它由多个部分组成,而不仅仅是一辆“车”,这辆车不仅可以移动,还具有反射能力,能够承受和造成损害等属性)。Roblox还表示,他们正在努力将大规模语言模型(LLM)集成到他们的NPC中,以实现实时翻译。通过降低创建Roblox体验的成本、时间和难度,同时增强这些体验的沉浸感并促进更多/更轻松的社交游戏,Roblox应该能够增加该平台的受欢迎程度、使用量和收入。 同时,Roblox的研发投资也非常巨大。研发现在平均占收入的44%,相当于15亿美元的年化支出。相比之下,索尼的PlayStation预计在2024年的研发支出为22亿美元,这些投资涵盖了其二十一个相对独立的工作室、虚拟现实设备、配件(包括基于云的PlayStation Portal)、PlayStation 6(据传还有掌机)、网络技术等多个领域。2024年,Unity Technologies的研发支出“仅”为11亿美元,即使是对《侠盗猎车手VI》最为幻想的(无疑也是过高的)预期,预计其总开发成本也将接近10亿美元,耗时接近十年。很难想象研发支出会随着销售额的增长而继续增加——更不用说超过销售额的增长,就像过去几年那样。对于大多数大型科技公司,研发费用通常会稳定在收入的6%到12%之间。然而,即使研发费用下降到10%(大约与Spotify和Uber的支出相当),Roblox仍然无法盈利。 尽管Roblox没有盈利,但这一情况也有一些重要的补充说明。在过去的12个月中,运营现金流——一个比会计定义的利润更重要的指标——为6.5亿美元,占收入的20%左右。Roblox在过去至少24个季度中一直保持现金流为正。这难道不是一个“运转良好”的企业吗? 部分原因是Roblox的收入确认方式。当用户购买30美元的Robux(Roblox的虚拟货币)时,平台会记录30美元的预订收入。大约3美元会被立即消费在“消耗品”(即单用户或其他可消耗的商品)上,因此Roblox会立即将这3美元计为收入。剩余的27美元则花在“耐用品”上,如虚拟角色的服装。由于虚拟角色可以并且通常会长期使用,因此Roblox会在Roblox用户的平均生命周期内分摊这部分收入。当前,这个生命周期为27个月,因此剩余的27美元会在接下来的27个月里,每个月分摊1美元,这意味着第一个月的总收入为4美元(3美元+1美元),而26美元被递延。 Roblox的会计做法通常被认为是保守的。举个例子,Roblox指出,用户通常会在三天内用完他们新购买的Robux。而不像Roblox的收入确认政策所暗示的那样,用户不会花费两年以上的时间来花完他们的Robux账户余额。这一政策在一定程度上减少了会计利润,但当用户支出总额增加时,它会压缩账面利润。通常情况下,Roblox每个季度的预订收入(即用户在该季度内花费在Roblox上的金额)比Roblox确认的收入高出约23%。 不过,这种会计方法并不能完全掩盖Roblox目前的成本问题,但正是这些额外的因素使Roblox仍然能够保持健康的现金流,即使账面上还没有显现盈利能力。
Waymo的自动驾驶出租车停车场仍然在把旧金山的邻居们从梦中吵醒
旧金山的一些居民住在Waymo停车场旁边的楼里,最近一直被深夜的喇叭声吵得心烦意乱。尽管Waymo公司已经尝试解决了最初的问题——即停车场内汽车鸣笛的情况,但事情似乎比想象中更复杂。 上周Waymo公司解释说,这些鸣笛声是因为当Waymo车辆检测到另一辆车倒车靠近时,会触发安全功能。Sophia Tung,一位在YouTube上直播停车场情况的博主,向《The Verge》透露,Waymo推出修复方案的第一晚,几辆汽车没有正确进入停车场,反而莫名其妙地开进了她楼旁的死胡同。在她录制的视频中,这些车辆在胡同里堵住了,然后开始疯狂按喇叭。 Tung还提到,Waymo公司很快采取行动,完全禁止了车辆进入那个死胡同,并举办了一个冰淇淋社交活动来安抚附近的居民。她说,这之后的几天倒是清静了不少。 然而,今天凌晨,问题再次出现。这次是因为大量Waymo自动驾驶出租车同时返回停车场,结果排队的车辆太多,导致其中一辆车开始倒车,触发了连锁反应——接连几辆Waymo车都开始倒车、按喇叭,场面一度失控。 Tung表示,她已经联系了Waymo,反映了这次新的喇叭问题。同时,她计划在明天直播中与Waymo产品管理和运营总监Vishay Nihalani进行对话,时间定在东部时间下午5点30分。
AI赋能游戏世界:从NPC互动到超现实视觉体验的改变
AI无处不在,如果你正在浏览这个网站,可能早就察觉到了!不过,有一个领域我们很少去思考AI的影响,那就是游戏。毕竟,对于许多人来说,玩游戏是逃离现实、放松心情的时刻。 然而,游戏行业正是AI产生深远影响的领域之一。现在,让我们来看看AI正在如何改变游戏体验的几个方面。 AI增强了NPC互动 AI被用来训练NPC(非玩家角色)更加逼真地模拟人类行为,这是一项非常有趣的应用。比如,NPC会对环境做出反应:如果下雨了,他们可能会躲到树下,或者撑起一把伞。此外,NPC的反应也会因玩家的选择而不同。比如,当玩家向NPC要钱时,他们可能会态度粗鲁,而如果玩家送礼物,他们可能会表现得友好和感激。更复杂的行为也在被训练,比如竞争关系——就像《荒野大镖客2》中的兄弟俩经常针锋相对。所有这些特性使得与NPC的互动变得更加有趣,而不再是例行公事。 AI在在线赌场的应用 在线赌场在利用技术方面一直走在前沿,旨在为用户提供全新的体验。AI在这其中发挥了重要作用,帮助在线赌场更好地理解用户需求,同时保障用户安全。AI能够检测账户上的异常行为,这可能表明存在欺诈风险。因此,AI会将这些行为标记出来,交由反欺诈团队核实,从而防止不良事件的发生。由于AI比人类更擅长(且更快)发现模式,一旦发现异常,它就会提醒团队,从而节省了大量人力。 社交赌场也充分利用了AI,尤其是在了解用户需求方面。社交赌场与普通在线赌场类似,但玩家可以享受没有财务风险的游戏体验。AI在社交赌场中尤为重要,尤其是在游戏推荐方面。许多社交赌场都有一个动态主页,通过AI为玩家推荐精心挑选的游戏。AI不仅在这方面发挥作用,实际上,你可以在Oddschecker等平台查看对领先社交赌场平台的深入分析和比较,进一步了解AI的影响。 AI调整难度和内容 AI在主机游戏领域的表现也同样出色。许多大型游戏大作都在使用AI来创造更加接近现实的游戏体验。AI在生成动态故事情节和任务方面展现出了巨大潜力,这些内容基于玩家的行为进行个性化定制。这意味着每个玩家的故事线可能都不相同。以前这种定制化体验需要大量人力才能实现,而现在,AI甚至能够实时调整游戏难度,使其与玩家的技能水平相匹配。如果你发现某款游戏突然变得简单了,可能是AI正在悄悄帮你一把呢! AI在视觉效果方面也表现优异。像AI超分辨率技术可以通过降低噪点,将低分辨率的图像转化为高分辨率的图像。而光线追踪技术则能营造出更加逼真的光影效果,比如光线从水坑中反射,或雨滴在脸上投下阴影。正是这些精细的细节,使得未来的超现实游戏体验提前来到今天。
Geekbench AI 1.0正式发布:AI性能评估
Primate Labs正式发布了Geekbench AI,这是一款专为机器学习和AI工作负载设计的基准测试工具。https://www.geekbench.com/ai/download/ Geekbench AI 1.0的发布标志着多年研发工作的成果落地,这一过程还得益于客户、合作伙伴以及AI工程社区的共同努力。在预览阶段,这款工具被称为Geekbench ML,现在更名为Geekbench AI,以符合行业术语并确保用途明确。 Geekbench AI现已在Primate Labs官网上线,支持Windows、macOS和Linux系统。同时,移动端用户也可以在Google Play和苹果App Store下载使用。 Primate Labs推出的这款基准测试工具,旨在为不同平台和架构的AI能力提供统一的评估标准。与传统方法不同的是,Geekbench AI采用了独特的三分评分体系,反映了AI工作负载的复杂性和异质性。 Primate Labs表示:“衡量性能并不简单,这并不是因为运行测试困难,而是因为很难确定哪些测试对性能评估最为重要,尤其是在不同平台之间,且每个平台的实现方式略有不同。” 三分评分体系考虑了现代AI实现中不同精度级别和硬件优化的差异性。这种多维度的评估方式,使开发者、硬件供应商和技术爱好者能更深入了解设备在不同场景下的AI表现。 Geekbench AI的一个显著新增功能是每项测试的准确性测量,这表明AI性能不仅仅关乎速度,还与结果质量密切相关。通过结合速度和准确性指标,Geekbench AI提供了更加全面的AI能力评估,帮助用户理解性能与精度之间的权衡。 Geekbench AI 1.0支持多种AI框架,包括Linux和Windows上的OpenVINO,以及安卓系统上的特定厂商TensorFlow Lite扩展,如三星ENN、ArmNN和高通QNN。广泛的框架支持确保了基准测试反映了AI开发者使用的最新工具和方法。 这款工具还使用了更广泛且多样化的数据集,不仅提升了准确性评估,还更好地代表了现实世界中的AI使用场景。Geekbench AI 1.0中的所有工作负载运行时间至少为一秒,以确保设备在测试过程中达到最大性能,同时仍然能够反映出现实应用中突发性运算的特点。 Primate Labs还发布了详细的技术说明,介绍了Geekbench AI 1.0中使用的工作负载和模型,强调了其对透明度和行业标准测试方法的承诺。该基准测试工具与Geekbench Browser集成,方便跨平台比较和结果分享。 公司预计将定期更新Geekbench AI,以跟上市场变化和新兴AI功能的发展。然而,Primate Labs相信,Geekbench AI已经达到了足够的可靠性,可以集成到专业工作流程中。包括三星和英伟达在内的主要科技公司已经开始使用这款基准测试工具。
通过剪枝与知识蒸馏优化大型语言模型:NVIDIA在Llama 3.1模型上的实践与创新
大型语言模型现在在自然语言处理和理解领域占据了主导地位,凭借其高效性和多功能性脱颖而出。像Llama 3.1 405B和NVIDIA Nemotron-4 340B这样的大型语言模型在许多具有挑战性的任务中表现出色,包括编程、推理和数学。然而,这些模型的部署需要大量资源。因此,业界也在兴起另一种趋势,即开发小型语言模型。这些小型语言模型在许多语言任务中同样表现出色,但部署成本更低,更适合大规模应用。 最近,NVIDIA的研究人员表明,结合结构化权重剪枝和知识蒸馏是一种从大型模型逐渐获得小型模型的有效策略。NVIDIA Minitron 8B和4B就是通过剪枝和蒸馏其15B的“大型兄弟”NVIDIA Nemotron系列模型而得来的。 剪枝和蒸馏带来了多种好处: 该论文还提出了一套实用且有效的结构化压缩最佳实践,这些实践结合了深度、宽度、注意力和多层感知器剪枝,并通过基于知识蒸馏的再训练实现。 NVIDIA首先讨论这些最佳实践,然后展示它们在Llama 3.1 8B模型上的应用效果,得出Llama-3.1-Minitron 4B模型。Llama-3.1-Minitron 4B在与同类大小的开源模型(包括Minitron 4B、Phi-2 2.7B、Gemma2 2.6B和Qwen2-1.5B)的对比中表现优异。Llama-3.1-Minitron 4B即将发布到NVIDIA HuggingFace集合中,等待审批。 剪枝与蒸馏剪枝是使模型变得更小、更精简的过程,方法包括丢弃层或丢弃神经元、注意力头和嵌入通道。剪枝通常伴随一定量的再训练以恢复准确性。 模型蒸馏是一种技术,用于将大型复杂模型中的知识转移到较小、较简单的学生模型中。其目标是在保持原始大型模型大部分预测能力的同时,创建一个运行速度更快、资源消耗更少的高效模型。 经典知识蒸馏与SDG微调蒸馏主要有两种方式: 这两种蒸馏方式是互补的,而非互斥的。NVIDIA主要关注经典知识蒸馏方法。 剪枝与蒸馏过程NVIDIA提出了一种结合剪枝与经典知识蒸馏的资源高效再训练技术。 NVIDIA从一个15B的模型开始,评估每个组件的重要性(层、神经元、注意力头和嵌入通道),然后将模型修剪到目标大小:8B模型。NVIDIA使用教师模型作为学生模型的教师,通过模型蒸馏执行轻量再训练过程。训练完成后,小型模型(8B)作为起点进一步修剪和蒸馏到更小的4B模型。图1显示了逐步剪枝和蒸馏模型的过程,从15B到8B,再从8B到4B。 重要性分析要对模型进行剪枝,关键是要了解模型的哪些部分是重要的。NVIDIA建议使用一种基于激活的纯粹重要性估算策略,该策略通过使用小型校准数据集和仅前向传播计算,同时计算所有考虑轴(深度、神经元、头和嵌入通道)的敏感度信息。与依赖梯度信息且需要后向传播的策略相比,这种策略更加简单且具成本效益。 虽然可以针对给定的轴或轴的组合在剪枝和重要性估算之间反复交替进行,但NVIDIA的实验证明,使用单次重要性估算已经足够,迭代估算并没有带来任何好处。 经典知识蒸馏再训练图2展示了学生模型从教师模型蒸馏的过程。学生通过最小化嵌入输出损失、logit损失和变压器编码器特定损失的组合进行学习,这些损失映射在学生模型的S块和教师模型的T块之间。 剪枝与蒸馏最佳实践基于在《通过剪枝和知识蒸馏压缩语言模型》中进行的广泛消融研究,NVIDIA总结了几个结构化压缩的最佳实践: 尺寸: 剪枝: 再训练: Llama-3.1-Minitron:实践最佳实践Meta最近推出了功能强大的Llama 3.1模型系列,这是首批在许多基准测试中可与闭源模型相媲美的开源模型。Llama 3.1的规模从巨大的405B模型到70B和8B不等。 NVIDIA借鉴了Nemotron蒸馏的经验,开始将Llama 3.1 8B模型蒸馏为更小、更高效的4B模型: 教师微调为了纠正模型在原始数据集上的分布偏移,NVIDIA首先在数据集上对未剪枝的8B模型进行了微调。实验表明,如果不纠正分布偏移,教师模型在蒸馏过程中对数据集的指导效果会欠佳。 仅深度剪枝为了将模型从8B缩减到4B,NVIDIA剪去了16层。通过移除模型中的某些层,观察语言模型损失或在下游任务中的准确性降低,来评估每一层或连续层组的重要性。 图5显示了在验证集上移除1层、2层、8层或16层后的语言模型损失值。NVIDIA发现,模型开头和结尾的层最为重要。 然而,NVIDIA注意到语言模型损失与下游性能之间并不直接相关。图6展示了每个剪枝模型在Winogrande任务上的准确性,表明移除16到31层(即倒数第二层)效果最佳。NVIDIA据此洞见,移除了16到31层。 仅宽度剪枝NVIDIA通过宽度剪枝压缩了Llama 3.1 8B模型,主要剪掉了嵌入和MLP中间维度。具体而言,NVIDIA使用前面提到的基于激活的策略,计算每个注意力头、嵌入通道和MLP隐藏维度的重要性分数。随后: 6剪至3072。 值得注意的是,宽度剪枝后的一次性剪枝的语言模型损失高于深度剪枝,但经过短暂的再训练后,趋势发生了逆转。 准确性基准测试NVIDIA在以下参数下对模型进行了蒸馏: 表1展示了Llama-3.1-Minitron 4B模型(宽度剪枝和深度剪枝变体)与原始Llama 3.1 8B模型及其他类似大小模型在多个领域基准测试中的比较结果。整体上,NVIDIA再次确认宽度剪枝策略相比深度剪枝的有效性,这符合最佳实践。 性能基准测试NVIDIA使用NVIDIA…