上个月,微软宣布将为重启三里岛核电站的一号反应堆提供资金,以应对公司不断增长的数据中心用电需求。这一举动使微软成为继亚马逊之后,第二家利用传统核设施来满足能源需求的美国科技巨头。微软是OpenAI的主要投资者和计算提供方,而OpenAI自发布ChatGPT以来,引发了AI开发的革命性增长。重启核电站的决定,也突显了为满足新兴AI系统需求所带来的大量物理投资。 如今,AI产品被广泛用于生成代码、文本、图像,数据分析,任务自动化,增强在线平台等方面,且未来使用量只会进一步增加。然而,这些尖端AI模型需要庞大的计算资源进行训练和推理,这种计算需求依赖于工业规模的数据中心设施,而这些设施需要大量的电力、水资源、宽带等基础设施来运作。 AI热潮的直接结果是,美国固定资产投资激增,以满足计算需求的快速增长。如今,美国数据中心建设速度创下新高,年投资额达到286亿美元,同比增长57%,相比两年前增长了114%。这一建设投资规模相当于美国在餐厅、酒吧和零售店上的年度建设支出总和。 值得注意的是,这个数字仅指建筑物本身,还不包括数据中心内的大量高性能计算机及其所需的电缆、风扇等配件。今年8月,美国大型计算机净进口量创下新纪录,计算机零件及配件的净进口量在7月也达到了历史新高。过去一年中,美国在这些领域的进口总额已超过650亿美元,并且国内生产也在持续增长。 这些新增的数据中心、计算机和设备主要由信息技术领域的公司采购,包括亚马逊这样的计算基础设施提供商,Google这样的网络搜索公司,以及微软这样的软件发行商。过去一年中,这些公司在不动产、工厂和设备上的净投资增加了950亿美元,创下历史新高,这表明它们在激烈的竞争中加速扩展并部署AI系统。 与十多年前的科技行业相比,当前的情况发生了巨大变化。过去轻量级的软件公司如Instagram和WhatsApp曾被视为未来,而今天,Meta(前身为Facebook)仅在2024年上半年就花费了152亿美元,主要用于支持其Llama品牌AI模型的大规模计算基础设施。当前的AI热潮是有史以来最依赖硬件的技术变革,极大地推动了美国的建设和投资。 美国企业在计算机及相关设备上的投资飙升,过去一年增长了16.6%,甚至考虑到通货膨胀后,这仍然是新纪录。这与2010年代的投资停滞形成鲜明对比。当时,投资直到疫情爆发的远程办公需求激增才开始回升。虽然2022年投资略有回调,但自2023年底AI热潮开始后,投资再度飙升。 其中,最顶尖的计算机系统增长最快。台湾的台积电(TSMC)是全球领先的尖端半导体制造商,而美国对AI计算的需求可以从从台湾进口的芯片和相关组件的激增中看出。过去一年里,美国从台湾的这些进口总额超过380亿美元,同比增长140%以上。 尽管硬件投资在全国各地并不均匀分布,但数据中心通常会集中在大规模集群中,以提高效率并降低成本。这一趋势在AI领域尤为显著,企业正极力扩展数据中心的规模和网络能力,以尽可能多地投入计算能力进行AI模型开发。 总体而言,AI开发者们正在激烈竞争,争取通过不断改进产品和扩大商业化来证明当前大规模投资的价值。美国作为全球AI和数据中心技术领先的国家,受益于此轮AI投资热潮,而地缘政治竞争也因此愈加激烈,尤其在硬件产能方面。随着AI投资的持续增长,未来的“芯片战争”将进一步加剧。
Author: aitrendtrackers@rengongzhineng.io
微软和Salesforce之间AI代理技术竞争
微软和Salesforce之间的竞争因AI代理技术的爆发而再次升温。微软近日宣布,为其Dynamics 365业务应用程序新增10款AI代理工具,这些工具可以在销售、服务、财务和供应链管理等领域自动完成任务。 微软的AI at Work项目首席营销官Jared Spataro表示,AI代理将成为AI驱动世界中的新应用,每个组织都会拥有从简单的提示响应到完全自主的AI代理,它们将为个人、团队或职能部门执行和协调业务流程。 这项消息是在微软伦敦“AI巡展”活动上公布的,时间上恰逢Salesforce即将于10月25日推出竞争产品——Agentforce自主AI技术。这一技术主要用于销售和服务领域。Salesforce的CEO Marc Benioff近来对微软的Copilot AI技术提出了尖锐批评,指责其让企业客户失望,并且在数据安全上存在隐患。 过去十年,微软与Salesforce的关系堪称科技界的“亦敌亦友”典范,两家公司在合作互利时联手,但更多时候是在多个领域激烈竞争。微软宣布,目前全球500强企业中有60%在使用其Copilot技术,并举例说明,如Lumen Technologies通过AI为销售人员提供支持,预计每年节省5000万美元;而Honeywell则通过AI提升了相当于增加187名全职员工的生产力。 两家公司推出的AI代理都反映了整个行业推动AI超越助手角色的发展趋势,赋予AI自主完成任务和执行指令的能力。微软也希望通过AI推动其在GitHub、Windows和Microsoft 365等产品中的业务增长。 在微软2024财年中,Dynamics产品和云服务的收入达到约65亿美元,相较于2023年的54亿美元和2022年的47亿美元,保持了稳定增长,尽管在微软年收入超过2450亿美元的整体业务中,这仍是一个相对较小的部分。 微软计划在今年底到明年初公开预览这些新AI代理,包括帮助优先处理潜在客户和自动化订单处理的销售代理,优化供应链和财务流程的供应商沟通代理和财务对账代理,以及提升客户服务的客户意图代理和知识管理代理。此外,微软还将在下月推出“Copilot Studio”,允许用户创建自主AI代理,进一步扩展AI的应用场景。
Meta的研究部门“基础AI研究”(FAIR)推出“自学评估器”的系统
Meta公司在上周五宣布,他们的研究部门“基础AI研究”(FAIR)推出了一系列新的AI模型。这些模型包括一个名为“自学评估器”的系统,有望减少AI开发过程中对人类参与的依赖,另一个模型则能够自由混合文本和语音。 此次发布是在Meta今年8月发布的一篇论文之后,该论文介绍了这些模型将依赖于“思维链”机制,这是OpenAI在其最新的o1模型中使用的一种技术,用于让AI在做出回应前“思考”。值得一提的是,Google和Anthropic也在研究“AI反馈强化学习”这一概念,尽管他们的相关研究尚未对公众开放。 FAIR团队表示,新的AI模型支持Meta实现“高级机器智能”的目标,同时推动开放科学和科研可重复性的进展。此次发布的模型包括图像和视频处理的升级版“分割任何事物模型2”(SAM 2),以及Meta Spirit LM、Layer Skip、SALSA、Meta Lingua、OMat24、MEXMA和自学评估器等。 自学评估器 Meta称这种新的自学评估器是一种“强大的生成性奖励模型,使用合成数据来验证其他AI模型的工作”。它提供了一种无需依赖人工标注来生成偏好数据的新方法。公司表示,该模型通过生成对比输出,并训练一个大型语言模型(LLM)作为“评判者”,用来进行推理和最终判断,并且这一过程是通过不断自我改进来实现的。 这个新方法意味着模型能够生成自己的数据来训练奖励模型,不再需要人工标注的数据。Meta声称,自学评估器性能优于像GPT-4这样的依赖人类标注数据的模型。 Meta Spirit LM Spirit LM是Meta推出的首个开源语言模型,能够无缝集成文本和语音。大多数大型语言模型通常用于将语音转换为文本,反之亦然,但这种转换往往会丢失原本语音中的自然表达。Meta开发的Spirit LM通过使用音素、音调和语调等标记,克服了这些局限,使输入和输出更加自然。 该模型分为两个版本:Spirit LM Base专注于语音音效,而Spirit LM则可以捕捉到语音中的情绪,如愤怒或兴奋,从而使生成的语音更加真实。Meta称,该模型能够更自然地生成语音,并能够执行语音识别、文本转语音、语音分类等任务。
Midjourney计划推出一款升级版的网页工具
Midjourney计划推出一款升级版的网页工具,让用户可以通过其生成式AI编辑任意上传的网络图片。Midjourney的CEO David Holtz表示,这款工具将于“下周初”发布,用户还可以通过输入文字说明来重新上色和调整图片中的物体纹理。 近期,使用AI编辑现有图片成为了热门话题。像Meta等平台正在讨论如何区分由AI工具编辑的图片和完全由AI生成的图片,而Google等公司已经推出了强大的AI功能,但这些功能并不会在图片上显示AI修改的痕迹。 去年,Midjourney承诺使用IPTC的“数字来源类型”属性,这是一项技术标准,用于在图片中嵌入元数据,表明图片是由AI生成的。然而,Midjourney并未采用C2PA这种追踪图片全流程来源的元数据技术,目前只有少数主要AI平台采纳了这一技术。 在Midjourney的Discord官方频道中,Holtz表示,升级版图片工具最初将仅向一部分社区成员开放,平台会增加人工审核以及“更先进的AI审核”来防止滥用。他坦言团队尚未完全确定如何精确限制这一功能的发布,因此正在通过社区投票收集反馈,决定哪些用户将优先获得使用权限。 推出这些编辑工具存在风险,若没有足够的安全措施,可能会导致大规模的版权侵权,甚至加速误导性深度伪造(deepfake)的传播。尤其是在近期,虚假生成的AI图片在飓风Helene过后席卷网络,展示了灾难和人类痛苦的虚假场景,使得真假信息更加难以辨别。 根据深度伪造检测公司Clarity的数据,今年生成和发布的deepfake数量比去年同期增长了900%,引发了广泛的担忧。YouGov的一项民意调查显示,85%的美国人对深度伪造在网上传播表示担忧。 虽然美国联邦尚未出台针对deepfake的法律,但已有超过10个州通过了反AI冒名顶替的法规。加利福尼亚州的一项法律——目前暂未通过——将赋予法官下令删除deepfake内容的权力,违者可能面临罚款。 Midjourney在AI部署责任方面的记录并不尽如人意(其因涉嫌使用受版权保护的内容来训练生成式AI模型而面临诉讼)。不过,最近几个月,该平台采取了一些措施来限制深度伪造的传播,包括在美国总统选举前为政治人物的形象设置过滤器。
生成式AI投资热潮持续升温,尽管质疑声不断
并非所有人都看好生成式AI的投资回报,但根据PitchBook的最新数据,许多投资者显然非常支持。2024年第三季度,风投公司向生成式AI初创企业投资了39亿美元,涉及206笔交易(这还不包括OpenAI的66亿美元融资)。其中,美国公司拿到了29亿美元的资金,涉及127笔交易。 在这一季度的融资赢家中,编程助手Magic在8月获得了3.2亿美元,企业搜索提供商Glean在9月筹集了2.6亿美元,商业分析公司Hebbia在7月完成了1.3亿美元的融资。而中国的Moonshot AI在8月获得了3亿美元,日本专注于科学发现的初创企业Sakana AI上个月也完成了2.14亿美元的融资。 生成式AI涵盖从文本和图像生成器到编程助手、网络安全自动化工具等广泛技术领域,尽管它的可靠性和法律问题(特别是未经许可训练模型的版权数据)仍备受质疑,但投资者似乎相信它将在大规模和高利润的行业中占据一席之地,且未来的增长潜力不会因当下的挑战而受阻。 或许他们是对的。Forrester的一份报告预测,60%的生成式AI怀疑者最终会接受这项技术,哪怕是无意识地,用于诸如摘要生成或创造性问题解决等任务。而Gartner早前的预测则较为保守,认为到2026年,30%的生成式AI项目将在概念验证阶段被放弃。 PitchBook的高级分析师Brendan Burke在接受TechCrunch采访时表示:“大型客户正在部署利用初创公司工具和开源模型的生产系统。最新一代的模型展示了其在科学领域、数据检索和代码执行方面的潜力。” 然而,生成式AI广泛应用的一大障碍是其巨大的计算需求。贝恩分析师在一项最新研究中预测,生成式AI将促使企业建设千兆瓦级的数据中心,这类数据中心的电力消耗是当前普通数据中心的5到20倍,加剧了本已紧张的劳动力和电力供应链。 实际上,生成式AI对数据中心电力的需求,已经延长了一些燃煤发电厂的寿命。摩根士丹利估计,如果这一趋势持续到2030年,全球温室气体排放量可能比没有开发生成式AI时高出三倍。 为应对这种不可持续的能源需求,微软、亚马逊、谷歌和甲骨文等全球最大的几家数据中心运营商已宣布投资核能,以抵消不断增加的不可再生能源使用。(微软在9月表示,将利用来自三里岛核电站的电力。)但这些投资可能需要数年才能见效。 尽管存在这些负面影响,生成式AI初创企业的投资热潮依旧不减。声音克隆工具ElevenLabs据称正在寻求30亿美元的估值,而图像生成工具背后的公司Black Forest Labs据传正在筹集1亿美元的资金。
Nvidia刚刚低调推出了一款新AI模型,直接碾压OpenAI的GPT-4
https://build.nvidia.com/nvidia/llama-3_1-nemotron-70b-instruct 周二,Nvidia悄然推出了一款全新的人工智能模型,表现超越了行业领袖OpenAI和Anthropic的产品,标志着该公司AI战略的重大转变,并有可能重塑该领域的竞争格局。 这款名为Llama-3.1-Nemotron-70B-Instruct的模型,低调现身热门AI平台Hugging Face,但很快因其在多个基准测试中的卓越表现引起了广泛关注。 Nvidia表示,这款新模型在关键评估中取得了顶尖成绩:Arena Hard基准测试得分85.0、AlpacaEval 2 LC得分57.6,GPT-4-Turbo MT-Bench得分8.98。 这些成绩超越了如OpenAI的GPT-4o和Anthropic的Claude 3.5 Sonnet等备受推崇的模型,将Nvidia推向了语言理解和生成领域的前沿。 Nvidia的AI大赌注:从GPU巨头到语言模型先锋 这次发布对Nvidia来说是个关键时刻。Nvidia长期以来以主导图形处理单元(GPU)市场而闻名,这些GPU驱动着AI系统的核心。然而,现在Nvidia展现了开发复杂AI软件的实力,这一举动标志着其战略扩展,可能会挑战以软件为主导的大型语言模型开发领域的传统霸主地位。 Nvidia打造Llama-3.1-Nemotron-70B-Instruct的过程,基于Meta的开源Llama 3.1模型,采用了先进的训练技术,包括从人类反馈中进行强化学习(RLHF)。这种方法让AI能够从人类的偏好中学习,产生更加自然和符合上下文的回应。 凭借其卓越的性能,这款模型有望为企业提供一个比市场上其他先进模型更具能力且成本更低的选择。 该模型处理复杂查询无需额外提示或专用标记的能力是其一大亮点。在展示中,它准确回答了“strawberry中有几个r?”这样的问题,并提供了详尽且精确的解释,展现了其对语言的深刻理解和清晰的表达能力。 Nvidia新模型如何重塑商业和研究 对于正在探索AI解决方案的企业和组织来说,Nvidia的新模型提供了一个极具吸引力的新选项。该公司通过其build.nvidia.com平台免费提供托管推理服务,并兼容OpenAI的API接口。 这种可访问性让更多的公司可以轻松试验并应用先进的语言模型。Nvidia这一举动也反映出AI领域正向不仅强大而且可定制的模型转变。如今的企业需要能够针对特定需求定制的AI,无论是处理客户服务问题还是生成复杂的报告。Nvidia的模型不仅性能卓越,还提供了这种灵活性,使其成为跨行业企业的有力选择。 然而,伴随这一强大功能而来的,是相应的责任。像任何AI系统一样,Llama-3.1-Nemotron-70B-Instruct并非完美无缺。Nvidia已警告,该模型尚未针对如数学或法律推理等需要高精度的专门领域进行调校。企业需要确保在使用该模型时采取适当的安全措施,以防止错误或误用。 AI竞赛升级:Nvidia的大胆之举挑战科技巨头 Nvidia最新发布的模型标志着AI领域正在迅速变化。尽管Llama-3.1-Nemotron-70B-Instruct的长期影响仍未可知,其发布显然是AI系统竞争中的一个关键转折点。 通过从硬件转向高性能AI软件,Nvidia迫使其他玩家重新思考他们的策略,并加速自己的研发步伐。这一发布紧随Nvidia推出NVLM 1.0系列多模态模型之后,包括拥有720亿参数的NVLM-D-72B。 这些近期发布的模型,尤其是NVLM项目的开源化,显示出Nvidia的AI野心远不止于竞争——它们正在挑战GPT-4o等专有系统的主导地位,涵盖从图像解释到复杂问题解决的多个领域。 Nvidia快速发布这些新产品,凸显了其在AI软件开发方面的雄心壮志。通过提供与行业领导者相媲美的多模态和文本模型,Nvidia正在利用其硬件优势,打造强大且易于访问的软件工具,定位为一个全面的AI解决方案提供商。 Nvidia的战略似乎很明确:将硬件专长与高性能软件相结合,打造成一个全方位服务的AI供应商。这一举措可能会重塑行业,迫使竞争对手加速创新,并有望推动AI领域更多的开源合作。 随着开发者测试Llama-3.1-Nemotron-70B-Instruct,可能会看到其在医疗、金融、教育等多个领域的全新应用。其成功与否最终将取决于是否能够将令人印象深刻的基准分数转化为实际的解决方案。 未来几个月内,AI社区将密切关注Llama-3.1-Nemotron-70B-Instruct在真实应用场景中的表现。其能否将高分转化为实际价值,将决定其在行业乃至整个社会的长期影响力。 Nvidia在AI模型开发中的深入探索,已经使得竞争愈加激烈。如果这是AI领域新时代的开端,那么在这个时代,全方位整合的解决方案可能会为未来的突破奠定基调。
谷歌结构调整和领导层任命,旨在加速公司的人工智能 (AI) 发展
谷歌CEO桑达尔·皮查伊(Sundar Pichai) 最近宣布了一系列结构调整和领导层任命,旨在加速公司的人工智能 (AI) 发展。此次重组将Gemini应用团队(由Sissie Hsiao领导)并入Google DeepMind团队,由Demis Hassabis领导。 皮查伊解释说:“将这些团队紧密结合在一起,可以改善反馈机制,加速在Gemini应用中部署新模型,并提高训练后工作的效率,同时也能进一步推动我们产品的快速发展。” 此外,负责设备和家庭体验的Assistant团队将整合到“平台与设备”部门,此举旨在将这些团队与他们所开发的产品更紧密地结合,并将谷歌在AI智能家居领域的工作集中到一个框架下。 在高层领导变动方面,谷歌资深员工Prabhakar Raghavan将从当前岗位转任公司首席技术官。皮查伊高度评价了他在多个部门(包括研究、Workspace、广告和知识与信息(K&I))的领导工作,称其领导下的Gmail团队率先推出了Smart Reply和Smart Compose这两项AI驱动的功能,并带领Gmail和Google Drive用户数量突破10亿。 接任K&I部门的将是Nick Fox,皮查伊宣布他为K&I的高级副总裁(SVP)。Fox在谷歌多个领域拥有丰富经验,包括搜索和Assistant的产品与设计、购物、旅行和支付产品。皮查伊表示:“Nick在谷歌的AI产品路线图制定中起到了关键作用,他始终以积极、快速和顽强的态度应对公司最具挑战性的问题。” 此次重组正值谷歌推出多项AI创新之际,近期发布的亮点包括NotebookLM的音频概览功能、搜索和Lens信息发现的增强、针对AI时代优化的新版Google Shopping平台,以及有望彻底改变蛋白质设计的AlphaProteo技术。与此同时,Gemini家族模型也迎来了更新。 在医疗AI方面,皮查伊提到了一个重要的里程碑:谷歌用于检测糖尿病视网膜病变的AI系统已完成60万次筛查,计划将在印度和泰国扩大该技术的覆盖范围。 皮查伊总结道:“AI的进步速度超过了以往任何技术。为了继续加快进展,我们一直在简化公司结构,以更好地应对这一变化。”
苹果最新的M4 MacBook Pro在俄罗斯被曝光
据传,苹果最新的M4 MacBook Pro在俄罗斯被曝光,并且有一些YouTuber用俄语做了相关的视频解说。虽然听不懂俄语,不过通过一些技术手段,像将视频转录内容粘贴到语言模型里,依然能了解视频讨论的内容。这个方法甚至对其他语言的视频也有效。 通过使用Python脚本查询Google Gemini,获取了不少关于视频的有用信息。不过值得注意的是,视频中的信息可能是假的,特别是盒子的设计似乎和去年的版本一样,这让人产生怀疑。然而,伪造Geekbench测试数据相对较难,而且有多个消息源报道这一爆料,所以有可能是真实的。如果这是真的,那可能是个大新闻,尤其是在解决了之前对M3 MacBook Pro的一些不满后。 视频的主要亮点如下: CPU核心数的增加对一些用户来说可能不是很重要,毕竟即使是M1芯片,目前依然表现优秀。16GB内存并不意外,大概是因为高通的Snapdragon X Elite系列笔记本的推出,苹果也顺应竞争而做出的调整。 推测苹果原本打算让M4 MacBook的基础型号标配8GB内存,但看到X Elite笔记本都标配16GB内存后,苹果也可能做出了相应的调整。也有人猜测16GB内存可能会出现在MacBook Air上,这确实让人期待,尤其是在其他品牌的笔记本都已经这么做的情况下。不过有传言称,M4 MacBook Air要到明年才会推出,这让人有点失望。 最后,关于“太空黑”和3个USB-C接口的变化值得一提。去年M3 MacBook Pro有两个版本:基础版和配备M3 Pro/Max芯片的高配版。基础版为了降低成本,做了不少改动,比如仅配备一个风扇,且USB-C接口数量从3个减少到2个,且都集中在同一侧。此外,基础版的电池也稍微小了4%。还有就是配色,基础版并没有提供“太空黑”选项。 如果这次的泄露属实,M4 MacBook Pro可能会抛弃这些基础版和Pro Max版的区别,所有机型都能享受到高配版的优势。这也有助于简化供应链。但这些泄露信息是否真实仍需谨慎对待,毕竟制作一个假的视频并不难。 如果这些都是真的,那确实值得关注。毕竟之前对M3 MacBook Pro有些失望,电池续航不如预期,且缺少“太空黑”配色。而M2版本的MacBook Pro虽然有点被吐槽,但凭借其价格和电池续航,性价比依然不错。 关于M4芯片,有传言说它比M3芯片更高效,虽然功耗增加了5%,但性能提升了8.5%,总的来说效率提升了3.3%。不过在满负荷运行时,功耗增加了60%,可能这就是为什么MacBook Pro需要两个风扇的原因。此外,新款还增加了一个USB-C接口,这对于那些需要多个接口的用户来说是个好消息。 最后,大家期待的“太空黑”配色终于来了。不过遗憾的是,M4 MacBook Pro似乎没有配备OLED显示屏或哑光选项。OLED预计要等到2026年才会出现在MacBook上,不过LCD和Mini-LED的实际差别也不大,只希望苹果能改进Mini-LED的响应时间。至于哑光屏幕,可以通过贴膜解决。 综上所述,虽然距离2026年大改款还有一段时间,但如果这次的泄露信息属实,M4 MacBook Pro可能会修正M3 MacBook Pro的缺点,成为自2021年重新设计以来最重大的改进。
英伟达CEO黄仁勋在BG2播客上做客
几天前,英伟达CEO黄仁勋在BG2播客上做客,分享了一次不同寻常的对话。这次访谈不仅深入探讨了英伟达的内部运作,更重要的是展现了人工智能技术和行业的发展轨迹。以下是这次对话中的一些亮点和启示。 飞轮的飞轮 黄仁勋谈到,AI技术堆栈的加速正在加快,英伟达的核心关注点就是这种加速的速率。在他看来,机器学习的飞轮效应让英伟达每年能提升2-3倍的性能。 过去,很多人认为更好的芯片设计、更高的FLOPs、更大的数据吞吐量是关键。演讲中充满了各种数据和参数的图表,性能当然重要,但这种思维已经过时了。 早年,软件是静态的,仅仅是运行在Windows上的应用程序,想提升性能的唯一方式是制造更快的芯片。但机器学习并不是人类编程,它的关键在于整个数据管道。真正重要的是机器学习的飞轮效应。 飞轮的最关键部分是让数据科学家和研究人员在这个过程中保持高效。从一开始,很多人并未意识到,使用AI来整理训练数据以教AI本身,这个过程非常复杂。而通过更智能的AI整理数据,如今甚至可以生成合成数据,提供更多的方式来准备训练数据。在训练之前,还涉及到大量的数据处理。 每一步都充满挑战。过去,我们只想着如何让Excel或Doom这样的软件跑得更快,但现在的任务是如何加速整个飞轮。 最终,真正的指数增长来自于加速整个系统。 加速整个系统的系统化方法 黄仁勋强调,要加速整个AI系统,需要采用整体性的系统方法。Amdahl定律是其中的重要原则,它指出系统的总体加速受限于无法并行化或改进的部分。因此,要实现显著的加速,必须优化AI管道的每一个环节,从数据准备到推理,而不仅仅是专注于单一的训练阶段。 他解释道:“如果某个组件占用了整个过程30%的时间,即使你将这个组件的速度提高3倍,整个过程的加速幅度也不会特别显著。”根据Amdahl定律,这样的加速仅仅带来20%的系统整体性能提升。 因此,真正的提升来自于加速每一个步骤,只有这样,才能显著缩短周期时间,增强飞轮效应。学习速率的提升最终引发了指数式的增长。 这正是英伟达的使命。要实现这一点,需要一个集成的生态系统。 英伟达的生态系统策略 黄仁勋还描述了供应链如何协同工作,以每美元或每瓦特的性能提升达到比摩尔定律快一到两个数量级的速度。 他认为,摩尔定律本质上是一个社会契约,整个半导体产业链的供应商们为了实现英特尔的公开路线图而共同努力。英伟达现在也在做类似的事情,但规模更大,涵盖了整个AI生态系统。 通过这样一个集成的生态系统,英伟达不仅推动了AI芯片的发展,还带动了整个产业链的协同加速,实现远超摩尔定律的技术进步。
Firefly视频模型在Adobe MAX大会上发布
Adobe正式进军生成式AI视频领域,其Firefly视频模型在Adobe MAX大会上发布,推出了一系列新工具,包括Premiere Pro中的Generative Extend,以及网页端的文本生成视频和图像生成视频功能。这些工具将帮助创意人员通过文字描述或静态图像来生成视频内容,甚至扩展已有的片段。 Generative Extend是针对Premiere Pro的Beta功能,主要用于扩展视频片段的开头或结尾,或者在镜头中进行小调整,比如修正眼线偏移或动作不当。虽然扩展时长最多只有两秒,但这足以解决一些细微问题,避免重拍。该功能支持720p和1080p分辨率的视频生成,24帧率,还能延长音效和环境音最多10秒,但不适用于对话或音乐。 此外,文本生成视频和图像生成视频工具现已在Firefly网页应用中进入有限公开测试阶段。文本生成功能允许用户输入描述生成短视频,支持模拟真实电影、3D动画、定格动画等多种风格。图像生成视频功能则进一步结合了图像输入与文本提示,帮助用户更精准地控制生成结果,适合从图片制作b-roll或可视化拍摄计划。 虽然这些工具目前只能生成最多五秒、720p分辨率的视频,但Adobe承诺将继续优化,计划推出“Turbo模式”以缩短生成时间。虽然这些工具在功能上有一定限制,但其安全性和商业可行性得到了保障,因其训练数据均来自Adobe有权使用的素材,避免了其他模型因未经许可抓取数据而面临的法律风险。 生成视频中的AI内容还可以嵌入内容凭证,确保发布时能清晰标注AI使用情况和版权归属。虽然目前其他平台如OpenAI的Sora、Meta的Movie Gen、Google的Veo尚未公开推出相似功能,但Adobe的工具已开始向公众开放测试,抢先一步进入市场。