在当今快速变化的数字环境中,依赖AI的企业面临新的挑战:延迟、内存使用和计算成本不断攀升。随着AI迅猛发展,这些支持创新的模型变得越来越复杂,资源消耗也更大。尽管大型模型在多种任务上表现出色,但它们往往伴随巨大的计算和内存需求。 对于实时AI应用,如威胁检测、欺诈识别、指纹识别登机等,提供快速、准确的结果至关重要。企业加速AI实施的动机不仅在于降低基础设施和计算成本,还包括提高运营效率、缩短响应时间和提升用户体验,这些都会带来切实的业务收益,如改善客户满意度和减少等待时间。 解决方案:小模型与硬件升级的利弊 当前两种直接的解决方案是:一是训练较小的模型,以牺牲准确性和性能来换取速度;二是投资更好的硬件,如GPU,以低延迟运行复杂的AI模型。然而,GPU需求远超供应,这会迅速推高成本,并且无法解决在智能手机等边缘设备上运行AI模型的需求。 模型压缩技术的引入 模型压缩技术应运而生,通过减少AI模型的大小和计算需求来在保持性能的同时降低资源占用。本文将探讨几种主要的模型压缩策略,帮助开发者在资源有限的环境中也能有效部署AI模型。 模型压缩的优势 压缩机器学习(ML)模型有多重好处。首先,大模型虽然准确率高,但运行预测需要大量计算资源。许多顶尖模型(如大型语言模型和深度神经网络)计算成本高、内存密集。在实时应用中,如推荐引擎或威胁检测系统,这类模型往往依赖高性能GPU或云基础设施来满足需求,进而增加成本。 其次,许多AI应用对低延迟预测有严格要求,需要高性能硬件来缩短响应时间,预测量越大,成本越高,尤其是在机场、银行或零售等需要大量实时推理请求的场景下,费用会显著增加。这种高运营负载要求企业在延迟和成本方面进行合理管理,以避免AI扩展过快消耗资源。 更重要的是,模型压缩不仅涉及成本问题。较小的模型消耗更少的能量,延长移动设备的电池寿命,减少数据中心的能源消耗,降低运营成本,同时也使AI开发与环境可持续性目标相契合,减少碳排放。通过应对这些挑战,模型压缩技术为更具实践性、经济性和可广泛部署的AI解决方案铺平了道路。 顶级模型压缩技术 压缩后的模型能更快速、高效地进行预测,使实时应用从安检到身份验证等领域的用户体验得以提升。以下是几种常见的模型压缩技术。 模型剪枝 模型剪枝是一种通过移除对模型输出影响较小的参数来缩小神经网络的技术。去除冗余或无关权重后,模型的计算复杂度降低,推理时间更快,占用的内存更少,形成一个精简的模型。对于企业而言,剪枝能在不大幅牺牲准确性的前提下降低预测时间和成本。剪枝可以反复进行,直到达到所需的模型性能、大小和速度。 模型量化 量化是一种优化机器学习模型的强大方法,通过将模型参数和计算的数值精度从32位浮点数降至8位整数,从而显著减少模型的内存占用并提升推理速度,使其能在性能不强的硬件上运行。量化能带来高达4倍的内存和速度提升,在计算资源有限的环境(如边缘设备或移动手机)中,量化帮助企业更高效地部署模型,并降低AI服务的能源消耗与成本。 通常,量化是在训练完成的AI模型上进行,并通过一个校准数据集来减少性能损失。如若性能损失超过可接受范围,可以在量化的学习过程中加入量化感知训练,以维持精度。量化也可以与模型剪枝结合,进一步提升模型的性能和速度。 知识蒸馏 知识蒸馏通过训练一个较小的“学生”模型来模拟较大、复杂的“教师”模型的行为。学生模型在原始训练数据及教师模型的概率输出上训练,以此传递不仅仅是最终的决策,还包括更深层次的“思维逻辑”。 学生模型聚焦于数据的关键方面,能在大幅减少计算需求的前提下保持教师模型的大部分准确性。对于企业而言,知识蒸馏允许在低推理成本下部署较小、较快的模型,特别适合在实时应用中对速度和效率有较高要求的场景。学生模型还可以进一步应用剪枝和量化技术,从而得到既轻便又高效的模型。 结论 在企业寻求扩展AI业务的过程中,实施实时AI解决方案已成为关键。模型剪枝、量化和知识蒸馏等技术通过优化模型,帮助企业实现更快、更低成本的预测,而性能损失极小。通过采用这些策略,企业不仅能降低对昂贵硬件的依赖,还可将模型更广泛地应用到各项服务中,确保AI成为运营中经济可行的部分。在当前的数字格局中,优化机器学习推理不仅是选择,更是必要。
Author: aitrendtrackers@rengongzhineng.io
2025年人工通用智能(AGI)的到来
在最近的Y Combinator节目《How to Build the Future》中,OpenAI的首席执行官山姆·奥特曼表示,他对2025年人工通用智能(AGI)的到来充满期待。当YC总裁加里·谭问到奥特曼对来年最为兴奋的事情时,奥特曼提到AGI将成为一个划时代的里程碑。 奥特曼还分享了他对OpenAI发展历程的反思,并为那些在迅速变化的AI领域中寻求机会的创业者提供了指导。此外,奥特曼透露,他预计将在2025年迎来自己的孩子。这一私人生活中的新篇章与他对AGI的期待交织,预示着无论在职业还是个人层面,他都将在2025年迎接重大变化。 AI领域的领军人物,包括Anthropic的达里奥·阿莫代和OpenAI的山姆·奥特曼,认为“强大的AI”甚至是超级智能可能会在未来两到十年内出现,彻底改变人类世界。 在阿莫代最新的文章《机器的温柔》中,他探讨了AI的潜力,推测强大的AI(即广义人工智能,AGI)或许最早能在2026年实现。而在《智能时代》一书中,奥特曼提到:“超级智能可能会在几千天内出现”(即2034年左右)。如果这些预言准确,那么在未来十年内,全球或将迎来一场翻天覆地的变化。 作为AI研究和开发的领军者,阿莫代和奥特曼的观点尤其具有影响力。阿莫代将强大的AI定义为“在生物学、编程、数学、工程学和写作等大多数重要领域超越诺贝尔奖得主的AI。”而奥特曼没有在文章中明确定义超级智能,但一般认为它是跨领域地超越人类智能的系统。 然而,并非所有人都对这一乐观时间表持支持态度。OpenAI联合创始人伊利亚·苏茨克维尔创建了一家名为“安全超级智能”(Safe Superintelligence, SSI)的新公司,以安全为中心开发AI。在SSI成立时,苏茨克维尔宣称:“我们的目标是直奔安全超级智能,专注于一个目标和一个产品。”他还透露,已为该公司筹集了10亿美元。 这些预测与埃隆·马斯克的估计相符。马斯克近期表示,AI将在2029年前超越全人类的能力。他预测,AI将在一到两年内能够完成任何人类任务,再经过三年,AI将能完成所有人类合力所能达成的事。而未来学家雷·库兹韦尔早在1995年便预测,AGI将在2029年实现,并在2005年畅销书《奇点临近》中详细阐述了这一预言。 迫在眉睫的转型 当下的形势表明,如果这些预测成真,人类将迎来一个全新的世界。今天出生的孩子可能在一个已被AGI改变的世界中上幼儿园,而当他们进入青春期时,也许将有AI“同伴”相伴左右。作家石黑一雄在小说《克拉拉与太阳》中描绘的未来生活不再显得遥不可及,而是可能成为现实,甚至带来深远的伦理和社会挑战。 这些技术的潜在影响在历史上前所未有,它们既可能带来福祉,如癌症和抑郁症治疗的突破,甚至是聚变能量的实现,也可能带来极端风险,如大规模失业、收入不平等和自主武器的失控。 在短期内,MIT Sloan的首席研究科学家安德鲁·麦卡菲认为AI将主要协助而非取代人类工作。他在近期的一期播客中将AI比作“随叫随到的文书、同事和教练。”然而,埃隆·马斯克认为长期来看“我们大概都将失业。”这一观点的对比揭示了一个关键点:AI的能力和影响在几年内可能会发生巨大转变。 调整期望:在乐观与现实之间找到平衡 尽管预测充满野心,但并非所有人都认同强大AI近在咫尺的观点。深度学习批评者加里·马库斯一再警告,当前AI技术距离AGI尚有不小差距,缺乏实现深度推理的关键能力。他甚至曾提出以100万美元证明马斯克的预测错误。 Linux操作系统的创建者林纳斯·托瓦兹也持怀疑态度,他表示AI的影响目前“90%是营销,10%是真实。”他认为,目前的AI技术存在一定的炒作成分。作为佐证,OpenAI最近发布的一项研究显示,最前沿的大型语言模型在回答简单事实问题时表现不佳,最新的SimpleQA基准测试显示,表现最好的模型o1-preview在半数问题上给出了错误答案。 面向未来:准备迎接AI时代 尽管AI的发展速度飞快,当前的能力与AGI仍有较大差距。正如Amara法则所言,人们常常高估新技术的短期影响,但低估其长期潜力。尽管AGI的出现可能不会如一些预测那样迅速,但其潜在的深远影响可能远超当下的设想。 正因如此,当前的技术局限成为宝贵的缓冲,为我们赢得时间去制定安全框架、改进社会机构并为可能的转型做准备。AGI到来的问题不仅在于何时会实现,更在于我们是否能在它到来时做好应对准备。
在本机上跑LLM的体会
在过去一个月里,作者开始探索快速发展的大型语言模型(Large Language Models,LLM)领域。如今,技术进步已让LLM变得相当易用——现在一个比原版ChatGPT(2022年11月)的模型甚至能运行在树莓派上,而更高性能的AI则可以在普通台式机或笔记本电脑上轻松运行。这不仅更私密,还可以离线使用,无需注册,且使用无限制。技术正在以飞快的速度进步,几个月的时间信息就可能过时。本文总结了作者的实践经验,分享了他在入门时希望自己能掌握的知识。需要注意的是,作者是LLM领域的“外行”,并不具备独到的见解,且很可能误解了某些内容。不过,文章本身仍为探索这项技术的快照,有望在一年后成为历史上的一个小注脚。 LLM即大型语言模型,如果说对其功能不太了解,那只需知道这类神经网络在2022年因训练成对话型“聊天”模式而取得重大突破。用户可以与一个极具创造力的人工智能对话,该技术不仅轻松通过了图灵测试,还能展现惊人的创造性。与之初次互动的感觉往往让人不安,这种不安会持续几天。试想购买一台普通家用电脑时,大多数人绝不会期待它具备对话能力。 这种体验令人回想起上世纪90年代的桌面计算机革命,当时,刚买的新电脑还没带回家就已经有了更新换代的款式。现在的技术也是如此,每周都有新进展,导致对一年以上的旧信息大多可以忽略。作者习惯在r/LocalLLaMa社区跟进最新动态,但每条信息都被极度夸大,因此作者保持着谨慎的怀疑态度。 作者对“厂商锁定”格外警惕,因为之前因服务关闭、变化或不再支持而导致他必须放弃原有的使用模式。因此,他曾一度忽略LLM,仅仅是因为那些“闭源”模型只能以服务形式访问,且容易受到厂商锁定的影响,甚至服务质量会悄然下降。但当得知可以在自己的硬件上运行接近前沿的模型时,这种情况发生了根本改变,这种方式完全避免了厂商锁定的问题。 本文关注如何运行LLM,不涉及微调训练,甚至没有涉及其他“多模态”功能如视觉或语音等。这些功能并不适合作者的个人需求。 运行LLM时需准备软件和模型: 软件 作者主要使用了令人惊叹的llama.cpp。该软件适合基本的CPU推理,即使用CPU生成token,而非GPU。特别之处在于,它仅需一个C++工具链,避开了常见的Python依赖问题。在Windows上,仅需一个5MB大小的可执行文件llama-server.exe,无需额外运行时依赖文件。只需两个文件,EXE和GGUF(模型),就能利用内存映射来加载模型,未来25年后甚至还能在新版Windows系统上“开箱即用”。 作者特别推荐CPU推理,但前提是GPU推理无法实现。CPU推理适用于10B以下参数的模型,但相对较慢。而在GPU推理方面,瓶颈在于显存(VRAM)。对于8GB以下VRAM配置,使用CPU推理反而更简单入门。 在llama.cpp工具集中,作者主要使用llama-server程序,这是一个HTTP服务器,默认端口为8080,带有聊天UI和API接口,适合在其他用户界面中使用。 模型 Hugging Face是LLM的“GitHub”,存储了大量模型。“小”模型在几个GB左右,而“大”模型则达上百GB,且大多数模型免费下载。就llama.cpp而言,作者建议下载GGUF格式的模型。Meta的旗舰模型Llama 3.2目前仅支持1B和3B的参数,在实际使用中并不十分有用,而3.1的8B模型会是更佳选择。 不同的模型具备不同的权衡取舍,强项和弱项也有所不同。作者的台式机配备了RTX 3050 Ti显卡和8GB显存,这一限制形塑了他的选择。作者的“每秒token生成数”(t/s)均在此硬件配置上运行。 最喜欢的模型 其他模型还包括用于程序生成的FIM(Fill-in-the-Middle,填充中间)模型。作者发现代码生成目前仍存在较大局限性,但他推荐了DeepSeek-Coder-V2-Lite(16B)、Qwen2.5-Coder-7B和Granite-8B-Code作为程序生成模型。 用户界面 尽管llama.cpp提供了内置UI,作者自行构建了一个名为Illume的CLI工具,将标准输入转换为API查询,并流式输出至标准输出,特别适用于Vim。Illume允许用户在标准文本编辑器缓冲区中交替编写用户和助手输入,适合创作对话式故事。 FIM(填充中间)是LLM中一种新兴的训练方式,主要应用于代码生成。FIM训练允许LLM预测中间token,但它仍处于早期阶段,尚未广泛应用。 LLM的应用边界 LLM的实际用途仍然有限,适合特定任务,比如校对、创作短篇小说、生成有趣的互动对话或语言翻译。相比之下,LLM在正确性要求较高的任务中并不理想。代码生成也面临不小的局限,LLM编写代码的能力仍处于本科水平,在软件工程中的实际适用性很低。 总结 尽管LLM的实用性有限,但作者仍对这一技术的未来发展充满期待。这是近年来令他最激动的科技进步之一。
NVIDIA研究团队推出MM-Embed
在信息检索领域,创建能够在不同格式间无缝理解并提取相关内容的系统是一项巨大挑战。当前的大多数检索模型仍然局限于单一模态(仅文本或仅图像的检索),在信息丰富的现实场景中,尤其是视觉问答和时尚图像检索等需要文本与图像结合的应用中,这种限制显得尤为明显。因此,开发一种能够同时处理文本和图像以及其组合的多模态检索系统成为当务之急。多模态检索的主要难点在于实现跨模态理解,并克服各模态中的固有偏差。 针对这一需求,NVIDIA研究团队推出了MM-Embed,这是一款在多模态M-BEIR基准测试中取得顶级效果的多模态检索模型,并在文本模态的MTEB检索基准测试中跻身前五。MM-Embed致力于弥合多种检索格式之间的差距,使用户在跨越文本和图像内容的搜索中获得更流畅的体验。研究人员将MM-Embed与多模态大型语言模型(MLLM)结合,并作为双编码器在16项检索任务和10个数据集上进行了微调,展示了其广泛适用性。与其他模型不同,MM-Embed不仅支持单一数据类型,还能处理由文本和图像组成的复杂查询。此外,引入模态感知的负样本挖掘技术,有效降低了MLLM中常见的模态偏差,显著提升了检索质量。 MM-Embed的技术实现包括一系列关键策略,以最大化其检索性能。该模型采用双编码器架构,结合模态感知的负样本挖掘,从而更准确地处理混合模态数据。简单来说,这种挖掘方法使模型能够更好地聚焦于目标模态(无论是文本、图像或两者的组合),从而提高应对复杂文本-图像查询的能力。此外,MM-Embed持续进行微调,以提高其文本检索能力,并且不影响多模态任务中的表现。因此,无论是响应有关图像的文本查询,还是根据复杂描述查找相似图像,MM-Embed在各种场景中都表现出色。 这项进展意义重大。首先,MM-Embed在多模态检索中树立了新的基准,在所有M-BEIR任务中达到了52.7%的平均检索准确率,超越了此前的顶级模型。尤其是在特定领域,MM-Embed表现尤为优异。例如,在MSCOCO数据集上的检索准确率(R@5)达到73.8%,显示出其对复杂图像说明的理解能力。此外,通过零样本重排序,MM-Embed在处理复杂的文本-图像查询(如视觉问答和组合图像检索任务)时进一步提升了检索精度。在CIRCO的组合图像检索任务中,MM-Embed的排名准确率提高了7个百分点,展示了在真实复杂场景中,通过提示LLM进行重排序的有效性。 总的来说,MM-Embed代表了多模态检索领域的重大进步。通过高效整合并提升文本和图像检索能力,它为更灵活、更智能的搜索引擎铺平了道路,使其能够满足现代用户在多样化的数字信息环境中的需求。
BitNet a4.8 一款高效且精确的4比特大型语言模型(LLM)
大型语言模型(LLMs)已成为自然语言处理领域的基础,尤其是在需要理解复杂文本数据的应用中。然而,由于模型体积庞大,计算资源需求巨大,因此在延迟、内存占用和功耗方面面临着挑战。为使LLMs更适合规模化应用,研究人员正在积极开发降低计算成本的技术,同时保持模型的精度和实用性。这项努力主要集中在改进模型架构上,通过减少数据表示所需的比特数,使高性能语言模型能够在各种环境中大规模部署成为可能。 LLMs的资源密集型特性是其长期存在的问题,尤其是在推理阶段,要求大量的计算能力和内存。尽管模型优化方面已有进展,但计算成本仍是许多应用的门槛。其开销主要源于庞大的参数量和处理输入与生成输出所需的复杂操作。此外,随着模型复杂性的增加,量化误差的风险也随之上升,进而可能影响精度和可靠性。为应对这些效率挑战,研究领域正着力于降低权重和激活值的比特宽度,以减少资源消耗。 为应对效率问题,已经提出了多种方法,其中激活稀疏化和量化成为了重要手段。激活稀疏化通过选择性地停用低幅值的激活项来减少计算负荷,特别适用于长尾分布的激活数据,其中许多不重要的数值可以被忽略而不影响性能。而激活量化则是通过降低激活值的比特宽度来减少每一步计算所需的数据传输和处理资源。然而,这些方法在遇到数据中的大幅值异常值时往往会受到限制,因为这些异常值在低比特表示下更难以精确处理,可能会引发量化误差,影响模型的准确性,并阻碍LLMs在资源受限环境中的部署。 对此,微软研究院和中国科学院大学的研究团队提出了一种新方案,名为BitNet a4.8。该模型采用混合量化与稀疏化的方法,实现了4比特激活和1比特权重。BitNet a4.8通过在中间状态中结合低比特激活和稀疏化,成功降低了计算需求,同时保持高准确性。通过选择性量化,该模型提供了一种高效的解决方案,有望将LLMs大规模部署在多种资源受限环境中。 BitNet a4.8的核心方法是一种两阶段的量化和稀疏化流程,专门用于降低异常值维度的量化误差。首先,模型在8比特激活下进行训练,逐步转向4比特激活,使其在保持精度的同时逐步适应低精度。这种两阶段训练方法使BitNet a4.8可以在量化误差较小的层中使用4比特激活,而在对精度要求较高的中间状态层则保留8比特稀疏化。通过针对特定层的量化敏感度调整比特宽度,BitNet a4.8在计算效率和模型性能之间达到了最佳平衡。此外,该模型仅激活55%的参数,并采用3比特的KV缓存,进一步提升了内存效率和推理速度。 在多项基准测试中,BitNet a4.8的性能超越了其前身BitNet b1.58以及其他模型如FP16 LLaMA LLM。在与BitNet b1.58的直接对比中,BitNet a4.8在保持相似精度的情况下提高了计算效率。例如,在7亿参数配置下,BitNet a4.8达到了9.37的困惑度分数,接近LLaMA LLM的水平,并在下游语言任务中表现出与全精度模型相差无几的平均准确率。其架构在最大配置测试中实现了高达44.5%的稀疏度,7亿参数版本中有3.4亿激活参数,显著减少了计算负荷。此外,3比特KV缓存加速了处理速度,使BitNet a4.8成为在不牺牲性能的前提下实现高效部署的有力候选。 综上所述,BitNet a4.8在应对LLMs计算挑战方面提供了颇具前景的解决方案,通过其混合量化和稀疏化的方法有效地平衡了效率与精度。这一方法增强了模型的可扩展性,为LLMs在资源受限环境中的部署开辟了新的途径。BitNet a4.8通过优化比特宽度和减少激活参数,成为了大规模语言模型部署的可行选项。
Open AI 的智能代理—
OpenAI的产品平台负责人Olivier Godement和开发者体验负责人Romain Huet正开启一场全球之旅。上周,他们在伦敦的DevDay开发者大会前夕接受了采访。这次伦敦的DevDay是公司首次在旧金山以外举办,接下来,他们还将前往新加坡。 最近OpenAI可谓繁忙异常。在伦敦,OpenAI发布了其最新的实时API平台更新,开发者现在可以通过平台为应用程序添加语音功能。这一更新不仅提供了全新语音,还加入了帮助生成提示的功能,使得构建应用程序和语音助手的流程更为快速便捷。同时,面向普通用户,OpenAI推出了ChatGPT搜索功能,用户可以通过聊天机器人进行网络搜索。 这些更新为AI的下一大潮流铺平了道路:智能代理——一种能完成复杂任务链的AI助手,比如自动预订机票。Godement预测,未来几年内,每个人和每家企业都将拥有一个“熟悉用户的助手”,像首席助手一样全面管理用户的邮件、应用程序、日程,甚至可以协助撰写特定主题的论文。 OpenAI的策略是既自行构建这些智能代理,同时也为开发者提供工具来开发自己的代理。Godement强调,语音将对智能代理的未来形态起到重要作用。现在的应用程序主要以文字对话为主,虽然适合大多数场景,但在某些情况下,语音显然是更好的交互方式。 不过,要让智能代理成为现实,Godement指出还需要克服两大难题。首先是“推理能力”的挑战。构建能够完成复杂任务并确保“正确执行”的AI模型至关重要。Huet提到,上个月OpenAI发布的o1模型中加入了“推理”功能,通过强化学习提升AI在链式思维上的能力,帮助模型分解问题、纠错、尝试多种方案来回答问题。 不过,对于OpenAI在推理能力方面的主张,华盛顿大学的计算机科学教授Chirag Shah持保留态度。他认为,这些大型语言模型并非真正具有推理能力,而只是对训练数据中的逻辑进行了模仿。Shah认为,这些模型表现得“像是有推理能力,但仔细观察会发现很快露出破绽”。 Godement也承认还有很多工作要做。短期来看,模型需要变得更加可靠、快速和经济。长期来看,OpenAI计划将“链式思维”技术应用到更多领域,例如法律、会计和经济学等。 另一个挑战是实现工具的互联性。AI模型仅依赖训练数据会有局限,需要具备实时上网能力来获取最新信息。ChatGPT搜索正是OpenAI赋予其AI的新功能之一,不仅可以获取信息,还能够在现实中采取行动。竞争对手Anthropic的Claude聊天机器人甚至可以模拟点击操作,而Godement表示o1目前也能“部分”实现工具操作,但还不够可靠。 Godement预计,未来一年内,AI在客户支持等助手任务中的应用将大幅增长。他坦言,AI技术的实际应用往往会超出预期,每年都会冒出一些意想不到的新应用。 在另一个AI前沿,AI公司Decart和Etched合作推出了一个实时生成的Minecraft版本,采用了“下一帧预测”技术。该AI模型通过数百万小时的Minecraft游戏数据训练,能够模拟游戏的物理和环境互动,尽管偶尔会出现如“环境幻觉”般的变化。这一技术或许预示着实时视频生成的未来。 最后,AI的迅猛发展也带来一些潜在问题。AI搜索可能扰乱数字经济,生成AI模型的设备更可能加剧电子垃圾问题,而一些AI生成的内容也引发争议。Facebook母公司Meta的CEO扎克伯格表示,将看到更多由AI生成或汇总的内容,这也许是令人兴奋的新内容形态。
特朗普的AI政策
当特朗普上一次担任美国总统时,ChatGPT 还没有诞生。而如今,在击败副总统卡玛拉·哈里斯赢得2024年大选之后,特朗普准备重返白宫,人工智能领域的格局也已发生翻天覆地的变化。 AI技术发展迅猛,甚至一些行业领袖,如Anthropic公司首席执行官达里奥·阿莫迪和特斯拉CEO、特朗普的支持者埃隆·马斯克都认为AI可能在2026年之前超越人类智能。其他人则提供了更宽泛的预测时间范围。OpenAI的CEO萨姆·阿尔特曼在九月的文章中提到,“我们或许将在未来数千天内迎来超级智能”,但他也补充说“这可能需要更长的时间”。而Meta的CEO马克·扎克伯格则认为这些系统的到来将是一个渐进过程,而非瞬间的突破。 无论进展多快,这种技术的快速发展对国家安全、经济乃至全球力量平衡可能产生深远的影响。 特朗普对AI的态度在敬畏和担忧之间摇摆不定。在六月的采访中,他将AI称为“超能力”,并表示其能力“令人警惕”。如同许多华盛顿政客一样,他也从与中国竞争的角度来看待这项技术,视中国为AI领域的“主要威胁”。 但即便是特朗普的核心盟友,也对AI政策存有分歧:马斯克一直强调AI的生存威胁,而特朗普的副总统J.D.范斯则认为这些警告是为了推动有利于科技巨头的法规。特朗普阵营内部的这种分裂表明,未来的AI政策可能会受到不同压力的影响。 推翻拜登的AI政策遗产 特朗普上任后的首要AI政策可能是废除拜登总统签署的人工智能行政命令。该命令旨在解决AI技术对民权、隐私和国家安全的潜在威胁,同时鼓励创新、竞争以及AI在公共服务中的应用。特朗普在竞选活动中承诺废除这一命令,并在2023年7月的共和党纲领中再次表态,指责该命令阻碍创新,并将“激进左翼思想”带入了技术发展中。 拜登的AI行政命令中有关种族歧视和不平等的部分显然不符合特朗普的风格,但分析人士认为他可能会保留一些两党都支持的条款。例如,特朗普政府可能会加强国土安全部在网络安全、生物和放射性风险评估方面的工作,以应对AI带来的风险。 拜登政府于去年设立的美国AI安全研究所(AISI)的未来也存在不确定性。AISI与OpenAI和Anthropic等公司签署了合作协议,致力于AI安全研究和新模型的测试。尽管有些人认为AISI会限制创新,但多数共和党人仍支持其存在,将其视为美国AI领导力的延伸。 美国优先AI政策与中美竞争 特朗普的相关言论表明,保持美国在AI领域的领先地位将是其执政的关键。他在六月份的一次采访中表示,“我们必须走在前列,必须领先于中国”。他还指出环保问题可能成为阻碍,认为这会拖慢美国的AI发展进程。研究员迪恩·鲍尔认为,特朗普的AI政策可能包括放宽法规,以加速AI基础设施的建设,包括数据中心和芯片生产。 出口限制也将是未来AI政策中的重要因素。基于他首个任期内实施的限制措施,特朗普很可能会进一步加大力度限制中国获取先进半导体。多数人认为,无论哪一方执政,出口管制对美中关系至关重要。 开源AI的兴起也带来了新的挑战。中国已展示出利用美国开源系统的能力,有报道称中国研究人员将Meta的Llama模型早期版本用于军事用途。这引发了政策争议。共和党内有些人支持开源,而另一些“鹰派”则强烈反对在AI前沿技术上开放代码。 尽管特朗普一向对中美竞争保持高调,但他的政策仍可能具备一定的交易性。例如,2018年特朗普曾在对中兴公司实施罚款和加强监管后解除了对其的限制。因此,分析人士认为,未来的AI政策中,特朗普可能会选择与中国达成类似的交易,尤其是如果他认可业界对AI极端风险的担忧,比如AI可能失控的潜在风险。 特朗普联盟内对AI政策的分歧 在AI治理方面,特朗普的支持者内部也存在深层次的分歧。像范斯这样的支持者倾向于对AI实施较为宽松的监管,而硅谷亿万富翁彼得·蒂尔等人则认为任何监管AI的措施都会带有“全球极权主义的特征”。然而,其他顾问则更注重AI的安全风险,尤其是人工通用智能的潜在风险。 马斯克对AI的生存风险表示长期关注,认为AI有10%至20%的可能性会“变坏”。尽管马斯克在推动AI安全方面积极发声,但特朗普政府未来在AI领域的任命和政策方向仍难以预测。 特朗普也已认识到AI对国家安全的潜在威胁。他曾担心AI生成的深度伪造可能引发核战的风险,甚至可能出现AI系统“失控”的情况。不过对特朗普而言,中美竞争仍然是最核心的关注点。 尽管政策内部声音不一,AI安全的保障并不必然意味着放缓发展。分析人士指出,在防止AI滥用方面的投入相对较少,特朗普团队未来可能如何平衡这些不同的声音,将对美国的AI政策方向产生重大影响。 随着全球AI竞争加剧,美国的政策走向或将影响未来的科技力量对比。
Anthropic发布了全新Haiku 3.5模型
Anthropic发布了全新Haiku 3.5模型,该模型现已通过Anthropic API、Amazon Bedrock和Google Cloud的Vertex AI平台向公众开放。 据Anthropic介绍,Haiku 3.5在代码生成、工具使用和逻辑推理方面表现更为出色,在许多基准测试中超越了上一代的旗舰模型Claude 3 Opus,尽管成本低约15倍。其定价为每百万输入tokens收费1美元,每百万输出tokens收费5美元,约为第一代Haiku的四倍。旧版Haiku目前仍在提供,且具备新款尚未具备的视觉处理功能。 在降低使用成本方面,用户可以通过缓存和批量处理提示来节省开支,与其他Anthropic模型类似。该模型适合对响应速度要求较高的任务,例如终端用户聊天机器人等应用。 先进的Claude 3.5模型:编码和工具使用显著提升 Anthropic在此次发布中还带来了Claude 3.5 Sonnet模型,并首次推出了AI与计算机交互的新功能。Claude 3.5 Sonnet在编程任务上进步显著,例如在SWE Bench验证测试中的得分从33.4%提升至49.0%,超越了所有公开可用的模型,甚至包括专门为编程设计的系统。此外,在代理工具使用测试(TAU Bench)中的表现也显著提升,在零售领域的得分从62.6%提升到69.2%,在航空领域则从36.0%提升至46.0%。 Anthropic还特别开发了API,使Claude可以感知并与计算机界面交互。开发者可以利用该API,将指令如“使用我的计算机和互联网数据填写此表格”转化为实际的计算机命令。Claude 3.5 Sonnet在OSWorld基准测试的“仅截图”分类中得分14.9%,大大高于次佳系统的7.8%,但与人类能力相比仍存在差距。 AI在全球监管下的未来 Anthropic的Claude 3.5 Haiku和Sonnet为AI应用带来了更多灵活性,但其潜在影响还需在全球范围内平衡发展与规范化。
特朗普上任对拜登AI政策的改变
一场艰苦的选举周期终于落下帷幕,唐纳德·特朗普将成为美国第47任总统。在共和党掌控参议院,并可能夺回众议院的情况下,特朗普的支持者们准备在政府最高层掀起巨变。 这种变化将直接影响到人工智能(AI)行业。长期以来,AI行业普遍反对联邦政策干预,而特朗普多次表示,计划在上任第一天就废除拜登的AI政策框架,并公开支持那些只容忍最轻微监管的行业巨头。 拜登的AI政策框架 拜登的AI政策主要通过2023年10月签署的“AI行政命令”生效。这项行政命令是由于国会在AI监管方面的行动迟缓而采取的补救措施,其内容均为自愿性条款而非强制要求。 该命令涵盖了从促进医疗AI应用到防止知识产权盗窃等多个方面。其中,两项关键条款在共和党内引发争议,涉及AI的安全风险和现实应用的安全影响。一项条款要求开发强大AI模型的公司向政府报告其模型训练和安全措施,并提供模型漏洞测试结果。另一项则要求商务部下属的国家标准与技术研究院(NIST)制定指南,帮助企业识别并修正模型中的偏见和缺陷。 在AI EO的推动下,商务部去年成立了“美国AI安全研究所”(AISI),负责研究AI系统的潜在风险,还开发了新软件以提高AI的可靠性,并通过与OpenAI和Anthropic的合作测试主要新模型。然而,特朗普阵营的批评者认为,拜登的AI EO中要求公司上报的条款太过繁重,可能导致企业泄露商业机密。 共和党人还指出,由于这些规定依赖《国防生产法》——一部1950年代颁布的法律,有些人将其视为行政权的过度扩张。共和党内一些人甚至认为NIST的AI标准是在试图通过“觉醒”的AI安全标准来控制言论。 替代拜登的AI行政命令? 如果拜登的AI EO被废除,未来的AI政策走向会如何?特朗普在上任期间曾签署的AI行政命令主要集中在建立AI研究机构,优先AI研发,并保护公民自由与隐私。然而,特朗普在竞选期间承诺的新政策含糊其辞,只表示会支持“基于言论自由和人类幸福”的AI发展。 一些共和党人则建议NIST专注于AI的物理安全风险,尤其是AI帮助对手制造生物武器的潜在威胁。然而,他们也不愿直接支持新的AI限制,担心可能会影响到NIST现有的指导方针。AISI的未来也因其存在与拜登的行政命令挂钩而前景不明。 州法规的兴起 乔治·梅森大学的研究员迪恩·鲍尔(Dean Ball)认为,特朗普的胜利预示着联邦层面将采取轻度监管政策,更多依赖现有法律,而非新立法规。这可能鼓励加州等民主党主导的州在AI监管上大展拳脚。今年,美国各州已提出了近700项AI相关立法。比如,加州今年通过多项AI安全法案,要求公司公开AI训练细节。 与此同时,特朗普的贸易政策也可能影响AI行业。例如,特朗普计划对所有进口商品征收10%的关税,并对中国产品征收60%的关税。这类政策可能导致AI研发所需资本紧缩。 政治与全球AI治理 特朗普对中国的技术出口限制或将升级,可能包括对AI芯片和模型的出口管制。雪城大学教授哈米德·埃克比亚(Hamid Ekbia)认为,这种保护主义政策可能阻碍全球AI合作,使得AI在全球范围内被用于更具威权色彩的应用。 不论是技术限制还是关税,特朗普的政策都可能对AI领域产生深远的经济影响。尽管特朗普在竞选时很少谈及AI,但他的其他政策,例如限制H-1B签证和大力发展石油产业,都可能对AI行业产生间接影响。 AI监管不应成为党派之争 牛津大学的数据伦理学教授桑德拉·瓦赫特(Sandra Wachter)提醒道,无论政党立场如何,AI的风险都是现实存在的。她呼吁监管机构不应将AI治理简化为党派问题,因为这关系到所有人,超越了地理和党派的界限。
探索人工智能的不同形态与未来方向:从ANI到AGI,再到ASI
探索人工智能的不同形态与未来方向:从ANI到AGI,再到ASI 随着人工智能(AI)技术的发展,了解其不同形态和未来趋势变得越来越重要。人工智能主要分为三大类:人工窄智能(ANI)、人工通用智能(AGI)和人工超智能(ASI)。这三类AI各自代表了AI发展的不同阶段,反映出智能水平的层次与潜在的影响力。本文探讨了这三种类型的AI、其能力及对技术发展的意义。 人工窄智能(ANI) 目前最常见的AI形式是人工窄智能,也称为“窄AI”或“弱AI”。ANI专为特定、受限的任务而设计,仅能在设定范围内执行特定功能,无法超越编程范围或进行知识迁移。虽然ANI不具备人类智能的灵活性,但在特定任务上表现卓越,例如面部识别、语言处理和数据模式分析。 ANI的典型案例 智能手机的虚拟助手,如Apple的Siri或Amazon的Alexa,是ANI的代表性应用。它们能够回答问题、设置提醒,甚至控制智能家居设备,但其回应受到编程和训练数据的限制。此外,像Netflix和Spotify等平台的推荐算法根据用户的偏好个性化内容,也属于ANI应用。自动驾驶汽车也依赖ANI,通过传感器和机器学习模型来安全地导航。 虽然目前唯一实际可用的AI形式是ANI,但它在多个行业中已经展现了许多应用场景,从金融市场分析到医疗诊断等。然而,ANI的主要局限在于其缺乏通用性,无法超越其设计的狭隘任务范围,从而无法达到人类的认知能力。 人工通用智能(AGI) 人工通用智能,又称“强AI”,理论上指的是可以执行任何人类智力任务的AI。与仅限于特定任务的ANI不同,AGI具备理解、学习并广泛应用信息的能力。AGI将具备类似人脑的推理、规划、问题解决和情境适应能力。 AGI的挑战 AGI的实现仍主要停留在理论阶段,面临重大科学和技术障碍。除了对运算能力的要求外,AGI还需深刻理解人类意识和认知的机制。由于人类大脑的复杂性尚未完全解明,模拟其功能的AGI依然遥不可及。 尽管AGI潜力巨大,但同时也带来了伦理和法律方面的挑战。AGI可能会改变诸多领域,例如在医疗领域可处理大量数据,精准诊断疾病;在法律领域快速分析案例法律,提供低成本的法律咨询服务。拥有类似人类智能的机器将产生深远的社会影响,需加以严密监管。 人工超智能(ASI) 人工超智能是指在所有方面(如推理、创造力和情感智能)均超越人类的AI。若ANI是当前的实际应用,AGI是人类智能水平的目标,那么ASI便是AI发展的终极目标。ASI理论上能在科学发现、创造力等领域超越人类最聪明的头脑。 ASI常被视为奇点事件,即AI技术在未来某一时刻达到极点,可能彻底改变人类文明甚至重塑“人类”概念。由于ASI具有自我改进的潜力,其知识和能力可在反馈循环中快速、指数级增长。 然而,ASI也带来巨大的风险。其智能水平远超人类,可能以难以预测和控制的方式实现目标。正因如此,业界对AI向ASI发展的安全性呼声愈发高涨,需制定严格的道德标准和安全措施,以控制AI向ASI的发展。学者和行业先锋如埃隆·马斯克和已故的史蒂芬·霍金都曾强调,AI的发展必须符合人类的价值观。 结论 人工智能从ANI到AGI,再到ASI,展示了从特化智能到人类水平智能,乃至超人类智能的进化历程。当前,人类已进入ANI时代,各种特定任务的AI应用正不断改进,改善日常生活并变革行业。AGI虽仍处于推测阶段,但若实现,将成为能够与人类认知能力相匹配的多功能工具,推动各个领域的变革。ASI则是一个尚不可及但极具潜力的未来,既充满了希望,也伴随着巨大的风险。 随着AI技术不断进化,安全措施和伦理考量显得尤为重要。在未来,ANI将继续优化当前的技术应用,AGI或将引领下一次重大进展,而ASI如果实现,将彻底改变人类存在的定义。了解ANI、AGI和ASI的差异,有助于人们更好地管理这一飞速发展的技术前景,同时理解其潜在的风险和机遇。