AI蛋白质结构预测工具AlphaFold3现已开源。11月11日,伦敦的谷歌DeepMind公司宣布,这款诺贝尔奖获奖模型的代码现可供学术界下载用于非商业用途。这一决定是在DeepMind因未公开代码而备受批评后做出的,许多科学家认为这阻碍了科学复现。DeepMind团队在6个月后最终兑现承诺,将AlphaFold3的代码向学术界开放。 AlphaFold3与之前版本的不同之处在于,它不仅能预测单个蛋白质的结构,还可以模拟蛋白质与其他分子(例如DNA)的相互作用。然而,在此前仅提供的网络服务器版本中,科学家无法通过AlphaFold3预测蛋白质在潜在药物中的行为。现在,研究人员可以通过自己运行模型来实现这些交互预测,大大推动了药物研发。 当初,DeepMind只通过网络服务器提供AlphaFold3,意在平衡研究开放性与商业利益保护。其衍生公司Isomorphic Labs专注于将AlphaFold3用于药物发现。然而,限制访问模型代码和权重的决定引发了科学界的不满。如今,尽管代码已经开源,但权重文件仅向学术科研人员开放,且需单独申请。 值得注意的是,DeepMind并不是唯一一家发布蛋白质结构预测工具的公司。过去几个月,百度、字节跳动以及加州旧金山的初创公司Chai Discovery等公司也相继发布了基于AlphaFold3原理的预测模型。尽管这些模型不允许用于商业应用,但Chai Discovery的模型Chai-1可以通过网络服务器提供预测服务。同时,旧金山的Ligo Biosciences推出了不受限制的AlphaFold3版本,但功能尚不完整,尚不支持对药物等非蛋白质分子进行模拟。 计算生物学家AlQuraishi表示,他的团队也在开发完全开源的版本OpenFold3,预计年内发布,这将为药企提供自由调整模型、并用专有数据进行再训练的可能性。 对开放性的关注也反映了生物AI模型发布方式的多样化趋势。威斯康星大学麦迪逊分校的计算生物学家Anthony Gitter指出,科研公司若在期刊和预印本中分享成果,应确保信息的透明性,否则难以获得学术界的信任。 实际上,AlphaFold3的高复现性使得多个团队在不依赖源代码的情况下已实现类似模型。DeepMind科学AI负责人Pushmeet Kohli指出,这一现象显示了模型本身的可复现性,但他也期待学术界和企业研究人员间关于出版规范的更深入讨论。 AlphaFold2的开源推动了大量创新,最近一场蛋白质设计竞赛中,获胜团队便利用其设计出了一种能结合癌症靶点的新蛋白质。AlphaFold3开源后,项目负责人Jumper表示期待更多意外的创新,尽管其中不乏失败的可能。他认为这种多样化的探索方式能带来更丰富的科研成果。
亚马逊正在开发专为送货司机设计的智能眼镜
据路透社报道,亚马逊正在开发专为送货司机设计的智能眼镜,旨在提供逐步导航功能,从而缩短每次投递的时间。据称,该项目名为“Amelia”,是亚马逊提升“最后100码”送货效率的一部分。这个智能眼镜基于现有的Echo Frames平台,但不同的是,它不仅仅是音频输出,还将内嵌显示屏,为司机提供更精准的导航,比如在下电梯后提醒向左或向右转。除此之外,亚马逊还在研究添加摄像头的可能性,使司机能够拍下包裹照片作为交付证明。这样一来,司机在送货过程中完全解放双手,携带更多包裹成为可能,而这些节省的时间则能进一步提高配送量。 当然,实现这项技术可能还需要一段时间。将显示屏加入普通眼镜或音频型智能眼镜(如当前的Echo Frames)是一项不小的工程挑战,许多公司在这一点上都遇到过失败。报道指出,亚马逊目前面临的困难之一是如何在保证眼镜轻便的前提下,让电池支撑8小时的完整工作时长。此外,许多人已经佩戴矫正镜片,而智能眼镜难以适配各种处方度数,这也是消费级产品面临的普遍问题。亚马逊还需要说服其庞大的司机团队使用这项技术,其中许多司机还是第三方合同工。另外,为了实现精确的导航,亚马逊也需要大量数据支持,如建筑布局、人行道、街道等信息,这可能需要数年时间才能完成数据积累。 亚马逊进军企业市场的想法并不出人意料。路透社的消息人士还透露,上代Echo Frames的销量不到1万副,远不及同期推出的Ray-Ban Meta眼镜。智能眼镜和AR头显产品从消费市场转向企业市场的策略早已成为趋势,包括谷歌眼镜、Magic Leap和微软的HoloLens。此外,亚马逊未来是将这项技术仅用于自家配送网络,还是开放给第三方企业仍不明朗。不过,报道指出,亚马逊计划为未来的Echo Frames增加显示屏,这一消费级产品最早可能在2026年第二季度亮相。
网络数据集关系分析:自动识别和优化数据集的关系
在网络数据集数量急剧增长的今天,数据集间复杂的关系越来越重要,尤其对于数据研究人员和使用数据集的从业者。Google的研究工程师Kate Lin和研究科学家Tarfah Alrashed在《Relationships are Complicated! An Analysis of Relationships Between Datasets on the Web》中提出了一套方法,通过自动化识别网络数据集关系,以帮助用户在数据集发现过程中更高效地找到、评价和引用数据集。本文基于schema.org标记的网络数据集大规模语料库进行了这些方法的性能比较。 数据集关系的定义 研究团队定义了用户在数据集发现和共享过程中可能进行的四个关键任务: 基于这些任务,研究将数据集关系分为两大类:源起关系和非源起关系。源起关系包括相同数据集在不同平台上的“副本”、随时间更新的“版本”、特定数据集的“子集”、多数据集组合的“派生”关系等。而非源起关系则基于数据内容或用途的关联性,比如主题相似或可整合的数据集。 方法开发与分析 研究团队开发了四种识别方法,并对这些方法在不同关系类别上的性能进行了对比: 实验结果 团队从网络抓取包含schema.org元数据的网页,生成了一个包含270万个数据集元数据条目的语料库。通过对2,178对数据集手动标注生成了用于训练和测试的“真值”数据。实验表明,GBDT和T5模型在识别数据集关系方面表现最佳,其中GBDT在各类别关系的F1评分上领先,T5模型在派生关系识别中表现尤为优异。然而,schema.org标注方法的整体准确率较低,仅为0.33,而启发式方法为0.65。GBDT和T5模型的总体准确率分别达到了0.90和0.89。 结论与未来展望 实验表明,当前schema.org元数据不足以完整捕获数据集间的关系,特别是在检测版本、子集和派生关系时存在较大不足。研究人员建议改进schema.org的元数据标准,使其更好地适应数据集发现和使用需求,同时推广最佳实践以鼓励数据集作者标注更详细的元数据。 未来,研究团队计划进一步探索非源起关系,优化数据集的检索和使用体验,帮助用户快速找到适合其需求的数据集,并推进数据共享标准的发展。
生成模型中引入多模态嵌入
多模态检索增强生成(RAG)技术正在快速增长,企业正逐步尝试在其生成模型中引入多模态嵌入。这一技术可以将文本、图像和视频等多种数据形式转化为AI可读取的数值表示,从而让生成模型能够检索和处理不同类型的文件,帮助企业实现从财务图表、产品目录甚至是视频中提取信息的功能,为企业提供更全面的业务视角。 为什么多模态RAG值得尝试 多模态RAG技术可以将各种数据嵌入成统一的表示方式,使得检索生成模型不仅能处理文本,还可以跨文本、图像和视频进行搜索,从而提升信息获取的全面性和准确性。以Cohere最近更新的多模态嵌入模型Embed 3为例,该模型能够处理图像和视频嵌入,让企业能更有效地利用自身不同类型的数据资源。然而,Cohere的解决方案架构师Yann Stoneman建议企业在全面部署之前,先进行小规模测试,以便评估模型性能并为具体的应用场景作出适应性调整。 数据准备:多模态RAG的核心 在多模态RAG中,数据预处理极其重要。图像在输入模型之前需要标准化尺寸,同时还要权衡是否提高低分辨率图像的清晰度以确保细节不丢失,或者降低高分辨率图像的质量来减小处理负担。此外,系统需要支持图像路径(如URL或文件路径)与文本数据的结合,从而提供流畅的用户体验。企业可能还需要编写自定义代码,将图像检索与文本检索集成在一起,以保证系统的平滑运行。 多模态嵌入的广泛应用前景 当前大部分RAG系统仍以文本数据为主,因为文本数据的嵌入处理更为简单。但随着企业数据多样性的增加,能够处理图片和文本的RAG需求变得越来越迫切。传统上,企业可能会使用不同的RAG系统和数据库来处理不同类型的数据,无法实现混合模式的搜索。而多模态RAG技术则解决了这一难题,许多公司开始提供帮助企业准备多模态数据集的工具,比如Uniphore为企业提供了准备多模态RAG数据集的方案。 总之,多模态RAG让企业可以在同一系统中整合文本、图像和视频数据,支持跨模态的查询与生成。这不仅提高了数据检索的精确性和效率,还让企业可以在信息获取方面实现更高的智能化,迎接下一波AI驱动的业务创新。
提升AI性能的关键大型语言模型(LLM)压缩策略
在当今快速变化的数字环境中,依赖AI的企业面临新的挑战:延迟、内存使用和计算成本不断攀升。随着AI迅猛发展,这些支持创新的模型变得越来越复杂,资源消耗也更大。尽管大型模型在多种任务上表现出色,但它们往往伴随巨大的计算和内存需求。 对于实时AI应用,如威胁检测、欺诈识别、指纹识别登机等,提供快速、准确的结果至关重要。企业加速AI实施的动机不仅在于降低基础设施和计算成本,还包括提高运营效率、缩短响应时间和提升用户体验,这些都会带来切实的业务收益,如改善客户满意度和减少等待时间。 解决方案:小模型与硬件升级的利弊 当前两种直接的解决方案是:一是训练较小的模型,以牺牲准确性和性能来换取速度;二是投资更好的硬件,如GPU,以低延迟运行复杂的AI模型。然而,GPU需求远超供应,这会迅速推高成本,并且无法解决在智能手机等边缘设备上运行AI模型的需求。 模型压缩技术的引入 模型压缩技术应运而生,通过减少AI模型的大小和计算需求来在保持性能的同时降低资源占用。本文将探讨几种主要的模型压缩策略,帮助开发者在资源有限的环境中也能有效部署AI模型。 模型压缩的优势 压缩机器学习(ML)模型有多重好处。首先,大模型虽然准确率高,但运行预测需要大量计算资源。许多顶尖模型(如大型语言模型和深度神经网络)计算成本高、内存密集。在实时应用中,如推荐引擎或威胁检测系统,这类模型往往依赖高性能GPU或云基础设施来满足需求,进而增加成本。 其次,许多AI应用对低延迟预测有严格要求,需要高性能硬件来缩短响应时间,预测量越大,成本越高,尤其是在机场、银行或零售等需要大量实时推理请求的场景下,费用会显著增加。这种高运营负载要求企业在延迟和成本方面进行合理管理,以避免AI扩展过快消耗资源。 更重要的是,模型压缩不仅涉及成本问题。较小的模型消耗更少的能量,延长移动设备的电池寿命,减少数据中心的能源消耗,降低运营成本,同时也使AI开发与环境可持续性目标相契合,减少碳排放。通过应对这些挑战,模型压缩技术为更具实践性、经济性和可广泛部署的AI解决方案铺平了道路。 顶级模型压缩技术 压缩后的模型能更快速、高效地进行预测,使实时应用从安检到身份验证等领域的用户体验得以提升。以下是几种常见的模型压缩技术。 模型剪枝 模型剪枝是一种通过移除对模型输出影响较小的参数来缩小神经网络的技术。去除冗余或无关权重后,模型的计算复杂度降低,推理时间更快,占用的内存更少,形成一个精简的模型。对于企业而言,剪枝能在不大幅牺牲准确性的前提下降低预测时间和成本。剪枝可以反复进行,直到达到所需的模型性能、大小和速度。 模型量化 量化是一种优化机器学习模型的强大方法,通过将模型参数和计算的数值精度从32位浮点数降至8位整数,从而显著减少模型的内存占用并提升推理速度,使其能在性能不强的硬件上运行。量化能带来高达4倍的内存和速度提升,在计算资源有限的环境(如边缘设备或移动手机)中,量化帮助企业更高效地部署模型,并降低AI服务的能源消耗与成本。 通常,量化是在训练完成的AI模型上进行,并通过一个校准数据集来减少性能损失。如若性能损失超过可接受范围,可以在量化的学习过程中加入量化感知训练,以维持精度。量化也可以与模型剪枝结合,进一步提升模型的性能和速度。 知识蒸馏 知识蒸馏通过训练一个较小的“学生”模型来模拟较大、复杂的“教师”模型的行为。学生模型在原始训练数据及教师模型的概率输出上训练,以此传递不仅仅是最终的决策,还包括更深层次的“思维逻辑”。 学生模型聚焦于数据的关键方面,能在大幅减少计算需求的前提下保持教师模型的大部分准确性。对于企业而言,知识蒸馏允许在低推理成本下部署较小、较快的模型,特别适合在实时应用中对速度和效率有较高要求的场景。学生模型还可以进一步应用剪枝和量化技术,从而得到既轻便又高效的模型。 结论 在企业寻求扩展AI业务的过程中,实施实时AI解决方案已成为关键。模型剪枝、量化和知识蒸馏等技术通过优化模型,帮助企业实现更快、更低成本的预测,而性能损失极小。通过采用这些策略,企业不仅能降低对昂贵硬件的依赖,还可将模型更广泛地应用到各项服务中,确保AI成为运营中经济可行的部分。在当前的数字格局中,优化机器学习推理不仅是选择,更是必要。
2025年人工通用智能(AGI)的到来
在最近的Y Combinator节目《How to Build the Future》中,OpenAI的首席执行官山姆·奥特曼表示,他对2025年人工通用智能(AGI)的到来充满期待。当YC总裁加里·谭问到奥特曼对来年最为兴奋的事情时,奥特曼提到AGI将成为一个划时代的里程碑。 奥特曼还分享了他对OpenAI发展历程的反思,并为那些在迅速变化的AI领域中寻求机会的创业者提供了指导。此外,奥特曼透露,他预计将在2025年迎来自己的孩子。这一私人生活中的新篇章与他对AGI的期待交织,预示着无论在职业还是个人层面,他都将在2025年迎接重大变化。 AI领域的领军人物,包括Anthropic的达里奥·阿莫代和OpenAI的山姆·奥特曼,认为“强大的AI”甚至是超级智能可能会在未来两到十年内出现,彻底改变人类世界。 在阿莫代最新的文章《机器的温柔》中,他探讨了AI的潜力,推测强大的AI(即广义人工智能,AGI)或许最早能在2026年实现。而在《智能时代》一书中,奥特曼提到:“超级智能可能会在几千天内出现”(即2034年左右)。如果这些预言准确,那么在未来十年内,全球或将迎来一场翻天覆地的变化。 作为AI研究和开发的领军者,阿莫代和奥特曼的观点尤其具有影响力。阿莫代将强大的AI定义为“在生物学、编程、数学、工程学和写作等大多数重要领域超越诺贝尔奖得主的AI。”而奥特曼没有在文章中明确定义超级智能,但一般认为它是跨领域地超越人类智能的系统。 然而,并非所有人都对这一乐观时间表持支持态度。OpenAI联合创始人伊利亚·苏茨克维尔创建了一家名为“安全超级智能”(Safe Superintelligence, SSI)的新公司,以安全为中心开发AI。在SSI成立时,苏茨克维尔宣称:“我们的目标是直奔安全超级智能,专注于一个目标和一个产品。”他还透露,已为该公司筹集了10亿美元。 这些预测与埃隆·马斯克的估计相符。马斯克近期表示,AI将在2029年前超越全人类的能力。他预测,AI将在一到两年内能够完成任何人类任务,再经过三年,AI将能完成所有人类合力所能达成的事。而未来学家雷·库兹韦尔早在1995年便预测,AGI将在2029年实现,并在2005年畅销书《奇点临近》中详细阐述了这一预言。 迫在眉睫的转型 当下的形势表明,如果这些预测成真,人类将迎来一个全新的世界。今天出生的孩子可能在一个已被AGI改变的世界中上幼儿园,而当他们进入青春期时,也许将有AI“同伴”相伴左右。作家石黑一雄在小说《克拉拉与太阳》中描绘的未来生活不再显得遥不可及,而是可能成为现实,甚至带来深远的伦理和社会挑战。 这些技术的潜在影响在历史上前所未有,它们既可能带来福祉,如癌症和抑郁症治疗的突破,甚至是聚变能量的实现,也可能带来极端风险,如大规模失业、收入不平等和自主武器的失控。 在短期内,MIT Sloan的首席研究科学家安德鲁·麦卡菲认为AI将主要协助而非取代人类工作。他在近期的一期播客中将AI比作“随叫随到的文书、同事和教练。”然而,埃隆·马斯克认为长期来看“我们大概都将失业。”这一观点的对比揭示了一个关键点:AI的能力和影响在几年内可能会发生巨大转变。 调整期望:在乐观与现实之间找到平衡 尽管预测充满野心,但并非所有人都认同强大AI近在咫尺的观点。深度学习批评者加里·马库斯一再警告,当前AI技术距离AGI尚有不小差距,缺乏实现深度推理的关键能力。他甚至曾提出以100万美元证明马斯克的预测错误。 Linux操作系统的创建者林纳斯·托瓦兹也持怀疑态度,他表示AI的影响目前“90%是营销,10%是真实。”他认为,目前的AI技术存在一定的炒作成分。作为佐证,OpenAI最近发布的一项研究显示,最前沿的大型语言模型在回答简单事实问题时表现不佳,最新的SimpleQA基准测试显示,表现最好的模型o1-preview在半数问题上给出了错误答案。 面向未来:准备迎接AI时代 尽管AI的发展速度飞快,当前的能力与AGI仍有较大差距。正如Amara法则所言,人们常常高估新技术的短期影响,但低估其长期潜力。尽管AGI的出现可能不会如一些预测那样迅速,但其潜在的深远影响可能远超当下的设想。 正因如此,当前的技术局限成为宝贵的缓冲,为我们赢得时间去制定安全框架、改进社会机构并为可能的转型做准备。AGI到来的问题不仅在于何时会实现,更在于我们是否能在它到来时做好应对准备。
在本机上跑LLM的体会
在过去一个月里,作者开始探索快速发展的大型语言模型(Large Language Models,LLM)领域。如今,技术进步已让LLM变得相当易用——现在一个比原版ChatGPT(2022年11月)的模型甚至能运行在树莓派上,而更高性能的AI则可以在普通台式机或笔记本电脑上轻松运行。这不仅更私密,还可以离线使用,无需注册,且使用无限制。技术正在以飞快的速度进步,几个月的时间信息就可能过时。本文总结了作者的实践经验,分享了他在入门时希望自己能掌握的知识。需要注意的是,作者是LLM领域的“外行”,并不具备独到的见解,且很可能误解了某些内容。不过,文章本身仍为探索这项技术的快照,有望在一年后成为历史上的一个小注脚。 LLM即大型语言模型,如果说对其功能不太了解,那只需知道这类神经网络在2022年因训练成对话型“聊天”模式而取得重大突破。用户可以与一个极具创造力的人工智能对话,该技术不仅轻松通过了图灵测试,还能展现惊人的创造性。与之初次互动的感觉往往让人不安,这种不安会持续几天。试想购买一台普通家用电脑时,大多数人绝不会期待它具备对话能力。 这种体验令人回想起上世纪90年代的桌面计算机革命,当时,刚买的新电脑还没带回家就已经有了更新换代的款式。现在的技术也是如此,每周都有新进展,导致对一年以上的旧信息大多可以忽略。作者习惯在r/LocalLLaMa社区跟进最新动态,但每条信息都被极度夸大,因此作者保持着谨慎的怀疑态度。 作者对“厂商锁定”格外警惕,因为之前因服务关闭、变化或不再支持而导致他必须放弃原有的使用模式。因此,他曾一度忽略LLM,仅仅是因为那些“闭源”模型只能以服务形式访问,且容易受到厂商锁定的影响,甚至服务质量会悄然下降。但当得知可以在自己的硬件上运行接近前沿的模型时,这种情况发生了根本改变,这种方式完全避免了厂商锁定的问题。 本文关注如何运行LLM,不涉及微调训练,甚至没有涉及其他“多模态”功能如视觉或语音等。这些功能并不适合作者的个人需求。 运行LLM时需准备软件和模型: 软件 作者主要使用了令人惊叹的llama.cpp。该软件适合基本的CPU推理,即使用CPU生成token,而非GPU。特别之处在于,它仅需一个C++工具链,避开了常见的Python依赖问题。在Windows上,仅需一个5MB大小的可执行文件llama-server.exe,无需额外运行时依赖文件。只需两个文件,EXE和GGUF(模型),就能利用内存映射来加载模型,未来25年后甚至还能在新版Windows系统上“开箱即用”。 作者特别推荐CPU推理,但前提是GPU推理无法实现。CPU推理适用于10B以下参数的模型,但相对较慢。而在GPU推理方面,瓶颈在于显存(VRAM)。对于8GB以下VRAM配置,使用CPU推理反而更简单入门。 在llama.cpp工具集中,作者主要使用llama-server程序,这是一个HTTP服务器,默认端口为8080,带有聊天UI和API接口,适合在其他用户界面中使用。 模型 Hugging Face是LLM的“GitHub”,存储了大量模型。“小”模型在几个GB左右,而“大”模型则达上百GB,且大多数模型免费下载。就llama.cpp而言,作者建议下载GGUF格式的模型。Meta的旗舰模型Llama 3.2目前仅支持1B和3B的参数,在实际使用中并不十分有用,而3.1的8B模型会是更佳选择。 不同的模型具备不同的权衡取舍,强项和弱项也有所不同。作者的台式机配备了RTX 3050 Ti显卡和8GB显存,这一限制形塑了他的选择。作者的“每秒token生成数”(t/s)均在此硬件配置上运行。 最喜欢的模型 其他模型还包括用于程序生成的FIM(Fill-in-the-Middle,填充中间)模型。作者发现代码生成目前仍存在较大局限性,但他推荐了DeepSeek-Coder-V2-Lite(16B)、Qwen2.5-Coder-7B和Granite-8B-Code作为程序生成模型。 用户界面 尽管llama.cpp提供了内置UI,作者自行构建了一个名为Illume的CLI工具,将标准输入转换为API查询,并流式输出至标准输出,特别适用于Vim。Illume允许用户在标准文本编辑器缓冲区中交替编写用户和助手输入,适合创作对话式故事。 FIM(填充中间)是LLM中一种新兴的训练方式,主要应用于代码生成。FIM训练允许LLM预测中间token,但它仍处于早期阶段,尚未广泛应用。 LLM的应用边界 LLM的实际用途仍然有限,适合特定任务,比如校对、创作短篇小说、生成有趣的互动对话或语言翻译。相比之下,LLM在正确性要求较高的任务中并不理想。代码生成也面临不小的局限,LLM编写代码的能力仍处于本科水平,在软件工程中的实际适用性很低。 总结 尽管LLM的实用性有限,但作者仍对这一技术的未来发展充满期待。这是近年来令他最激动的科技进步之一。
NVIDIA研究团队推出MM-Embed
在信息检索领域,创建能够在不同格式间无缝理解并提取相关内容的系统是一项巨大挑战。当前的大多数检索模型仍然局限于单一模态(仅文本或仅图像的检索),在信息丰富的现实场景中,尤其是视觉问答和时尚图像检索等需要文本与图像结合的应用中,这种限制显得尤为明显。因此,开发一种能够同时处理文本和图像以及其组合的多模态检索系统成为当务之急。多模态检索的主要难点在于实现跨模态理解,并克服各模态中的固有偏差。 针对这一需求,NVIDIA研究团队推出了MM-Embed,这是一款在多模态M-BEIR基准测试中取得顶级效果的多模态检索模型,并在文本模态的MTEB检索基准测试中跻身前五。MM-Embed致力于弥合多种检索格式之间的差距,使用户在跨越文本和图像内容的搜索中获得更流畅的体验。研究人员将MM-Embed与多模态大型语言模型(MLLM)结合,并作为双编码器在16项检索任务和10个数据集上进行了微调,展示了其广泛适用性。与其他模型不同,MM-Embed不仅支持单一数据类型,还能处理由文本和图像组成的复杂查询。此外,引入模态感知的负样本挖掘技术,有效降低了MLLM中常见的模态偏差,显著提升了检索质量。 MM-Embed的技术实现包括一系列关键策略,以最大化其检索性能。该模型采用双编码器架构,结合模态感知的负样本挖掘,从而更准确地处理混合模态数据。简单来说,这种挖掘方法使模型能够更好地聚焦于目标模态(无论是文本、图像或两者的组合),从而提高应对复杂文本-图像查询的能力。此外,MM-Embed持续进行微调,以提高其文本检索能力,并且不影响多模态任务中的表现。因此,无论是响应有关图像的文本查询,还是根据复杂描述查找相似图像,MM-Embed在各种场景中都表现出色。 这项进展意义重大。首先,MM-Embed在多模态检索中树立了新的基准,在所有M-BEIR任务中达到了52.7%的平均检索准确率,超越了此前的顶级模型。尤其是在特定领域,MM-Embed表现尤为优异。例如,在MSCOCO数据集上的检索准确率(R@5)达到73.8%,显示出其对复杂图像说明的理解能力。此外,通过零样本重排序,MM-Embed在处理复杂的文本-图像查询(如视觉问答和组合图像检索任务)时进一步提升了检索精度。在CIRCO的组合图像检索任务中,MM-Embed的排名准确率提高了7个百分点,展示了在真实复杂场景中,通过提示LLM进行重排序的有效性。 总的来说,MM-Embed代表了多模态检索领域的重大进步。通过高效整合并提升文本和图像检索能力,它为更灵活、更智能的搜索引擎铺平了道路,使其能够满足现代用户在多样化的数字信息环境中的需求。
BitNet a4.8 一款高效且精确的4比特大型语言模型(LLM)
大型语言模型(LLMs)已成为自然语言处理领域的基础,尤其是在需要理解复杂文本数据的应用中。然而,由于模型体积庞大,计算资源需求巨大,因此在延迟、内存占用和功耗方面面临着挑战。为使LLMs更适合规模化应用,研究人员正在积极开发降低计算成本的技术,同时保持模型的精度和实用性。这项努力主要集中在改进模型架构上,通过减少数据表示所需的比特数,使高性能语言模型能够在各种环境中大规模部署成为可能。 LLMs的资源密集型特性是其长期存在的问题,尤其是在推理阶段,要求大量的计算能力和内存。尽管模型优化方面已有进展,但计算成本仍是许多应用的门槛。其开销主要源于庞大的参数量和处理输入与生成输出所需的复杂操作。此外,随着模型复杂性的增加,量化误差的风险也随之上升,进而可能影响精度和可靠性。为应对这些效率挑战,研究领域正着力于降低权重和激活值的比特宽度,以减少资源消耗。 为应对效率问题,已经提出了多种方法,其中激活稀疏化和量化成为了重要手段。激活稀疏化通过选择性地停用低幅值的激活项来减少计算负荷,特别适用于长尾分布的激活数据,其中许多不重要的数值可以被忽略而不影响性能。而激活量化则是通过降低激活值的比特宽度来减少每一步计算所需的数据传输和处理资源。然而,这些方法在遇到数据中的大幅值异常值时往往会受到限制,因为这些异常值在低比特表示下更难以精确处理,可能会引发量化误差,影响模型的准确性,并阻碍LLMs在资源受限环境中的部署。 对此,微软研究院和中国科学院大学的研究团队提出了一种新方案,名为BitNet a4.8。该模型采用混合量化与稀疏化的方法,实现了4比特激活和1比特权重。BitNet a4.8通过在中间状态中结合低比特激活和稀疏化,成功降低了计算需求,同时保持高准确性。通过选择性量化,该模型提供了一种高效的解决方案,有望将LLMs大规模部署在多种资源受限环境中。 BitNet a4.8的核心方法是一种两阶段的量化和稀疏化流程,专门用于降低异常值维度的量化误差。首先,模型在8比特激活下进行训练,逐步转向4比特激活,使其在保持精度的同时逐步适应低精度。这种两阶段训练方法使BitNet a4.8可以在量化误差较小的层中使用4比特激活,而在对精度要求较高的中间状态层则保留8比特稀疏化。通过针对特定层的量化敏感度调整比特宽度,BitNet a4.8在计算效率和模型性能之间达到了最佳平衡。此外,该模型仅激活55%的参数,并采用3比特的KV缓存,进一步提升了内存效率和推理速度。 在多项基准测试中,BitNet a4.8的性能超越了其前身BitNet b1.58以及其他模型如FP16 LLaMA LLM。在与BitNet b1.58的直接对比中,BitNet a4.8在保持相似精度的情况下提高了计算效率。例如,在7亿参数配置下,BitNet a4.8达到了9.37的困惑度分数,接近LLaMA LLM的水平,并在下游语言任务中表现出与全精度模型相差无几的平均准确率。其架构在最大配置测试中实现了高达44.5%的稀疏度,7亿参数版本中有3.4亿激活参数,显著减少了计算负荷。此外,3比特KV缓存加速了处理速度,使BitNet a4.8成为在不牺牲性能的前提下实现高效部署的有力候选。 综上所述,BitNet a4.8在应对LLMs计算挑战方面提供了颇具前景的解决方案,通过其混合量化和稀疏化的方法有效地平衡了效率与精度。这一方法增强了模型的可扩展性,为LLMs在资源受限环境中的部署开辟了新的途径。BitNet a4.8通过优化比特宽度和减少激活参数,成为了大规模语言模型部署的可行选项。
Open AI 的智能代理—
OpenAI的产品平台负责人Olivier Godement和开发者体验负责人Romain Huet正开启一场全球之旅。上周,他们在伦敦的DevDay开发者大会前夕接受了采访。这次伦敦的DevDay是公司首次在旧金山以外举办,接下来,他们还将前往新加坡。 最近OpenAI可谓繁忙异常。在伦敦,OpenAI发布了其最新的实时API平台更新,开发者现在可以通过平台为应用程序添加语音功能。这一更新不仅提供了全新语音,还加入了帮助生成提示的功能,使得构建应用程序和语音助手的流程更为快速便捷。同时,面向普通用户,OpenAI推出了ChatGPT搜索功能,用户可以通过聊天机器人进行网络搜索。 这些更新为AI的下一大潮流铺平了道路:智能代理——一种能完成复杂任务链的AI助手,比如自动预订机票。Godement预测,未来几年内,每个人和每家企业都将拥有一个“熟悉用户的助手”,像首席助手一样全面管理用户的邮件、应用程序、日程,甚至可以协助撰写特定主题的论文。 OpenAI的策略是既自行构建这些智能代理,同时也为开发者提供工具来开发自己的代理。Godement强调,语音将对智能代理的未来形态起到重要作用。现在的应用程序主要以文字对话为主,虽然适合大多数场景,但在某些情况下,语音显然是更好的交互方式。 不过,要让智能代理成为现实,Godement指出还需要克服两大难题。首先是“推理能力”的挑战。构建能够完成复杂任务并确保“正确执行”的AI模型至关重要。Huet提到,上个月OpenAI发布的o1模型中加入了“推理”功能,通过强化学习提升AI在链式思维上的能力,帮助模型分解问题、纠错、尝试多种方案来回答问题。 不过,对于OpenAI在推理能力方面的主张,华盛顿大学的计算机科学教授Chirag Shah持保留态度。他认为,这些大型语言模型并非真正具有推理能力,而只是对训练数据中的逻辑进行了模仿。Shah认为,这些模型表现得“像是有推理能力,但仔细观察会发现很快露出破绽”。 Godement也承认还有很多工作要做。短期来看,模型需要变得更加可靠、快速和经济。长期来看,OpenAI计划将“链式思维”技术应用到更多领域,例如法律、会计和经济学等。 另一个挑战是实现工具的互联性。AI模型仅依赖训练数据会有局限,需要具备实时上网能力来获取最新信息。ChatGPT搜索正是OpenAI赋予其AI的新功能之一,不仅可以获取信息,还能够在现实中采取行动。竞争对手Anthropic的Claude聊天机器人甚至可以模拟点击操作,而Godement表示o1目前也能“部分”实现工具操作,但还不够可靠。 Godement预计,未来一年内,AI在客户支持等助手任务中的应用将大幅增长。他坦言,AI技术的实际应用往往会超出预期,每年都会冒出一些意想不到的新应用。 在另一个AI前沿,AI公司Decart和Etched合作推出了一个实时生成的Minecraft版本,采用了“下一帧预测”技术。该AI模型通过数百万小时的Minecraft游戏数据训练,能够模拟游戏的物理和环境互动,尽管偶尔会出现如“环境幻觉”般的变化。这一技术或许预示着实时视频生成的未来。 最后,AI的迅猛发展也带来一些潜在问题。AI搜索可能扰乱数字经济,生成AI模型的设备更可能加剧电子垃圾问题,而一些AI生成的内容也引发争议。Facebook母公司Meta的CEO扎克伯格表示,将看到更多由AI生成或汇总的内容,这也许是令人兴奋的新内容形态。