最近在一次由Lex Fridman主持的访谈中,Anthropic的首席执行官达里奥·阿莫代(Dario Amodei)谈到了人工通用智能(AGI)的快速发展。他预测,AGI可能会在2026至2027年间问世,而内部数据甚至显示这个时间点可能来得更早。不同于OpenAI追求“第一个达成”的目标,Anthropic更加关注安全性,尤其是在强大AI系统带来生存威胁的背景下。这些威胁包括AI被滥用于网络攻击或生物武器等灾难性事件,以及日益复杂的AI系统逐渐超出人类控制的风险。 阿莫代还详细介绍了AI安全等级(ASL)的概念。当前行业处于ASL-2阶段,预计到2025年将进入ASL-3阶段——这是一个关键点,AI模型可能会显著增强恶意行为者的能力。 Anthropic的研发策略建立在AI类似生物系统进化的理解上,这种方式带来了诸多发现,例如大型语言模型中出现的“特朗普神经元”现象。随着技术进步的加速,预计AI模型在2025年将从“高中水平”进化到接近人类的能力。阿莫代强调,到2025年底出台有意义的AI监管措施将是关键,以有效降低相关风险。
Author: aitrendtrackers@rengongzhineng.io
DeepSeek AI发布JanusFlow:一个统一的图像理解与生成框架
近年来,AI驱动的图像生成和理解技术发展迅猛,但实现无缝且统一的解决方案仍面临诸多挑战。目前,大部分擅长图像理解的模型在生成高质量图像方面表现不佳,反之亦然。为每项任务维护独立的模型架构不仅增加了复杂性,还降低了效率,使得同时需要图像理解和生成的任务难以高效完成。此外,许多现有模型依赖大量架构修改或预训练组件,以实现各自的功能,但这些方法常导致性能折中和集成困难。 DeepSeek AI新推出的JanusFlow是一个强大的AI框架,将图像理解和生成整合在一个单一模型中,旨在解决上述种种低效问题。JanusFlow通过创新的架构设计,将图像理解和生成任务无缝结合,减少架构复杂性,实现更协调的功能。它采用了自回归语言模型与先进的“整流流”(rectified flow)生成方法,设计了双编码器-解码器结构,分别处理理解和生成任务并在训练中对齐其表示,以确保统一的性能。 技术细节 JanusFlow通过精简的设计将整流流和大型语言模型(LLM)相结合。其架构包括独立的视觉编码器,分别用于图像理解和生成任务。训练过程中,这些编码器被对齐以增强语义一致性,使系统在图像生成和视觉理解任务中表现出色。任务间的编码器解耦设计防止了任务干扰,从而增强了每个模块的独立能力。此外,模型采用无分类指导(Classifier-Free Guidance,CFG),在生成图像时提升文本条件的准确性,使生成图像质量更高。与传统统一系统依赖扩散模型或矢量量化技术不同,JanusFlow提供了更简单、直接的生成流程,限制更少、效率更高。在多个基准测试中,JanusFlow的表现媲美甚至超越许多专用模型。 JanusFlow的意义 JanusFlow的意义在于其高效性和多功能性,填补了多模态模型开发中的关键空白。JanusFlow通过消除单独的生成和理解模块,让研究人员和开发者可以使用一个框架完成多项任务,大幅降低了系统复杂性和资源需求。基准测试结果显示,JanusFlow在多个统一模型上超越了现有模型,在MMBench、SeedBench和GQA上分别达到了74.9、70.5和60.3的高分。在图像生成方面,JanusFlow超过了如SDv1.5和SDXL等模型,在MJHQ FID-30k上得分9.51,在GenEval上得分0.63。这些数据表明,JanusFlow在高质量图像生成和复杂多模态任务处理方面表现优异,且仅需1.3B参数。更重要的是,JanusFlow不依赖复杂的修改或庞大的架构,因此提供了一个更为便捷的通用AI解决方案。 结论 JanusFlow是统一AI模型开发的一项重大进展,实现了图像理解和生成的双重功能。其“极简”设计通过整合自回归能力和整流流技术,不仅提升了性能,还简化了模型架构,使其更高效和易用。通过解耦视觉编码器并在训练中对齐表示,JanusFlow成功缩小了图像理解与生成的差距。随着AI研究不断推进模型的能力边界,JanusFlow代表了朝着更具通用性和多功能性的多模态AI系统迈出的重要一步。
5个非LLM软件趋势
自从ChatGPT在2022年发布以来,LLM模型引领了科技潮流,让人觉得不可思议的是,这已经是将近两年前的事了!但就在这段时间内,还有许多其他软件工程的激动人心进展,可能因为LLM的风头太盛而未得到应有的关注。虽然LLM确实具备革命性,但如今在软件领域,其他令人兴奋的趋势也在悄然崛起。以下是一些非LLM的趋势和创新,且这些领域都充满了增长的潜力。 1. 本地优先软件(Local-First Software) 本地优先软件(Local-first Software)已经存在几十年,但近年其开发体验和功能实现方面都有显著提升。所谓本地优先,就是优先在用户的本地设备上存储和处理数据,而非仅依赖云端服务。React-Query、PouchDB、InstantDB等开发库正帮助实现本地和云端的数据同步,让离线操作更加稳定、低延迟,并带来更出色的用户体验。 特别是冲突解决方案的改进,比如无冲突的CRDT、操作转换OT,以及常用的“最新写入优先”等,让本地优先软件在保持数据一致性方面更具吸引力。通过这些方法,开发者能更轻松地处理设备与服务器端的同步问题,同时提升应用的灵活性。 2. WebAssembly(WASM) WebAssembly是一种二进制指令格式,能够让代码以接近本地设备的速度直接在浏览器中运行。WASM的出现让浏览器成为功能强大的计算平台,能够独立于服务器执行复杂任务,极大地扩展了前端的可能性。 SQLite数据库在浏览器中的使用是WASM的一个成功应用。通过WASM运行的SQLite,提供了更强大的本地数据存储能力,适合离线功能和数据缓存需求。不仅如此,WebAssembly还提升了代码缓存,使应用加载速度更快,这对开发者来说无疑是巨大的优势。甚至,部分AI模型也能直接在浏览器端运行,比如TensorFlow.js就是一个很好的例子,这为隐私保护和边缘计算提供了更多可能。 3. SQLite的“复兴” 提到数据库,开发者通常会选择MySQL、PostgreSQL(关系型)或MongoDB(NoSQL)。然而,SQLite近年来重新受到关注,且在某些情况下甚至可以作为主力数据库来使用。SQLite的好处是:零延迟、简化的设置、易于多实例复制,并且能处理更大规模的数据库。其开发和测试的便捷性让它非常适合本地存储,尤其是在WASM加持下更是如虎添翼。 Notion就是SQLite的成功案例之一,他们在桌面版应用中使用SQLite进行缓存,加速了页面加载速度,而在Web端用WASM结合SQLite后,进一步减少了页面导航延迟20%。这个趋势在很多开发者间引发了讨论,越来越多本地优先的应用开始选择SQLite作为默认的存储方案。 4. 跨平台技术的进步 跨平台技术在性能、开发体验、可用性等方面取得了显著进展,尤其是React Native和Flutter表现尤为突出。例如,Shopify最近将整个移动应用迁移到React Native平台,达成了86%的代码复用率,并提升了屏幕加载和应用启动的速度。这一举措展示了跨平台的巨大潜力,特别是在提升开发效率和保持性能优化的平衡方面。 然而,纯跨平台方案并不意味着放弃本地开发。实践经验表明,高质量的应用开发仍需依赖本地代码,以确保最佳的用户体验和性能优化。React Native在不断更新的架构和性能优化上走得很远,而Flutter则继续在UI体验和多平台支持上取得新突破。 5. 自动化推理(Automated Reasoning) 自动化推理利用逻辑和数学证明来确保系统行为符合预期。这种方法不同于传统测试,它能验证系统在所有可能情境下的正确性。AWS在其基础架构中广泛应用了自动化推理,通过形式化验证规避了许多潜在问题。比如,他们为IAM建立了正式的规范模型,优化了每秒12亿请求的代码处理速度,提高了50%的性能。 自动化推理的最大优势在于可以提前发现潜在漏洞,尤其是在安全性和可靠性要求高的系统中,形式验证为系统提供了比传统测试更深入的验证方式。 在未来,这些非LLM的技术趋势或许会得到更多关注,也将为软件开发带来更多可能性。各项创新正在快速推进,软件工程师们将能利用这些新工具来进一步提升应用的性能和用户体验。
亚马逊正准备推出其最新的人工智能芯片
亚马逊正准备推出其最新的人工智能芯片,以实现其在半导体领域数十亿美元的投资回报,同时减少对市场领导者英伟达的依赖。亚马逊云计算部门的高管们正大力投入定制芯片,旨在提高其众多数据中心的效率,从而降低亚马逊及其云服务客户的成本。 负责这项工作的主要是安纳普尔纳实验室(Annapurna Labs),这家位于奥斯汀的芯片初创公司于2015年初被亚马逊以3.5亿美元收购。下月,亚马逊将推出最新的“Trainium 2”芯片,这款专为训练大型人工智能模型设计的芯片预计会被广泛应用。目前,Trainium 2已在亚马逊支持的竞争公司Anthropic,以及Databricks、德国电信、日本理光和Stockmark等公司中进行测试。 亚马逊网络服务(AWS)和Annapurna的目标是挑战英伟达的地位,后者因在人工智能处理器市场上的统治地位,成为了全球最有价值的公司之一。AWS的计算和网络服务副总裁戴夫·布朗表示,他们希望成为运行英伟达技术的最佳平台,但同时认为市场上有替代选择是健康的。亚马逊还提到,其另一款AI芯片系列Inferentia在生成AI模型响应方面,运行成本已低于英伟达,节省了40%。 由于机器学习和人工智能的计算需求巨大,布朗解释道,云计算成本尤其在这些领域容易增加,节省40%的费用在小额预算中影响不大,但对数千万美元的支出则有显著意义。 亚马逊预计2024年在资本支出上将达到约750亿美元,主要用于技术基础设施,而在最近的财报电话会议上,首席执行官安迪·贾西透露,这一支出可能在2025年进一步增加。2023年,亚马逊在全年支出方面为484亿美元,与之相比,这一增长尤为显著。微软和谷歌等主要云计算供应商也在加大AI领域的投入,显现出持续不断的技术竞争态势。 亚马逊、微软和Meta都是英伟达的重要客户,但同时也在设计各自的数据中心芯片,以打造未来AI增长的基础。据The Futurum Group的丹尼尔·纽曼分析,目前几乎所有主要云服务供应商都在积极构建更加垂直整合的芯片技术栈,降低生产成本、提高利润率、增强可控性等因素成为主流需求。 Annapurna的工程总监拉米·辛诺指出,亚马逊的AI基础设施是从芯片的生产到安装服务器机架的全流程一体化设计,以自有软件和架构为支撑。“达到我们这种规模的难度很大,能够做到的公司屈指可数。” 安纳普尔纳起初为AWS打造了一款名为Nitro的安全芯片,随后开发了多代Graviton系列,这种基于Arm架构的CPU提供了比传统服务器芯片更低功耗的选择。TechInsights分析师G·丹·赫奇森指出,AWS的芯片有助于降低功耗,提高数据中心效率,从而降低运营成本。如果将英伟达的GPU比作通用型的多功能车,那么亚马逊的芯片则更像是为特定任务优化的小型轿车。 不过,目前AWS和Annapurna在AI基础设施市场上对英伟达的影响仍然有限。英伟达在2024财年第二季度的AI数据中心芯片销售收入达263亿美元,这一数字与亚马逊AWS部门的总收入持平,而AWS客户中用于AI的部分还只占较小比例。 在芯片性能上,AWS避免直接与英伟达进行对比,也未提交独立的性能测试报告。芯片咨询公司Moor Insights & Strategy的专家帕特里克·穆尔黑德认为,亚马逊在Trainium 1和Trainium 2之间实现了4倍性能提升,但相较于性能数字,客户能够有更多选择可能更加重要。
超过40家医疗系统正在使用AI转录工具
超过40家医疗系统正在使用OpenAI开发的转录工具,而该工具因被指存在错误风险而备受争议。美国各地数万名临床医生目前依赖这个名为Whisper的AI转录工具来自动转录记录,然而专家警告称其可靠性令人担忧。据美联社报道,Whisper在高风险领域的应用存在潜在风险,OpenAI也在其指南中提醒,使用时应“谨慎”。 尽管如此,Whisper在医疗行业的普及并未放缓。美联社调查发现,美国约40家医疗系统中的3万名医生通过由Nabla公司提供的工具转录记录,而该工具正是基于Whisper模型构建的。多位软件工程师、开发者及学术研究人员透露,Whisper在处理“良好录制的短音频样本”时也会频繁出错。例如,一位来自密歇根大学的研究人员发现,在镇民会议录音的转录中,Whisper生成的“幻觉”内容(即AI模型生成的错误或虚假信息)频率高达80%。其他专家也报告了类似的错误率。一位机器学习工程师表示,在100小时音频转录中发现了大约一半的错误,另一位工程师在分析了26,000份Whisper转录文件后发现几乎普遍存在错误。 随着AI技术的普及,许多医院管理者为降低成本,正将AI工具应用于各种医疗流程,但监管覆盖的力度有限。部分AI工具是为特定需求而定制的,但Whisper的广泛应用表明医疗界对现成的商业产品兴趣浓厚。全美护士联合会(NNU)及其附属机构警告,这种未受监管的AI应用可能对患者构成风险。 NNU的一项调查显示,在采用AI自动转接流程的医院中,48%的护士认为AI生成的医疗报告经常与他们的专业评估不一致,或缺少关键信息。约四成护士表示,他们无法忽略AI生成的报告或修改错误诊断。“最令人担忧的是,AI被用来重新设计护理流程,从而削弱了医疗决策者的技能,”NNU护理实践助理主任Michelle Mahon向IT Brew表示。Mahon还警告,AI开发者声称的“智能”功能正逐步取代医学判断。 前白宫科技政策办公室主任Alondra Nelson也对美联社表示,转录错误可能对患者造成“非常严重的后果”。她认为,AI在医疗领域的应用应设立更高的标准,以确保患者安全。
人工智能助手是否让程序员技能退化?
编程领域正在经历一场AI助手的浪潮,从Copilot到Cursor,再到Zed和Aider,AI助手已无处不在。现在的编程环境中,AI助手几乎成了标配,程序员很难在日常工作中完全避开这些工具。就个人经验而言,笔者尝试过几乎所有的AI助手,并将它们融入了工作流。作为一位拥有超过10年编程经验的程序员,对AI助手的普遍使用带来的影响深感兴趣,于是决定反思:AI助手真的会让自己变成一个更差的程序员吗? 当今需要的技能比过去少了吗? 上世纪90年代出生在巴西的人,对赛车手艾尔顿·塞纳(Ayrton Senna)或许不陌生。塞纳被认为是最具天赋的车手之一,对驾驶技术精益求精,他在1994年圣马力诺赛车场的一场事故中不幸去世。关于“老派车手和现代车手谁更优秀”的辩论从未停止过。很多人认为,过去的车手需要掌握更全面的技能,而今天的车手依赖于自动化技术,失去了手动操控的感觉。 类似地,在编程中,高级语言将很多复杂的内容进行了抽象,使得开发者不再需要掌握底层细节。现在,AI助手引入了一种新的交互模式:自然语言。对于编程来说,这种抽象到底是好是坏? 核心技能 vs. 工具知识 关于是否需要接受正式的计算机教育一直存在争议。在大学的学习帮助程序员理解了计算机的本质,掌握了编程的基本原理。而今天的快速培训课程和训练营则更注重具体工具的使用。相比之下,大学教育更注重培养核心技能,而训练营更侧重于快速上手和职业应用。 这种区别同样适用于编程的AI助手使用中。比如,笔者曾在2018年开始学习Gatsby,并投入大量时间掌握了它的插件和配置。后来Gatsby逐渐被Next.js等框架取代,这些投入的时间和精力在框架更替中变得不再有用。然而,对于服务器端渲染和静态站点生成的理解却保留下来,这些核心技能在技术变迁中依旧有用。AI助手可以协助程序员完成特定框架的实现细节,而不必担心失去对核心编程概念的掌握。 AI助手的积极作用 尽管AI助手可能会让人变得“依赖”,它们也有显著的优点。AI助手可以帮助程序员处理重复性任务,减少分心,保持专注。比如不记得某个TypeScript语法时,可以直接让AI助手给出提示;需要重构文件时,可以让助手分解代码,从而保留精力去完成更重要的设计任务。AI助手在IDE中的集成大幅减少了程序员在小问题上的分心,让他们专注于解决更复杂的抽象问题。 什么时候会出问题 当然,AI助手也可能带来负面影响,最典型的就是过度依赖。当程序员完全依赖AI助手来编写代码,一旦代码出现问题,就会陷入重复提示AI、修改代码的困境,反而浪费了时间。特别是当AI生成的代码质量低下时,程序员需要进行大量的“清理”工作,这很可能让最终完成的工作量比自己手写代码还要大。因此,使用AI助手时要有明确的判断,知道什么时候应该交给AI处理,什么时候应该自己动手。 知道什么时候问题已经解决 编程中,大部分工作不是在解决特别难的技术问题,而是在组织、分析需求、配置工具。掌握“什么时候交给AI助手”是关键。比如,当任务是添加一个简单的下拉菜单排序选项,AI助手可以帮助处理“实现细节”的部分。程序员则可以将注意力集中在核心逻辑上。通过这种方法,程序员可以释放大脑资源,用于更具挑战性的部分,而AI助手则负责“例行公事”。 结论 AI助手确实可能导致编程技能的退化,尤其是当过度依赖AI时。然而,AI助手作为工具,应该是一个实现目标的手段。程序员的最终目标是将现实世界的需求翻译成计算机可以理解的语言,AI助手可以协助实现这一过程,但人类的判断力和抽象能力依然是关键。适当地使用AI助手,可以让程序员将精力放在更具挑战性的任务上,提升总体效率,最终成为更高效的开发者。
AI蛋白质结构预测工具AlphaFold3现已开源
AI蛋白质结构预测工具AlphaFold3现已开源。11月11日,伦敦的谷歌DeepMind公司宣布,这款诺贝尔奖获奖模型的代码现可供学术界下载用于非商业用途。这一决定是在DeepMind因未公开代码而备受批评后做出的,许多科学家认为这阻碍了科学复现。DeepMind团队在6个月后最终兑现承诺,将AlphaFold3的代码向学术界开放。 AlphaFold3与之前版本的不同之处在于,它不仅能预测单个蛋白质的结构,还可以模拟蛋白质与其他分子(例如DNA)的相互作用。然而,在此前仅提供的网络服务器版本中,科学家无法通过AlphaFold3预测蛋白质在潜在药物中的行为。现在,研究人员可以通过自己运行模型来实现这些交互预测,大大推动了药物研发。 当初,DeepMind只通过网络服务器提供AlphaFold3,意在平衡研究开放性与商业利益保护。其衍生公司Isomorphic Labs专注于将AlphaFold3用于药物发现。然而,限制访问模型代码和权重的决定引发了科学界的不满。如今,尽管代码已经开源,但权重文件仅向学术科研人员开放,且需单独申请。 值得注意的是,DeepMind并不是唯一一家发布蛋白质结构预测工具的公司。过去几个月,百度、字节跳动以及加州旧金山的初创公司Chai Discovery等公司也相继发布了基于AlphaFold3原理的预测模型。尽管这些模型不允许用于商业应用,但Chai Discovery的模型Chai-1可以通过网络服务器提供预测服务。同时,旧金山的Ligo Biosciences推出了不受限制的AlphaFold3版本,但功能尚不完整,尚不支持对药物等非蛋白质分子进行模拟。 计算生物学家AlQuraishi表示,他的团队也在开发完全开源的版本OpenFold3,预计年内发布,这将为药企提供自由调整模型、并用专有数据进行再训练的可能性。 对开放性的关注也反映了生物AI模型发布方式的多样化趋势。威斯康星大学麦迪逊分校的计算生物学家Anthony Gitter指出,科研公司若在期刊和预印本中分享成果,应确保信息的透明性,否则难以获得学术界的信任。 实际上,AlphaFold3的高复现性使得多个团队在不依赖源代码的情况下已实现类似模型。DeepMind科学AI负责人Pushmeet Kohli指出,这一现象显示了模型本身的可复现性,但他也期待学术界和企业研究人员间关于出版规范的更深入讨论。 AlphaFold2的开源推动了大量创新,最近一场蛋白质设计竞赛中,获胜团队便利用其设计出了一种能结合癌症靶点的新蛋白质。AlphaFold3开源后,项目负责人Jumper表示期待更多意外的创新,尽管其中不乏失败的可能。他认为这种多样化的探索方式能带来更丰富的科研成果。
亚马逊正在开发专为送货司机设计的智能眼镜
据路透社报道,亚马逊正在开发专为送货司机设计的智能眼镜,旨在提供逐步导航功能,从而缩短每次投递的时间。据称,该项目名为“Amelia”,是亚马逊提升“最后100码”送货效率的一部分。这个智能眼镜基于现有的Echo Frames平台,但不同的是,它不仅仅是音频输出,还将内嵌显示屏,为司机提供更精准的导航,比如在下电梯后提醒向左或向右转。除此之外,亚马逊还在研究添加摄像头的可能性,使司机能够拍下包裹照片作为交付证明。这样一来,司机在送货过程中完全解放双手,携带更多包裹成为可能,而这些节省的时间则能进一步提高配送量。 当然,实现这项技术可能还需要一段时间。将显示屏加入普通眼镜或音频型智能眼镜(如当前的Echo Frames)是一项不小的工程挑战,许多公司在这一点上都遇到过失败。报道指出,亚马逊目前面临的困难之一是如何在保证眼镜轻便的前提下,让电池支撑8小时的完整工作时长。此外,许多人已经佩戴矫正镜片,而智能眼镜难以适配各种处方度数,这也是消费级产品面临的普遍问题。亚马逊还需要说服其庞大的司机团队使用这项技术,其中许多司机还是第三方合同工。另外,为了实现精确的导航,亚马逊也需要大量数据支持,如建筑布局、人行道、街道等信息,这可能需要数年时间才能完成数据积累。 亚马逊进军企业市场的想法并不出人意料。路透社的消息人士还透露,上代Echo Frames的销量不到1万副,远不及同期推出的Ray-Ban Meta眼镜。智能眼镜和AR头显产品从消费市场转向企业市场的策略早已成为趋势,包括谷歌眼镜、Magic Leap和微软的HoloLens。此外,亚马逊未来是将这项技术仅用于自家配送网络,还是开放给第三方企业仍不明朗。不过,报道指出,亚马逊计划为未来的Echo Frames增加显示屏,这一消费级产品最早可能在2026年第二季度亮相。
网络数据集关系分析:自动识别和优化数据集的关系
在网络数据集数量急剧增长的今天,数据集间复杂的关系越来越重要,尤其对于数据研究人员和使用数据集的从业者。Google的研究工程师Kate Lin和研究科学家Tarfah Alrashed在《Relationships are Complicated! An Analysis of Relationships Between Datasets on the Web》中提出了一套方法,通过自动化识别网络数据集关系,以帮助用户在数据集发现过程中更高效地找到、评价和引用数据集。本文基于schema.org标记的网络数据集大规模语料库进行了这些方法的性能比较。 数据集关系的定义 研究团队定义了用户在数据集发现和共享过程中可能进行的四个关键任务: 基于这些任务,研究将数据集关系分为两大类:源起关系和非源起关系。源起关系包括相同数据集在不同平台上的“副本”、随时间更新的“版本”、特定数据集的“子集”、多数据集组合的“派生”关系等。而非源起关系则基于数据内容或用途的关联性,比如主题相似或可整合的数据集。 方法开发与分析 研究团队开发了四种识别方法,并对这些方法在不同关系类别上的性能进行了对比: 实验结果 团队从网络抓取包含schema.org元数据的网页,生成了一个包含270万个数据集元数据条目的语料库。通过对2,178对数据集手动标注生成了用于训练和测试的“真值”数据。实验表明,GBDT和T5模型在识别数据集关系方面表现最佳,其中GBDT在各类别关系的F1评分上领先,T5模型在派生关系识别中表现尤为优异。然而,schema.org标注方法的整体准确率较低,仅为0.33,而启发式方法为0.65。GBDT和T5模型的总体准确率分别达到了0.90和0.89。 结论与未来展望 实验表明,当前schema.org元数据不足以完整捕获数据集间的关系,特别是在检测版本、子集和派生关系时存在较大不足。研究人员建议改进schema.org的元数据标准,使其更好地适应数据集发现和使用需求,同时推广最佳实践以鼓励数据集作者标注更详细的元数据。 未来,研究团队计划进一步探索非源起关系,优化数据集的检索和使用体验,帮助用户快速找到适合其需求的数据集,并推进数据共享标准的发展。
生成模型中引入多模态嵌入
多模态检索增强生成(RAG)技术正在快速增长,企业正逐步尝试在其生成模型中引入多模态嵌入。这一技术可以将文本、图像和视频等多种数据形式转化为AI可读取的数值表示,从而让生成模型能够检索和处理不同类型的文件,帮助企业实现从财务图表、产品目录甚至是视频中提取信息的功能,为企业提供更全面的业务视角。 为什么多模态RAG值得尝试 多模态RAG技术可以将各种数据嵌入成统一的表示方式,使得检索生成模型不仅能处理文本,还可以跨文本、图像和视频进行搜索,从而提升信息获取的全面性和准确性。以Cohere最近更新的多模态嵌入模型Embed 3为例,该模型能够处理图像和视频嵌入,让企业能更有效地利用自身不同类型的数据资源。然而,Cohere的解决方案架构师Yann Stoneman建议企业在全面部署之前,先进行小规模测试,以便评估模型性能并为具体的应用场景作出适应性调整。 数据准备:多模态RAG的核心 在多模态RAG中,数据预处理极其重要。图像在输入模型之前需要标准化尺寸,同时还要权衡是否提高低分辨率图像的清晰度以确保细节不丢失,或者降低高分辨率图像的质量来减小处理负担。此外,系统需要支持图像路径(如URL或文件路径)与文本数据的结合,从而提供流畅的用户体验。企业可能还需要编写自定义代码,将图像检索与文本检索集成在一起,以保证系统的平滑运行。 多模态嵌入的广泛应用前景 当前大部分RAG系统仍以文本数据为主,因为文本数据的嵌入处理更为简单。但随着企业数据多样性的增加,能够处理图片和文本的RAG需求变得越来越迫切。传统上,企业可能会使用不同的RAG系统和数据库来处理不同类型的数据,无法实现混合模式的搜索。而多模态RAG技术则解决了这一难题,许多公司开始提供帮助企业准备多模态数据集的工具,比如Uniphore为企业提供了准备多模态RAG数据集的方案。 总之,多模态RAG让企业可以在同一系统中整合文本、图像和视频数据,支持跨模态的查询与生成。这不仅提高了数据检索的精确性和效率,还让企业可以在信息获取方面实现更高的智能化,迎接下一波AI驱动的业务创新。