2025年4月30日,Meta AI正式发布了一款专为推理密集型信息检索任务设计的新型模型:ReasonIR-8B。该模型旨在解决当前“检索增强生成”(RAG)系统中面临的关键瓶颈问题,即在处理需要多步逻辑推理或跨领域综合信息的复杂查询时,传统检索器往往无法准确提取相关内容,从而影响大语言模型(LLM)后续推理的准确性和连贯性。https://huggingface.co/reasonir/ReasonIR-8B 推理型检索的挑战与现实限制 尽管RAG技术近年来取得了显著进展,但主流检索器通常基于短文本问答训练,依赖文档级词汇或语义重合,这对于处理抽象、长文本或多跳推理类问题显得力不从心。检索错误一旦发生,便会沿着推理链条级联影响LLM输出,尤其在教育、科研与决策辅助等应用中,代价极高。虽然利用LLM重排序器(如GPT系列)可改善检索相关性,但由于其高昂的推理成本,难以大规模实际部署。 Meta AI 推出 ReasonIR-8B:面向推理优化的高效检索器 为应对上述挑战,Meta AI构建了ReasonIR-8B,这是一款以LLaMA3.1-8B为基础开发的双编码器(bi-encoder)架构模型,专为复杂推理检索任务优化。该模型在BRIGHT基准测试中表现卓越,在使用轻量级Qwen2.5重排序器的条件下,nDCG@10达36.9,不仅超越了大型模型如Rank1-32B的表现,而且在推理计算量上实现了200倍的效率提升,极大增强了其在大规模RAG部署中的可行性。 此外,Meta还将该模型以开源形式发布于Hugging Face平台,配套提供了完整训练代码与合成数据生成工具,助力研究社区进一步开展可复现与扩展研究。 架构与创新训练流程 ReasonIR-8B采用双编码器结构,分别对查询与文档进行独立编码,通过余弦相似度计算匹配程度。其训练核心在于一个名为ReasonIR-SYNTHESIZER的合成数据生成流水线,该系统自动构造具有挑战性的查询-文档对,模拟真实世界中的推理需求: 训练过程中,模型还对LLaMA原有的因果注意力掩码进行了改动,采用双向注意力机制,允许编码器在处理查询时对其上下文进行对称关注,优化语义对齐效果。 多项基准测试表现卓越 在一系列推理与RAG任务中,ReasonIR-8B表现稳定优异: BRIGHT推理检索基准: RAG任务性能提升: 上述提升在标准查询与重写查询上均表现一致,并在与稀疏检索器(如BM25)或轻量重排序器组合使用时进一步增强。这种灵活的组合性增强了模型在不同系统架构下的适应性。 尤其值得注意的是,与其他检索器在查询长度增加时性能趋于饱和甚至下降不同,ReasonIR-8B在处理更长、更信息丰富的查询时表现持续提升,展现出更强的深度信息利用能力,为未来结合查询重写与上下文扩展技术提供了实践基础。 结语与前景展望 ReasonIR-8B针对推理型检索场景做出了系统性的优化,兼顾相关性、推理能力与计算效率,解决了当前RAG系统在复杂任务中的“信息瓶颈”问题。其基于高质量合成数据的训练方法、双向注意机制及合理架构设计,为生产级AI系统中的检索模块提供了强有力的解决方案。 通过开放模型、代码与数据生成工具,Meta鼓励研究界进一步探索多语言、多模态与跨领域的推理型检索模型。对于追求高性价比、高可靠性的应用场景而言,ReasonIR-8B展现出极强的实用性与发展潜力,特别适用于教育辅助、科学研究、智能搜索与企业知识管理等推理密集型场合。
Author: aitrendtrackers@rengongzhineng.io
微软发布了最新的开源推理模型套件“Phi-4-Reasoning
微软于2025年4月30日发布了最新的开源推理模型套件“Phi-4-Reasoning”,标志着在中等规模语言模型(14B参数)中实现高效复杂推理能力的又一重大突破。尽管大型语言模型(LLM)在自然语言处理任务中已表现出显著进步,但在数学问题求解、算法规划与编程等推理密集型任务中,模型规模、训练策略及推理效率仍是关键制约因素。许多表现优异的通用模型常常难以构建多步推理链或回溯中间步骤,导致在需要结构化推理的应用场景中表现不佳。同时,简单扩大模型参数虽有助于推理能力提升,但也带来巨大的计算与部署成本,限制其在教育、工程或决策支持等实际场景中的应用。 微软发布Phi-4推理模型家族 此次微软发布的Phi-4 Reasoning家族包括三个模型:Phi-4-reasoning、Phi-4-reasoning-plus与Phi-4-mini-reasoning,皆基于14B参数的Phi-4主干架构,专为数学、科学及软件工程等领域的复杂推理任务设计。不同模型版本在计算效率与输出精度之间提供多样化选择。其中,Phi-4-reasoning通过结构化监督微调优化,而Phi-4-reasoning-plus在此基础上进一步引入基于结果的强化学习机制,特别针对高方差数学竞赛类任务进行性能增强。 微软开放了模型权重及完整训练细节和评估日志,所有资源已发布于Hugging Face平台,确保模型的可复现性与研究透明度。 技术构成与训练方法革新 Phi-4-reasoning系列模型在基础架构与训练方法上做出了若干关键改进,主要包括: 这种以数据为核心、关注输出结构的训练方法显著提升了模型在推理过程中的泛化能力,能有效应对未见过的符号推理任务。 评估结果与性能表现 Phi-4-reasoning系列在多个推理评估基准上展现出卓越表现,性能甚至可与显著更大的开源模型媲美: 研究结论与未来展望 Phi-4 Reasoning系列模型展现出一种方法上高度严谨、规模上适中的小模型推理范式。通过精准的数据选型、结构调参与少量但关键的强化学习干预,微软验证了14B规模模型在多步骤推理任务中的出色能力,不仅实现了对更大模型的性能追平,甚至在部分任务中实现超越。 模型权重的开放与透明的基准测试也为未来小型LLM的发展设定了新标准。此类模型尤其适合应用于对解释性、成本与稳定性要求高的领域,如教育、工程及决策支持系统。微软预计后续将继续拓展模型在更多STEM学科的适应能力,优化解码策略,并探索更大规模的长期强化学习方案,以进一步增强模型的复杂推理能力与实用价值。
Mem0.ai研究团队开发的全新记忆架构系统“Mem0”正式发布
2025年4月30日,一项由Mem0.ai研究团队开发的全新记忆架构系统“Mem0”正式发布 (https://github.com/mem0ai/mem0),旨在解决当前大型语言模型(LLM)在跨会话持久记忆方面的核心短板。尽管现代LLM已经能够生成流畅的回复、模仿语气并执行复杂指令,但在需要长期连续性场景中的表现依然受限,如个人助手、健康管理或教育辅导等应用。在真实的人类交流中,人们会记住他人偏好、推断行为并随时间构建心理地图。例如,一位用户若在上周提到饮食禁忌,便期望AI在未来涉及饮食话题时自动考虑这些限制。然而缺乏跨会话记忆机制的AI助手往往无法维持一致性,从而影响用户信任。 当前LLM面临的主要难题是:无法将关键信息持久保留在对话上下文窗口之外。即使一些模型已扩展到128K或200K的token容量,但在涉及跨天或跨周的长对话中,这样的容量仍显不足。同时,随着token距离的拉远,模型对早期上下文的注意力质量逐渐下降,导致无法准确提取或应用早前内容。一旦用户在对话中跳转主题并最终回到原始话题,AI极有可能遗漏或错误引用此前提供的关键信息,进一步造成对话脱节。 为弥补这一缺陷,已有若干方案尝试引入记忆功能。一些系统采用“检索增强生成”(RAG)技术,通过相似度搜索在对话中提取相关文本片段;另一些则采取“全上下文”策略,直接将整段对话重新输入模型,但这种方式会带来延迟高、成本高等问题。还有一些专有与开源记忆模块尝试借助向量数据库或结构化格式存储对话记录,但这些方法往往存在效率低下、冗余信息回溯、更新整合能力不足的问题,且缺乏冲突检测与更新优先级排序机制,导致AI记忆支离破碎,影响推理能力。 为此,Mem0.ai团队提出了一种具备动态抽取、整合与回溯能力的记忆架构系统Mem0。该系统可在对话过程中自动筛选出有价值的事实,判断其相关性与独特性,并将其整合至可被未来会话调用的记忆存储中。研究团队还推出了增强版本Mem0g,在此基础上引入图谱结构,将信息以关系图的形式建构,从而强化模型在跨会话链条推理中的能力。研究人员使用LOCOMO基准测试框架对Mem0和Mem0g进行了评估,并将其与六种不同类型的记忆系统对比,包括RAG模型、全上下文方法、开源和专有工具等,结果显示Mem0在所有关键指标上均实现领先。 Mem0系统核心由两个操作阶段组成。第一阶段中,模型将处理用户提问与AI响应的对话对,以及近期对话的摘要信息。输入由全局对话摘要与最近10条消息构成,模型据此抽取出关键事实。进入第二阶段后,这些事实将与向量数据库中相似记忆进行比对,并检索出最相似的前10条记忆。随后通过一种名为“工具调用”的决策机制,由LLM本身判断该事实应被新增、更新、删除或忽略。此机制无需外部分类器支持,实现了更高效的记忆管理,减少了冗余内容。 更高级的Mem0g架构则将对话信息以图结构表示,将人物、城市、偏好等实体建为节点,诸如“居住于”、“偏好”等关系则作为边连接节点,形成语义三元组。每个节点具备标签、嵌入向量与时间戳,而三元关系则提供对话中的语义链条。此种结构有助于模型在多轮对话中进行更复杂的逻辑推理。例如,若用户讨论旅行计划,系统将为城市、时间、同伴分别建构节点,逐步累积成可导航的信息图谱。该过程完全由LLM完成,自动识别实体并分类构图。 在性能评估中,Mem0在“LLM作为评判者”(LLM-as-a-Judge)这一标准上相较OpenAI的记忆系统提升了26%;而Mem0g通过图增强设计进一步提高2%,总提升达28%。在效率方面,Mem0相较全上下文方法将p95响应延迟降低91%,同时在token使用上节省超过90%。这种在性能与实用性之间的平衡使其极具生产环境部署价值,尤其是在响应时间与计算资源至关重要的应用场景中。 此外,这些模型还展现出在多种类型提问任务中的出色能力,包括单跳事实检索、多跳推理及开放领域问题,在准确率方面全面领先其他记忆系统。 研究总结指出以下关键成果: 研究团队指出,Mem0架构尤其适用于需要长期对话记忆的AI助手,如教育辅导、健康照护、企业服务等关键领域,能够显著提升交互连贯性与用户信任度。
微软与Meta大幅增加人工智能基础设施投入
在微软(Microsoft)与Meta(前Facebook)发布财报并明确表示将大幅增加人工智能基础设施投入后,芯片制造商英伟达(Nvidia,股票代码:NVDA)股价在盘前交易中上涨4.2%,达到每股113.52美元。此举展现出市场对英伟达未来营收的强烈看好,主要由于这两大科技巨头均依赖英伟达芯片扩展其AI数据中心能力。 微软在其2025财年第三季度报告中披露,其资本支出达到167亿美元,相较去年同期的110亿美元显著增长。微软CEO萨蒂亚·纳德拉(Satya Nadella)在财报电话会上强调,公司正持续扩展数据中心容量,并致力于提升各个层级的效率,包括从数据中心设计、硬件与芯片、系统软件到AI模型优化,旨在降低成本、提高性能。 与此同时,Meta也更新了其年度资本支出预期,从原先的600至650亿美元上调至640至720亿美元。该公司首席财务官李艾珊(Susan Li)指出,即便在2025年有大量新算力资源上线,Meta内部对计算资源的需求依然难以满足,显示出其AI基础设施建设的紧迫性。 外界曾一度担忧云计算巨头可能削减数据中心投资,尤其是在部分关于亚马逊AWS与微软可能缩减数据中心租赁的传闻之后。但微软与Meta的最新表态显著缓解了这些担忧。Melius Research分析师本·雷泽斯(Ben Reitzes)在研报中指出,这两大超大规模科技企业的支出计划对于其所覆盖、并给予“买入”评级的客户(如英伟达)而言是重大利好。 这些资本投入利好不仅推动了英伟达,也带动其他芯片制造商上涨。例如AMD股价盘前上涨2.7%,Broadcom则上涨2.9%。提供基于英伟达GPU的AI云服务器租赁服务的CoreWeave涨幅更是高达9.4%。 在市场聚焦英伟达将于5月28日公布的财报之际,分析师对其前景持续看好。根据市场数据,41位分析师中有35人给予英伟达“买入”评级,平均12个月目标价为165.22美元,较前一交易日收盘价108.92美元具有超过51%的上行空间。最高目标价为200美元,最低则为100美元。 值得一提的是,即便英伟达当前市值已达2.6万亿美元,分析师对其在AI市场中的地位仍充满信心。其H100芯片依旧是训练大型AI模型的首选,构成微软与Meta等科技巨头AI基础设施的核心。Meta在财报中明确提到,将加速部署GPU算力,并将基础设施视为“多年期的投资重点”。 微软预计其本财年在数据中心方面的总支出将达800亿美元,这项投资将支撑包括Copilot、OpenAI相关服务以及下一代AI解决方案的发展,英伟达芯片在其中发挥着关键作用。 整体而言,微软与Meta在AI基础设施上的持续高投入,不仅反映出AI技术发展的长期趋势,也为英伟达未来的营收与市场地位注入了更强动能。
Meta公司于2025年4月29日正式推出了全新Meta AI应用程序的首个版本
Meta公司于2025年4月29日正式推出了全新Meta AI应用程序的首个版本。这款个性化AI助手能够了解用户偏好、记忆对话上下文,并根据使用者的需求提供定制化体验。新应用还引入了“发现”动态内容流,用户可在其中分享和探索他人如何使用AI的方式。此外,该应用已成为Ray-Ban智能眼镜的配套程序,并与meta.ai网站连接,便于用户在任何地点继续未完成的任务。 此次发布的Meta AI应用基于Llama 4模型构建,标志着Meta在打造更具个性化AI方向迈出的重要一步。当前,全球用户已在WhatsApp、Instagram、Facebook和Messenger等平台日常使用Meta AI。而现在,他们可以选择在独立的Meta AI应用中通过语音对话体验更加个性化的AI互动方式。Meta方面表示,希望借此收集用户反馈,进一步优化产品体验。 Meta AI旨在深入了解使用者,从而提供更有帮助、更自然的回应。其语音交互功能支持多任务操作,在设备上执行其他操作的同时仍可使用AI。屏幕上将显示一个图标提示麦克风当前状态。此外,AI具备更强的社交属性,可展示来自用户关心的人与地点的信息。 在语音交互方面,虽然与AI的语音对话并非全新概念,但此次通过Llama 4模型的支持,Meta提升了AI响应的个性化和对话自然度。用户还可通过语音或文字与AI进行图像生成及编辑等操作。 此次应用还集成了基于全双工语音技术的语音演示功能,用户可自由开关测试体验。这项技术通过基于对话训练的语音生成能力,带来了更自然的语音互动效果。虽然目前该AI尚无法访问网络或实时信息,但Meta希望通过这一功能,向用户展示AI互动未来的可能性。需要指出的是,语音演示功能可能存在技术问题或不稳定表现,官方将根据用户反馈持续优化体验。 目前,语音对话及全双工演示功能已在美国、加拿大、澳大利亚和新西兰上线。用户可通过帮助中心了解如何在Meta AI应用中管理体验、切换模式。 Meta AI通过Llama 4模型帮助用户解决问题、应对日常提问并更好地理解世界。AI具备搜索能力,能够提供推荐、深入话题探索,同时帮助用户与亲友保持联系。对于寻求轻松互动的用户,应用还提供了“对话启发”功能,鼓励探索式使用。 Meta将多年来在个性化用户体验方面的经验应用于Meta AI开发。用户可要求AI记住个人偏好(如热爱旅行、学习语言等),AI也能根据上下文自动捕捉重要信息。AI的回应可参考用户在Meta产品上分享的信息(例如个人资料、点赞内容等),从而提高答复相关性。目前,美加地区用户已可体验个性化回应功能。此外,若用户将Facebook和Instagram账户连接至同一账户中心,Meta AI还能从两者信息中获取洞察,提升个性化互动质量。 如同Meta旗下其他平台一样,Meta AI旨在连接用户与所关心的人与事。其“发现”内容流允许用户分享并浏览他人使用AI的方式,也可将他人提示词重新混合使用。但系统不会自动发布任何内容,除非用户主动选择公开。 Meta AI可跨所有Meta产品及其所运行的设备使用。无论是在Facebook上与家人联系、在WhatsApp或Messenger上与朋友聊天,或是在Instagram浏览动态,甚至通过Ray-Ban Meta眼镜互动,Meta AI始终触手可及。 随着智能眼镜成为AI时代最具前景的新型硬件类别,Ray-Ban Meta眼镜已引领此领域的发展。为整合最强AI体验,Meta宣布将Meta View眼镜配套应用与新Meta AI应用合并。在部分国家/地区,用户可在眼镜与应用之间切换互动方式。用户可以在眼镜上发起对话,随后在应用或网页版的历史记录中继续该对话。但需注意,无法从应用或网页版开启对话后转至眼镜继续。 原有的Meta View用户,在更新至新Meta AI应用后,其已配对的设备、设置及媒体内容将自动迁移至新的“设备”标签页中,继续管理眼镜设备。 与此同时,Meta AI网页版也迎来更新。其功能现已包含语音交互与“发现”内容流,与移动应用保持一致体验。这种跨平台一致性,确保Meta AI能在用户所需的任何场景中提供更个人化的服务。 新版网页版针对大屏和桌面使用进行优化,图像生成功能得以增强,新增多种预设选项,支持风格、情绪、光影与色彩调整等。此外,Meta正在部分国家测试功能强大的文档编辑器,可生成包含文本与图像的完整文档,并支持导出为PDF格式。未来,AI也将具备分析、理解用户上传文档的能力。 Meta方面强调,用户始终掌握自己的使用体验。语音是最直观的AI交互方式,Meta AI应用界面设计简洁,即便用户正在忙碌或移动中,也可通过轻触按钮轻松开启对话。若偏好始终开启语音,设置中可启用“准备对话”功能。 Meta AI应用现已在iOS与Android平台上线,欢迎用户下载体验。
Devin AI公司推出DeepWiki
Devin AI公司近日推出了一项名为DeepWiki https://deepwiki.org/的新工具,这是一种由人工智能驱动的界面,旨在帮助用户更高效地理解GitHub上的代码仓库。该工具免费提供,通过其内部开发的DeepResearch智能代理构建而成。DeepWiki的核心目标是简化理解陌生代码库的过程,用户仅需输入代码仓库的URL,系统即可自动生成结构化、维基风格的文档,使开发者能够以更直观的方式快速掌握项目概况。 这一发布解决了软件开发中常见的痛点——浏览体量庞大、文档匮乏的代码库所面临的困难。对于需要参与项目接手、重构或审计的开发者而言,DeepWiki通过在原始代码和可读文档之间架起一座桥梁,提供了切实可行的解决方案。 DeepWiki概览DeepWiki作为GitHub仓库的AI增强层运作。在用户提供仓库URL后,平台会分析项目结构、源代码、配置文件以及README等已有文档,并在此基础上生成一系列结构清晰的输出内容,包括: 这些内容以易于浏览的形式呈现,相较于手动查看各个文件或冗长的README文档,显得更加高效和直观。 值得一提的是,DeepWiki无需安装或配置,使用方式非常简便。用户只需将GitHub链接中的“github.com”替换为“deepwiki.com”,例如将https://github.com/user/repo更改为https://deepwiki.com/user/repo,系统即可自动展示相应的生成文档。 核心功能与技术路径DeepWiki集成了多项增强用户体验的功能: 对话式理解功能:其核心是内置的AI助手,基于Devin的DeepResearch代理开发,支持自然语言查询。用户可就函数、模块或配置提出问题,并获得基于仓库内容的上下文回答。 深度研究模式:对于需要更深入分析的情况,DeepWiki提供研究驱动模式,能够识别潜在问题、优化空间,甚至提出架构性建议,其作用相当于资深代码审阅人员。 支持公共与私有仓库:在不需登录的前提下,用户可自由访问公共仓库。而对于企业或团队的私有仓库,平台也提供认证访问功能。 可视化架构图:系统自动生成流程图和依赖关系图,帮助开发者快速理解代码库中各模块及服务之间的交互关系。 在技术层面上,DeepWiki采用了针对源代码分析微调的语言模型,结合知识提取技术,以构建文件、函数及库之间的关联图谱。 对开发者的实际意义对于开源贡献者、技术审计人员或在不同代码库间工作的软件工程师而言,DeepWiki是一项极具价值的节省时间工具。该工具通过自动摘要代码库信息、生成结构化视图和提供对话式接口,极大提升了理解和浏览复杂项目的效率。 来自社区的早期反馈表明,DeepWiki并非要取代传统工具如GitHub代码搜索、Copilot或人工文档,而是作为理解代码的增强层存在。它强调辅助功能,而非完全自动化。 结语DeepWiki的推出标志着软件开发流程中对AI辅助工具可用性的又一实际进展。它并未过度宣传自动化能力,而是将重点放在提高复杂代码库的探索与接入效率上,呈现出更结构化、更系统的工作方式。 随着AI辅助开发工具的不断成熟,DeepWiki展示了智能文档与代码理解未来可能的发展路径。通过连接代码与自然语言的接口,这类系统让开发者即便面对最复杂的仓库,也能更快、更有信心地进行工作。 对于开发人员、研究者乃至整个组织来说,类似DeepWiki的工具有望成为未来软件工程工具箱中的关键组成部分。
ChatGPT新增购物功能上线:购物体验更智能,但仍在实验阶段
2025年4月28日,OpenAI宣布对ChatGPT的搜索工具进行重大更新,正式试验全新购物功能,旨在帮助用户更简单、更快速地“查找、比较并购买产品”。据悉,该功能已向ChatGPT的Plus、Pro以及未登录的免费用户开放,涉及类别包括家电、美妆、家居用品及电子产品等。 在Mashable的实测中,ChatGPT的新功能通过GPT-4o模型运行,能够生成商品图片、价格、用户评论、商品对比,以及指向不同零售商网站的购买链接。这标志着ChatGPT正日益成为谷歌搜索产品的有力竞争者。 不过,测试也暴露出几个问题: 关于商品的筛选机制,OpenAI明确表示展示的商品并非广告内容,公司不从推荐链接中获取佣金。OpenAI发言人塔雅·克里斯蒂安森(Taya Christianson)强调,这一功能的设计初衷是提升用户购物体验,而非商业变现。 此外,OpenAI搜索产品负责人亚当·弗莱(Adam Fry)在接受Wired采访时指出,ChatGPT并不是依靠传统搜索算法中的“特定信号”进行排序,而是试图理解用户在真实语境中是如何讨论产品的,以更加自然、对话式的方式推荐商品。 在某些测试场景中,例如搜索“最佳浓缩咖啡机”,ChatGPT能够输出包括产品优缺点、价格区间和用户评分等详细信息,但所引用的零售平台质量参差不齐,令人对其可靠性存疑。 此次更新被视为OpenAI对谷歌搜索主导地位的一次“重大升级”。此前,Future Research的一项调查显示,越来越多用户倾向于使用ChatGPT等AI助手来代替传统搜索引擎;与此同时,谷歌搜索结果质量下降、AI生成内容泛滥等问题亦令用户不满。 值得注意的是,OpenAI的搜索功能在过去一周已产生超过10亿次搜索请求,成为公司增长最快的功能之一。面对谷歌未来可能被迫出售Chrome浏览器的传闻,OpenAI方面更是半开玩笑地表示“如果谷歌出售,我们愿意收购”。 总结来看,ChatGPT正在朝着“AI导购”方向迈进,其购物功能虽然仍属实验性质,但代表着AI与电商、搜索引擎结合的新趋势。接下来效果如何,将取决于其能否优化商品来源、提升响应速度,并确保信息的可靠性。
中国华为研发新一代人工智能芯片,意图挑战英伟达地位
2025年4月28日,华尔街日报报道称,尽管美国试图阻止中国半导体产业发展,中美在芯片领域的超级大国竞争仍持续升温。华为技术有限公司正在积极测试其最新、最强大的人工智能处理器,期望能够取代部分美国芯片巨头英伟达(Nvidia)高端产品的市场地位。 华为作为中国科技行业的重要代表,持续展现出中国半导体行业在外部打压下的韧性。据知情人士透露,华为已开始联系部分中国科技企业,测试这款名为Ascend 910D的新芯片的技术可行性,并有望在5月底左右收到首批样品。 报道指出,该芯片项目仍处于早期阶段,未来需经过一系列测试以评估性能,并做好面向客户的准备。知情人士称,华为希望此次推出的新款Ascend AI处理器性能能够超越英伟达于2022年发布、广泛用于人工智能训练的热门芯片H100。此前,华为已推出过Ascend 910B和910C两个版本。 华为在人工智能芯片领域已成为中国的佼佼者之一,该公司致力于研发能够替代英伟达AI芯片的国产替代品,成为中国政府推进半导体自给自足战略的重要力量。华为自近六年前被美国列入贸易黑名单以来,一直在寻求突破。2023年,华为推出搭载国产处理器的高端智能手机Mate 60,再次引发美国政府关注,当时恰逢美国商务部长吉娜·雷蒙多访问北京期间。 知情人士透露,华为此次的新芯片采用先进封装技术,通过将更多芯片晶粒整合在一起以提升整体性能。尽管Ascend 910D在能耗方面较高、能效低于英伟达的H100,但在性能上仍具有一定竞争力。 本月早些时候,美国政府将英伟达可以在华销售的最先进芯片H20列入受限清单,进一步加剧了两国在高科技领域的紧张局势。英伟达因此预计将产生55亿美元的减记。这一限制措施为华为及北京寒武纪科技等中国芯片公司创造了市场机遇,这些公司近年来也在积极开发类似产品。 据悉,2025年华为预计将向客户交付超过80万颗Ascend 910B和910C芯片,客户群体包括国有电信运营商及像抖音母公司字节跳动这样的私人AI开发商。部分客户在美国限制英伟达H20芯片出口后,已与华为展开进一步增加910C芯片订单的洽谈。 尽管受到制造瓶颈制约,华为及其他中国芯片公司已能够交付部分接近英伟达水平的产品,尽管在技术上存在一定滞后。随着芯片制造难度和成本的上升,多芯片集成技术成为业界提升处理能力的新路径。 在政府鼓励下,越来越多中国人工智能开发者倾向于采购国产芯片。国家数据中心也报告称,所使用的芯片大多数来自本土供应商。 不过,华为早前发布的芯片实际表现未必能完全符合市场预期。尽管Ascend 910C被标榜为可媲美英伟达H100,但一些工程师在实际使用中表示,华为芯片在性能上仍逊色于英伟达。 同时,华为在规模化生产高端芯片方面依然面临重大挑战。由于被切断与全球最大晶圆代工厂台积电的合作,中国的中芯国际虽为替代选项,但同样受限于无法采购最先进的芯片制造设备。此外,美国还限制中国企业获取部分关键组件,如最新的高带宽存储器(HBM)单元。 在这种重重限制下,华为高层表示,将更多聚焦于打造高效快速的系统架构,以弥补单颗芯片性能上的不足。 4月,华为发布了CloudMatrix 384计算系统,该系统将384颗Ascend 910C芯片互联组成。据部分分析师评价,在某些场景下,该系统性能甚至优于英伟达搭载72颗Blackwell芯片的旗舰服务器系统,尽管华为系统的能耗更高。 行业专家指出,实现如此规模的芯片互联并非易事,需要稳定的网络连接,以及强大的软件和工程能力以避免系统故障。 研究机构SemiAnalysis在报告中指出:“在中国市场,拥有五倍于英伟达Blackwell系统数量的Ascend芯片,能够弥补单颗芯片性能仅为英伟达三分之一的不足。虽然能耗较高,但在当前环境下并不是限制性因素。”
Airbnb更智能的搜索:嵌入式检索(Embedding-Based Retrieval,EBR)工作原理解析
Airbnb通过引入嵌入式检索技术,显著提升了搜索系统的效率与相关性。 面临的挑战:规模下的相关性问题Airbnb的搜索使命看似简单——帮助客人找到合适的住宿,但实际上异常复杂。平台上有数百万条房源信息,用户的查询需求差异巨大,例如有的用户搜索“纽约”,而有些用户则会输入“卡茨基尔山带壁炉的舒适小木屋”。此外,由于灵活搜索选项,部分用户甚至不会固定旅行日期。这些因素使得传统依赖关键词匹配或筛选器的搜索系统难以快速提供优质结果。 Airbnb提出了一个关键洞见:如果可以利用深度学习,将房源信息和用户查询都表示成同一空间中的向量,再在向量空间中查找彼此接近的项目呢?这便是嵌入式检索(EBR)的基本理念。 什么是嵌入式检索(EBR)?嵌入(embedding)指的是将对象(如房源或搜索查询)转换为多维空间中的数字表示(可以想象成拥有上百条轴线的地图)。在这个空间中,相似的事物会彼此靠近。 检索(retrieval)是从海量数据库中提取相关候选项的过程。通过EBR,Airbnb能够基于查询在嵌入空间中快速检索与之“接近”的房源,大大加速了从数百万条房源中筛选小规模候选集的过程,从而在执行昂贵的最终排序之前,完成高效的初步筛选。 例如,“迈阿密海滨公寓”和“南滩海边公寓”在关键词匹配上可能差异较大,但在嵌入空间中却因概念相近而非常接近;而“迈阿密海滨公寓”和“阿斯本滑雪小屋”尽管都是度假房源,却在嵌入空间中相距遥远。 🛠 第一步:构建训练数据为了有效训练EBR模型,Airbnb采用了复杂而系统的方法生成高质量的训练样本: 👉 关键概念:在机器学习中,对比学习通过比较好与坏的样本,帮助模型更深刻理解相似性。 🧱 第二步:模型设计——双塔架构(Two-Tower Architecture)Airbnb采用了常见于检索系统的双塔模型架构: 每个塔会将输入内容转化为一个嵌入向量。训练过程中,目标是让查询向量与正确的房源向量在嵌入空间中靠得更近。 例如,某用户搜索“家庭住宅,靠近迪士尼,2位成人,3位儿童,7月15日至22日”: 两者在嵌入空间中相似度高,因此成为候选房源。 💡 技巧亮点:房源塔每天离线批量计算一次房源嵌入,因此在实时搜索时无需重新计算,极大节省计算资源。 👉 关键概念:双塔模型非常适用于一侧(如房源信息)可预先计算、另一侧(如用户查询)需实时计算的场景。 ⚡ 第三步:快速检索——近似最近邻搜索(ANN)完成嵌入后,Airbnb需要快速找到与查询最接近的房源。这时便引入了ANN技术。 什么是ANN?相比逐一比对所有向量(速度慢),ANN能够快速找到“足够好”的附近向量。 Airbnb评估了两种流行方法: 最终选择了IVF方法,因为它能够将房源向量聚类,并仅在最相关的群集中进行搜索。 IVF实际运作流程: 例如,搜索“Lake Tahoe附近带热水浴缸的宠物友好小屋”: 这样计算量减少了约99.9%,但相关性仍可达到95-98%。 性能差异明显: 这使得Airbnb能几乎瞬时返回搜索结果,同时兼顾复杂的匹配标准。 👉 关键概念:像IVF和HNSW这样的ANN方法能够在速度与准确率之间取得良好平衡,尤其在需要筛选和内存受限的场景中,IVF优势明显。 相似度度量方法的选择Airbnb测试了两种相似度函数: 最终发现,欧氏距离在形成更优聚类方面效果更好,因为房源特征(如过往预订次数)的数量级差异是重要信号。 例如: 在点积下,这两者方向接近,容易被视为同样相关;而使用欧氏距离,系统可以更好地辨别房源B的高人气特性,从而提升检索质量。 👉 经验教训:相似度函数的选择直接影响向量分组质量及系统检索效果。 成效:更优预订体验EBR系统上线后,Airbnb观测到: 总结Airbnb应用EBR技术的经验表明,现代机器学习方法在实际系统中可以带来巨大的改进。主要启示包括:
马斯克拼命筹集200亿美元资金
据报道,埃隆·马斯克旗下的xAI控股公司正在与投资者洽谈,计划筹集200亿美元资金,这将使公司估值超过1200亿美元。xAI控股是在今年3月,马斯克将其社交媒体平台X(前称推特)与其人工智能初创公司xAI合并后成立的。 关键信息显示,虽然目前融资谈判仍处于早期阶段,但如果成功,这将成为全球有史以来第二大规模的初创公司融资,仅次于上个月OpenAI完成的400亿美元融资纪录。 据悉,马斯克计划利用这笔资金偿还其收购X平台时所承担的巨额债务。目前,他每月需支付2亿美元的服务费用,每年支付超过13亿美元的利息。 预计马斯克的老牌支持者,包括Valor Equity Partners和Gigafund,将参与此次融资轮。此外,像富达投资(Fidelity)和贝莱德(BlackRock)这样的机构投资者也被认为可能会对本轮融资产生浓厚兴趣。 此次大规模融资轮再次凸显了投资者对人工智能初创公司的持续热情。如果融资顺利完成,除了为马斯克的商业版图注入新动力之外,也可能进一步巩固其作为白宫“特别政府雇员”的政治地位——此前马斯克刚刚宣布辞去政府效率部(Department of Government Efficiency,简称DOGE)负责人的职务。