就在去年此时,有消息称亚马逊正在研发其首款旗舰大语言模型(LLM),代号为 Olympus。而如今,这款备受期待的产品即将迎来正式发布。据悉,亚马逊将在下周的 AWS 年度大会 re:Invent 上首次展示 Olympus。 不止文本与图像:Olympus 的独特能力 内部人士透露,Olympus 将具备与 Google、OpenAI 和微软等现有 LLM 相媲美的多模态功能,能够处理和理解文本与图像。然而,它的亮点在于对视频和图像的精准搜索能力。通过简单的文本指令,Olympus 据称可以在视频或图像中找到特定的视觉片段。 举个例子,在观看篮球比赛时,用户只需输入“找到制胜一球”,Olympus 就能定位并提取出获胜关键时刻的镜头。这种能力不仅增强了用户与内容的互动方式,还为多模态 AI 的应用场景开辟了更多可能性。 迈入 LLM 赛道,减少对第三方依赖 Olympus 的发布标志着亚马逊正式加入 LLM 竞赛,同时也将大幅减少其对第三方 LLM 的依赖。目前,亚马逊对 Anthropic 投资了 80 亿美元,而 Olympus 的推出或许是对其生态战略的一次重大补充。 从文本到图像,再到视频理解,亚马逊的 Olympus 很可能成为 LLM 领域的新一匹黑马。更多详情,敬请期待 re:Invent 上的正式揭幕!
Nvidia 发布 Fugatto 模型
生成音频的瑞士军刀诞生!一款能用文本控制声音输出的AI来了 一支生成式AI研究团队打造了一款“音频瑞士军刀”,让用户仅凭文字描述就能掌控声音输出。 不同于只会作曲或变声的AI模型,这款新工具堪称音频领域的“全能选手”。 这款产品被命名为 Fugatto(全称为 Foundational Generative Audio Transformer Opus 1),能够通过文本提示或音频文件生成、转换任何形式的音乐、声音和人声。例如,它能根据文字提示生成音乐片段,从现有歌曲中删除或添加乐器,改变声音的口音或情感,甚至创造出从未听过的全新声音! “这个工具简直是黑科技” 获得多白金销量的制作人兼词曲作者 Ido Zmishlany 表示:“声音是我的灵感来源,它驱动我创作音乐。现在,在录音棚中实时生成全新声音的能力简直让人兴奋。” 音频领域的一次革命 Fugatto 背后的团队希望让 AI 模型像人类一样“理解和生成声音”。据 NVIDIA 的音频应用研究经理兼 Fugatto 项目负责人 Rafael Valle 透露,这款模型支持多种音频生成与转换任务,是首个展现“涌现能力”的基础生成式 AI 模型。它能结合多种自由形式的指令,完成高度复杂的任务。 Valle 进一步解释:“Fugatto 是我们迈向音频合成和转换未来的重要一步,最终目标是实现无监督的多任务学习。” 用途广泛:从音乐创作到游戏开发 Fugatto 的潜力无处不在: 创意无限:从“喵喵的萨克斯”到“吠叫的喇叭” Fugatto 还能生成闻所未闻的声音,例如让喇叭学狗叫或萨克斯风模仿猫叫。无论用户如何描述,这款模型都能把创意变为现实。 此外,只需少量歌唱数据,Fugatto 甚至可以生成高质量的歌声。其结合多种指令的能力也令人惊艳,例如用文本指令生成“带法国口音、略带悲伤的语音”。 艺术家般的控制力 用户还能通过 Fugatto 的独特功能对声音进行精细调整。例如,它能生成雷雨从远到近的渐变效果,再慢慢演变为鸟鸣的黎明场景。 技术内幕:模型如何诞生? Fugatto 的训练基于 NVIDIA 的 DGX 系统,采用 2.5 亿参数规模。团队来自全球多个国家,通过多文化、多语言的合作大幅提升了模型的表现力。 在一年的研发中,团队设计了一套全新的数据生成和指令策略,不仅拓展了模型的能力,还让它能在没有额外数据的情况下完成新任务。…
Musk加剧与萨姆·奥特曼的对决,xAI即将推出ChatGPT竞争产品
消息称,埃隆·马斯克的人工智能公司xAI计划在下个月推出一款类似ChatGPT的聊天机器人应用。根据《华尔街日报》周三的报道,这款应用最早可能在12月上线。这一动态表明,马斯克及其xAI团队有意与OpenAI正面交锋。 据报道,这款聊天机器人应用将有助于xAI扩大其技术覆盖范围,并吸引更广泛的用户群体。目前,xAI尚未就此消息回应《商业内幕》的置评请求。 马斯克曾是OpenAI的联合创始人,但他在2018年退出了公司。近年来,他多次对OpenAI及其CEO萨姆·奥特曼发起法律诉讼,指控自己在创立该公司的过程中遭受“欺骗”。如今,他正通过xAI挑战这个他曾参与创立的人工智能巨头。 去年,马斯克创立了xAI,最初为他的其他业务提供服务,例如为Starlink提供AI客户支持,以及为X(前身为Twitter)的付费用户推出了Grok聊天机器人。如果此次推出的聊天机器人应用面向普通消费者,这将是xAI首次直接进军消费级市场。 根据《华尔街日报》本月早些时候的报道,xAI的估值已达到500亿美元,超过了马斯克当年以440亿美元收购X的价格。然而,这一数字仍远低于OpenAI目前的估值。后者在10月的最新一轮融资中估值达1570亿美元,同时在收入上也大幅领先。报道称,OpenAI预计在2024年实现37亿美元收入,而xAI目前的年收入预计仅为1亿美元左右。 值得注意的是,据《金融时报》报道,为弥补收购X带来的投资损失,马斯克将xAI四分之一的股份分配给了参与Twitter收购的投资者。这一举措或许意在安抚这些投资者,并进一步推动xAI的发展壮大。 对于人工智能领域的这场竞赛,马斯克显然不愿落后,他的每一步动作都在加剧与奥特曼及其OpenAI的竞争。
Microsoft LazyGraphRAG-平价版GraphRAG:全场景应用的最佳选择
GraphRAG项目 https://www.microsoft.com/en-us/research/project/graphrag/GraphRAG项目旨在通过挖掘非结构化文本中的隐性关系,扩展AI系统对私有数据集进行回答的能力。与传统的向量RAG(或“语义搜索”)相比,GraphRAG的主要优势在于其可以解答全局性问题,例如“数据中的主要主题是什么?”或“某主题的关键影响有哪些?”。而向量RAG更适合解答局部性问题,例如“谁”、“什么”、“何时”、“何地”等具体问题。 重磅发布:LazyGraphRAG近期的技术分享中,介绍了一种革命性的“LazyGraphRAG”方法。此方法无需预先对源数据进行总结,完全避免了昂贵的索引成本,对预算有限的用户十分友好。 LazyGraphRAG的核心优势在于其在成本和质量方面的可扩展性。与其他方法(如标准向量RAG、RAPTOR以及GraphRAG的本地、全局和DRIFT搜索机制)相比,LazyGraphRAG在性价比上表现卓越: 此外,LazyGraphRAG即将登陆GraphRAG的开源库,为用户提供统一的查询接口,覆盖本地和全局查询。 工作原理:混合最佳与广度搜索LazyGraphRAG结合了向量RAG和GraphRAG的优势,同时克服了它们各自的局限: LazyGraphRAG采用迭代深化的方法,将两者巧妙融合,并通过一个核心参数——相关性测试预算,控制成本与质量的平衡。 性能表现:全面胜出在一项包含5590篇新闻文章和100个查询(50个局部和50个全局问题)的测试中,LazyGraphRAG在多项指标(全面性、多样性、启发性)上显著领先于其他八种主流方法。尤其是在100相关性测试预算的最低配置下,LazyGraphRAG已全面超越了本地和全局查询的绝大部分竞争对手。 对比总结LazyGraphRAG依赖于动态的查询细化和概念映射,而非静态的摘要索引。这种“懒惰”的方法不仅极大提高了效率,也实现了与高成本方法相媲美的答案质量。 未来展望尽管LazyGraphRAG性能强大,但它并非所有场景的最佳选择: 未来,GraphRAG将继续优化搜索机制,并在GitHub平台分享所有进展,敬请期待!
AI训练技术革新:突破规模化瓶颈,引领新发展浪潮
在面临大规模语言模型开发延迟和挑战的背景下,包括OpenAI在内的领先AI公司正研发全新训练技术。这些方法致力于模拟人类思维方式,引导算法学习“如何思考”,为AI的发展带来新可能。 由多名顶尖AI研究者、科学家和投资者主导的这一突破性技术,成为OpenAI最新模型“o1”(前称Q*和Strawberry)的核心支撑。这些创新技术可能彻底改变AI开发所需资源的种类和数量,例如高性能硬件和能耗的优化。 模拟人类推理:o1模型的技术亮点 o1模型通过模拟人类的推理方式,采用逐步分解任务的方式解决问题。同时,该模型利用AI行业专家提供的专业数据和反馈,不断提升其性能。这一方法标志着从传统的规模化扩展到更智能化训练的转变。 自2022年ChatGPT问世以来,AI领域迎来爆发式创新。尽管许多科技公司认为,AI模型的持续改进需要更庞大的数据和更强的计算资源,但近年来,研究者逐渐意识到,单纯依赖规模化扩展的边际效应正在减弱。 “规模化时代”落幕:AI面临新挑战 OpenAI联合创始人伊利亚·苏茨克维尔指出,2010年代见证了AI因规模化而实现的革命性发展,但如今,AI领域正重新回归“探索与发现的时代”。他强调:“找到正确的扩展方向,比单纯追求规模更重要。” 大规模语言模型(LLM)开发的瓶颈开始显现: 革新技术:测试时计算(Test-Time Compute) 为突破现有瓶颈,研究者正探索“测试时计算”技术。这种方法通过实时生成多个答案,并针对复杂任务分配更多计算资源,从而实现更高效的推理与决策能力。其核心目标是提升模型的准确性和智能性。 OpenAI研究员诺姆·布朗在TED AI大会上展示了这一技术的潜力。他提到:“让一个AI模型在扑克中‘思考’20秒,能带来与将模型规模扩展10万倍、训练时间延长10万倍相同的性能提升。” 这一理念颠覆了传统思路:通过改变AI处理信息的方式,而非单纯扩大模型规模,未来AI系统的效率与能力或将迎来飞跃。 技术扩散与市场影响 OpenAI并非唯一采用o1技术的公司,xAI、Google DeepMind和Anthropic等AI实验室也在开发类似技术。这种竞争格局可能对AI硬件市场产生深远影响,特别是Nvidia等在AI芯片领域占主导地位的企业。 目前,Nvidia因其产品在AI集群中的广泛应用,已跻身全球最具价值公司之列。然而,随着新技术的普及,AI对硬件需求的变化可能削弱其市场地位,同时为推理芯片市场带来更多竞争者。 新AI时代的曙光 随着硬件需求演变和训练技术升级,AI领域正迈向一个多元化发展的新阶段。以o1模型为代表的创新方法不仅提升了AI的效率和能力,还可能彻底重塑AI行业格局。未来,AI技术和相关企业将在更激烈的竞争中释放前所未有的潜力,为人类创造更多可能性。
谷歌AI产品可能受限?美法官审视搜索垄断案中的AI角色
在本周二的状态会议上,美国地方法官Amit Mehta表示,政府若在搜索垄断案中胜诉,可能对谷歌的AI产品施加限制,作为反垄断补救措施。这一潜在裁决无疑为谷歌的未来布局蒙上阴影。 据法务新闻平台Law360报道,Mehta指出,旨在模仿搜索引擎功能的AI产品的出现正在迅速改变市场。他强调,补救措施阶段的讨论将更多聚焦AI在谷歌搜索帝国中的角色,而这一点在案件责任认定阶段并未被深入探讨。 “AI的整合将比在责任阶段时表现得更重要,”Mehta表示,“市场本身正在迅速变化,我们需要重新审视这一点。” 谷歌试图将竞争对手卷入 为对抗美国司法部(DOJ)提出的补救措施,谷歌正在试图将其AI领域的主要竞争对手拉入这场诉讼中。据报道,谷歌正要求获得微软的AI合作协议信息,包括微软对OpenAI的130亿美元投资。Mehta初步同意谷歌的部分请求,称这些信息对于补救措施的审理具有“核心相关性”。 DOJ则要求采取一系列严厉的措施,旨在防止谷歌利用AI巩固其搜索和广告市场的主导地位。这些措施包括禁止谷歌与内容发布者达成独家协议用于训练AI,以避免AI领域的竞争对手无法获取所需数据;限制谷歌对AI产品的投资或收购;以及禁止谷歌通过Android设备进行自我优待或限制竞争对手的分发途径。 更引人关注的是,DOJ还建议若行为限制无法打破谷歌的垄断格局,法院应考虑要求谷歌出售Android业务。 此外,DOJ提议强制谷歌允许出版商选择不参与AI训练,同时不会影响其在谷歌搜索中的排名。目前,出版商若选择拒绝AI数据抓取,其内容也会自动从谷歌搜索索引中移除。 DOJ在法庭文件中称,这些补救措施的目标是清除搜索市场中的障碍,为AI驱动的新竞争打开局面。 AI成争议核心 谷歌的律师John E. Schmidtlein在会议上表示,DOJ的AI补救措施不具相关性,并警告称这些“非常规”措施可能会“严重阻碍”谷歌的AI创新。他承认AI是搜索未来的关键,但坚称这与案件的核心问题无关。 另一方面,微软正在努力保护其与OpenAI等AI公司的协议细节。微软辩称,谷歌要求查看这些协议的理由不足,并称其合作协议与搜索或广告市场关系不大。然而,Mehta已要求OpenAI分享部分财务数据及其训练数据来源,以便法庭全面了解AI对市场竞争的潜在影响。 AI:搜索市场的未来战场 DOJ认为,AI驱动的解决方案(如基于查询的AI)可能成为搜索市场中新一代竞争的关键路径。为了防止谷歌利用现有数据优势阻碍竞争,DOJ敦促法院采取全面措施,确保新技术的发展不受垄断行为的干扰。 Mehta法官表示,AI对搜索市场动态的影响已然显现,并将在未来持续快速发展。法院是否会接受DOJ的观点,目前仍有待观察。但可以肯定的是,AI正成为搜索市场未来的关键战场,所有相关方的战略都将受到这场诉讼的深远影响。
AI界的信仰危机:单靠“规模化”智能增长的假设,正在面临挑战
过去四年间,AI领域几乎将“智能来自规模”奉为金科玉律:神经网络越大、数据量越多、计算能力越强,模型就会变得更智能。这一理念催生了ChatGPT等产品,也成为当前AI革命的核心驱动力。然而,随着ChatGPT迎来两周年,这一信仰却与现实碰撞出新的火花:仅凭蛮力式的规模化扩展,似乎不再能持续带动AI能力的提升。 信仰动摇的关键时刻 眼下,全球科技巨头正押下前所未有的赌注。OpenAI正在寻求万亿美元的资金,以推动全球芯片生产;谷歌、Meta、微软和亚马逊也在大幅增加AI计算能力和基础设施的投资。这些举措——预计在2027年前总投资将超1万亿美元——都基于一个共同假设:对变压器模型的规模化扩展能够持续带来稳定的性能增长。 这种“规模化福音”的理论基础,可以追溯到2019年加拿大计算机科学家理查德·萨顿的经典论文《苦涩的教训》。他总结,AI 70年的历史表明,依赖计算力的技术往往优于试图模仿人类知识的方式。换句话说,重现智能并不需要彻底理解它,只需要更大的计算机即可。 一年后,OpenAI的研究证明了萨顿的假设:变压器模型的能力会随着模型规模、数据量和训练计算量的同步扩展而稳定提升,呈现出平滑的幂律曲线。这一发现被GPT-3及其后续模型如GPT-4、Claude 3.5和Gemini等验证,让“智能”从晦涩难懂的概念,变成了一场资源投入的工程问题。 OpenAI的CEO山姆·阿尔特曼更是坚定地宣传这一观点,他在近期发表的文章《智能时代》中简明总结了多年的进展:“深度学习起效了,规模化带来了可预测的提升,我们因此加大了资源投入。”他甚至预言,超级智能AI将在未来“几千天内”降临。基于这一信念,OpenAI已成功融资220亿美元。 第一道裂缝 然而,现实情况正变得复杂。 以OpenAI的新一代模型Orion为例:训练初期,Orion的性能与GPT-4相当,符合规模化定律的预期。但随着训练的深入,性能提升却不如预期,尤其在编程能力方面,几乎没有显著进步——即便消耗了远超前代的资源。 类似的情况也出现在其他公司身上。谷歌最新的Gemini模型未达内部预期,Anthropic的下一代Claude模型开发也一再延期。尽管现有基准测试可能信号不足,但曾经的指数式增长如今更像一条“S曲线”,数据、计算和模型规模的每一次增加带来的增益变得愈发有限。 OpenAI前首席科学家苏茨克维尔的最新表态或许最耐人寻味。他对路透社表示:“2010年代是规模化的时代,而现在,我们又回到了奇思妙想与探索的时代。每个人都在寻找下一个突破。”这番话,来自曾经最坚定的规模化倡导者,无疑是对行业发展路径的深刻反思。 三面“高墙” 规模化面临的挑战,大致可以分为数据、计算和架构三大类。这些问题共同构成了规模化模式下无法突破的障碍。 数据瓶颈 根据2022年的Chinchilla论文,数据和计算需要成比例增长,才能达到模型性能的最佳平衡。然而,目前可用的高质量人类创作内容已几近耗尽,剩余的大多是低质量、重复性或不适合训练的数据。 为了达到某些目标,例如让AI能自主撰写学术论文,可能需要训练模型消耗的浮点运算量(FLOPs)比现有水平高出100,000倍,而这需要远超当前可用高质量数据的规模。尽管有研究尝试利用“合成数据”(即AI生成的数据)来弥补,但这容易陷入“镜厅效应”:新模型继承甚至放大前代模型的偏见和缺陷。 计算与能源壁垒 规模化对计算力和能源的需求正变得难以承受。当前训练一个顶尖模型的能耗,已经接近小型城市的规模。而未来一代的AI模型,可能需要与国家级电力消耗相当的资源。 此外,计算需求的指数增长也带来了物理层面的限制,例如计算产生的热量和能源需求本身,正逐渐成为“无法逾越的墙”。 架构局限 当前的AI模型在处理“长尾问题”时表现尤为不足。这些问题中的特殊情况多到无法通过训练数据完全覆盖。变压器架构虽然在模式识别上表现卓越,但本质上是基于“下一个词预测”,无法真正理解或推理出更广泛的现实情境。 超越规模:新方向的探索 工程问题的解决在于优化现有技术,而科学问题则需要全新的突破。目前,AI领域的研究正试图跳出变压器架构的限制,例如开发更高效的推理机制或全新架构。 多元化的未来 正如AI研究者François Chollet所言,过于专注于LLM的规模化,可能实际上让AI迈向通用智能的步伐倒退了5到10年。当前AI领域的单一化研究方向,迫切需要更多元的探索。 ChatGPT的出现让人类重新思考AI的潜力,而下一个转折点,或许将不再依赖于计算能力的简单叠加,而是基于对“智能”本质更深层次的理解。
阿里巴巴即将超越OpenAI的o1?
据报道,中国科技巨头阿里巴巴推出了一款名为QwQ-32B-Preview(简称QWQ)https://huggingface.co/Qwen/QwQ-32B-Preview 的全新AI模型,凭借其强大的推理能力引发广泛关注。这款模型能够通过逻辑、数学以及编程等复杂多步骤问题的“推理”,表现出了前所未有的技术水平。这一发布无疑将QWQ推向了OpenAI最新AI模型o1-preview的正面竞争舞台。 从基准测试结果来看,QWQ在多个测试中超越了OpenAI的o1(及其轻量版o1-mini)。在数学推理相关的基准测试中,QWQ的准确率达到90.6%,远高于o1的85.5%。更引人注目的是,在AIME测试(通过其他AI模型评估性能)中,QWQ的得分为50%,而o1的成绩仅为44.6%(作为对比,OpenAI的GPT-4在同测试中的得分仅为9.3%)。 尽管如此,QWQ也有其局限性。首先,它的最大输入限制为32,000词,而o1可以接受长达96,000词的输入。此外,由于受到政策要求,QWQ会拒绝回答某些政治敏感问题,并以“核心社会主义价值观”为模型设计的指导原则。同时,该模型在某些情况下会突然切换语言、陷入循环无法正常运作,甚至在“常识推理”任务中表现不佳。 值得注意的是,QWQ作为一个开源模型,已在开发者平台Hugging Face上开放下载,并允许商业用途。然而,阿里巴巴只部分开放了模型内容,因此用户无法完全复制模型或查看其具体内部结构。 总体而言,这款新模型的发布不仅为AI领域带来了新挑战,也让阿里巴巴在全球AI竞赛中占据了一席之地。
全新AI模型家族登场:完全可复现的开源语言模型OLMo 2
本周二,由已故微软联合创始人保罗·艾伦创立的非营利AI研究机构AI2发布了OLMo 2系列模型 (https://allenai.org/olmo),这是其OLMo(Open Language Model,开源语言模型)系列的第二代模型。这一发布引起关注,因为OLMo 2是少数可以完全从头复现的AI模型之一。虽然“开源”语言模型市场已不乏选择(如Meta的Llama),但OLMo 2符合开放源码倡议组织(OSI)对开源AI的定义,即开发所用的工具和数据均为公开可用。 开放源码倡议组织(OSI)是一个长期致力于定义和推广开源标准的机构,其AI开源定义在今年10月最终定稿。而AI2早在今年2月发布的首个OLMo模型便已符合该标准。 “OLMo 2的开发从头到尾采用公开且可访问的训练数据、开源训练代码、可复现的训练方案、透明的评估方法和中间检查点等,”AI2在博客中写道。“通过公开分享数据、方案和研究成果,我们希望为开源社区提供资源,帮助其探索新的创新方法。” OLMo 2 模型家族亮点 OLMo 2系列包括两个模型:一个具有70亿参数(OLMo 7B),另一个具有130亿参数(OLMo 13B)。参数数量大致反映了模型解决问题的能力,通常参数越多,模型的性能越好。 与大多数语言模型一样,OLMo 2 7B和13B可以执行一系列基于文本的任务,如回答问题、总结文档和编写代码。 为了训练这些模型,AI2使用了包含5万亿个标记的数据集。标记代表原始数据的最小单元;100万个标记大约相当于75万字。训练数据集包括经过质量筛选的网站、学术论文、问答论坛以及“人类生成与合成生成”的数学练习题。 AI2表示,这些训练数据使得OLMo 2模型在性能上与Meta最新的Llama 3.1等开源模型具有竞争力。“与早期的OLMo模型相比,OLMo 2的所有任务性能都有显著提升。值得注意的是,OLMo 2 7B的表现优于Llama 3.1的8B模型,”AI2在声明中写道。“OLMo 2可以说是迄今为止最好的完全开源语言模型。” 完全开源,商用友好 OLMo 2模型及其所有组件可以从AI2官方网站下载,并使用Apache 2.0许可证发布,这意味着它们可以用于商业用途。 不过,最近围绕开源模型的安全性也引发了广泛讨论。例如,Llama模型据称被中国研究人员用于开发军事防御工具。当我在今年2月采访AI2工程师Dirk Groeneveld时,他承认存在滥用的可能性,但他认为开源模型的好处最终大于潜在的风险。 “是的,开源模型可能会被不当使用或用于意料之外的用途,”他表示。“然而,这种方法也促进了技术进步,有助于开发更具伦理性的模型;开源是验证和复现的前提条件,因为只有完全开放才能实现这些目标;同时它还减少了日益集中的权力分配,创造了更公平的访问机会。” 总结 OLMo 2的发布标志着开源AI领域又迈出了一大步。它不仅为开发者提供了一个性能强大的工具,还以其完全可复现的特性和透明化的开发方式树立了开源AI的新标杆。在技术快速发展的今天,这种开放与创新的理念无疑为AI社区注入了更多可能性。
探索代理系统中的记忆选项:全面概览
大型语言模型(LLMs)已经彻底改变了基于代理的系统开发,但“记忆管理”仍是一个棘手的难题。记忆机制能让代理保持上下文、回忆关键信息,并在更长时间内实现自然互动。尽管许多框架假设用户可以直接访问GPT或其他专有API,但本地模型在某些情况下的表现甚至可能超过GPT-3等系统。这为定制化解决方案提供了机会。以下将探讨一些针对记忆功能的项目、框架和工具,分析它们如何支持代理系统的发展。 本地模型的挑战与机遇 许多代理框架深度绑定了专有LLM,硬编码的API接口让本地模型的集成异常困难。虽然本地模型理论上可以在某些场景中超越专有系统,但其实施往往并不简单。用户通常不得不通过曲线救国的方式,将API请求重定向到本地服务器,而这可能与框架的原始架构或设计理念相冲突。这种局限性催生了众多专注于记忆功能的项目,旨在弥补这一缺口。 Letta https://github.com/letta-ai/letta Letta是一个开源框架,专为构建具备状态管理功能的LLM应用设计。它的设计灵感源自MemGPT论文,提出通过工具调用让LLM自我编辑记忆。Letta以服务器形式运行,支持通过SDK集成到Python应用中。推荐与vLLM和Ollama模型(如Q6或Q8)配合使用。其核心优势在于记忆整合和可扩展的服务器操作。 Memoripy https://github.com/caspianmoon/memoripy/tree/master Memoripy专注于记忆的优先级管理机制:重要记忆优先保留,次要记忆被逐渐弱化。目前支持Ollama和OpenAI API,未来将扩展兼容性。它的创新记忆组织方式,能够显著优化代理系统的交互体验。 Mem0 (https://github.com/mem0ai/mem0) Mem0被称为“智能记忆层”,默认使用GPT-4o模型,同时支持通过LiteLLM访问开源模型。它是一种灵活的选择,适合想要探索专有系统替代方案的开发者。 Cognee (https://github.com/topoteretes/cognee) Cognee提供模块化的提取、认知与加载(ECL)管道,专注于高效文档处理和结构化数据准备。它兼容所有OpenAI端点,并明确支持Ollama及Mixtral-8x7B等模型,非常适合高强度的记忆任务。 Haystack Basic Agent Memory Tool (https://haystack.deepset.ai/integrations/basic-agent-memory) 作为Haystack框架的一部分,这款工具为代理提供短期和长期记忆功能,与整个Haystack生态系统无缝集成,适合构建多样化的记忆支持应用。 Memary (https://github.com/kingjulio8238/Memary) Memary专为代理系统设计,能从交互中自动生成记忆。它默认假设用户采用Ollama模型,大幅简化了本地化框架的集成。 Kernel-Memory (https://github.com/microsoft/kernel-memory) 由微软开发的实验项目,Kernel-Memory是为其他服务提供记忆功能的插件。虽然尚处于实验阶段,但它为模块化记忆系统提供了宝贵的研究方向。 Zep (https://github.com/getzep/zep) Zep使用时间知识图谱记录用户信息的演变过程,支持所有OpenAI兼容API,并明确支持LiteLLM作为代理。它提供社区版和云版本,云版本还具备导入非聊天数据的功能,部署选择十分灵活。 MemoryScope (https://github.com/modelscope/MemoryScope) MemoryScope是一个专为聊天机器人设计的记忆数据库,提供记忆整合和反思功能,支持Qwen模型,在记忆管理方面表现出色。 LangGraph Memory Service (https://github.com/langchain-ai/memory-template?tab=readme-ov-file) 这是一款用于LangGraph代理的记忆服务模板,能为开发定制解决方案提供基础。 Txtai (https://github.com/neuml/txtai/tree/master) 尽管主要定位为检索增强生成(RAG)工具,Txtai提供了许多可适应记忆系统的示例,展现了强大的多功能性。 Langroid (https://github.com/langroid/langroid) Langroid提供向量存储和来源引用功能,是构建定制记忆解决方案的有力候选。 LangChain Memory (https://github.com/Ryota-Kawamura/LangChain-for-LLM-Application-Development/blob/main/L2-Memory.ipynb) LangChain以模块化设计著称,支持记忆集成,适合构建复杂记忆系统。 WilmerAI WilmerAI平台内置记忆功能,为特定场景提供了便利的解决方案。 EMENT 作为一个研究项目,EMENT专注于提升LLM的长期情景记忆,结合嵌入和实体提取技术,显著增强记忆留存能力。 结语…