aitrendtrackers@rengongzhineng.io, Author at AI TrendTrackers

AI训练技术革新：突破规模化瓶颈，引领新发展浪潮

Posted on November 28, 2024November 28, 2024 by aitrendtrackers@rengongzhineng.io

在面临大规模语言模型开发延迟和挑战的背景下，包括OpenAI在内的领先AI公司正研发全新训练技术。这些方法致力于模拟人类思维方式，引导算法学习“如何思考”，为AI的发展带来新可能。由多名顶尖AI研究者、科学家和投资者主导的这一突破性技术，成为OpenAI最新模型“o1”（前称Q*和Strawberry）的核心支撑。这些创新技术可能彻底改变AI开发所需资源的种类和数量，例如高性能硬件和能耗的优化。模拟人类推理：o1模型的技术亮点 o1模型通过模拟人类的推理方式，采用逐步分解任务的方式解决问题。同时，该模型利用AI行业专家提供的专业数据和反馈，不断提升其性能。这一方法标志着从传统的规模化扩展到更智能化训练的转变。自2022年ChatGPT问世以来，AI领域迎来爆发式创新。尽管许多科技公司认为，AI模型的持续改进需要更庞大的数据和更强的计算资源，但近年来，研究者逐渐意识到，单纯依赖规模化扩展的边际效应正在减弱。 “规模化时代”落幕：AI面临新挑战 OpenAI联合创始人伊利亚·苏茨克维尔指出，2010年代见证了AI因规模化而实现的革命性发展，但如今，AI领域正重新回归“探索与发现的时代”。他强调：“找到正确的扩展方向，比单纯追求规模更重要。” 大规模语言模型（LLM）开发的瓶颈开始显现：革新技术：测试时计算（Test-Time Compute）为突破现有瓶颈，研究者正探索“测试时计算”技术。这种方法通过实时生成多个答案，并针对复杂任务分配更多计算资源，从而实现更高效的推理与决策能力。其核心目标是提升模型的准确性和智能性。 OpenAI研究员诺姆·布朗在TED AI大会上展示了这一技术的潜力。他提到：“让一个AI模型在扑克中‘思考’20秒，能带来与将模型规模扩展10万倍、训练时间延长10万倍相同的性能提升。” 这一理念颠覆了传统思路：通过改变AI处理信息的方式，而非单纯扩大模型规模，未来AI系统的效率与能力或将迎来飞跃。技术扩散与市场影响 OpenAI并非唯一采用o1技术的公司，xAI、Google DeepMind和Anthropic等AI实验室也在开发类似技术。这种竞争格局可能对AI硬件市场产生深远影响，特别是Nvidia等在AI芯片领域占主导地位的企业。目前，Nvidia因其产品在AI集群中的广泛应用，已跻身全球最具价值公司之列。然而，随着新技术的普及，AI对硬件需求的变化可能削弱其市场地位，同时为推理芯片市场带来更多竞争者。新AI时代的曙光随着硬件需求演变和训练技术升级，AI领域正迈向一个多元化发展的新阶段。以o1模型为代表的创新方法不仅提升了AI的效率和能力，还可能彻底重塑AI行业格局。未来，AI技术和相关企业将在更激烈的竞争中释放前所未有的潜力，为人类创造更多可能性。

谷歌AI产品可能受限？美法官审视搜索垄断案中的AI角色

Posted on November 28, 2024November 28, 2024 by aitrendtrackers@rengongzhineng.io

在本周二的状态会议上，美国地方法官Amit Mehta表示，政府若在搜索垄断案中胜诉，可能对谷歌的AI产品施加限制，作为反垄断补救措施。这一潜在裁决无疑为谷歌的未来布局蒙上阴影。据法务新闻平台Law360报道，Mehta指出，旨在模仿搜索引擎功能的AI产品的出现正在迅速改变市场。他强调，补救措施阶段的讨论将更多聚焦AI在谷歌搜索帝国中的角色，而这一点在案件责任认定阶段并未被深入探讨。 “AI的整合将比在责任阶段时表现得更重要，”Mehta表示，“市场本身正在迅速变化，我们需要重新审视这一点。” 谷歌试图将竞争对手卷入为对抗美国司法部（DOJ）提出的补救措施，谷歌正在试图将其AI领域的主要竞争对手拉入这场诉讼中。据报道，谷歌正要求获得微软的AI合作协议信息，包括微软对OpenAI的130亿美元投资。Mehta初步同意谷歌的部分请求，称这些信息对于补救措施的审理具有“核心相关性”。 DOJ则要求采取一系列严厉的措施，旨在防止谷歌利用AI巩固其搜索和广告市场的主导地位。这些措施包括禁止谷歌与内容发布者达成独家协议用于训练AI，以避免AI领域的竞争对手无法获取所需数据；限制谷歌对AI产品的投资或收购；以及禁止谷歌通过Android设备进行自我优待或限制竞争对手的分发途径。更引人关注的是，DOJ还建议若行为限制无法打破谷歌的垄断格局，法院应考虑要求谷歌出售Android业务。此外，DOJ提议强制谷歌允许出版商选择不参与AI训练，同时不会影响其在谷歌搜索中的排名。目前，出版商若选择拒绝AI数据抓取，其内容也会自动从谷歌搜索索引中移除。 DOJ在法庭文件中称，这些补救措施的目标是清除搜索市场中的障碍，为AI驱动的新竞争打开局面。 AI成争议核心谷歌的律师John E. Schmidtlein在会议上表示，DOJ的AI补救措施不具相关性，并警告称这些“非常规”措施可能会“严重阻碍”谷歌的AI创新。他承认AI是搜索未来的关键，但坚称这与案件的核心问题无关。另一方面，微软正在努力保护其与OpenAI等AI公司的协议细节。微软辩称，谷歌要求查看这些协议的理由不足，并称其合作协议与搜索或广告市场关系不大。然而，Mehta已要求OpenAI分享部分财务数据及其训练数据来源，以便法庭全面了解AI对市场竞争的潜在影响。 AI：搜索市场的未来战场 DOJ认为，AI驱动的解决方案（如基于查询的AI）可能成为搜索市场中新一代竞争的关键路径。为了防止谷歌利用现有数据优势阻碍竞争，DOJ敦促法院采取全面措施，确保新技术的发展不受垄断行为的干扰。 Mehta法官表示，AI对搜索市场动态的影响已然显现，并将在未来持续快速发展。法院是否会接受DOJ的观点，目前仍有待观察。但可以肯定的是，AI正成为搜索市场未来的关键战场，所有相关方的战略都将受到这场诉讼的深远影响。

AI界的信仰危机：单靠“规模化”智能增长的假设，正在面临挑战

Posted on November 28, 2024November 28, 2024 by aitrendtrackers@rengongzhineng.io

过去四年间，AI领域几乎将“智能来自规模”奉为金科玉律：神经网络越大、数据量越多、计算能力越强，模型就会变得更智能。这一理念催生了ChatGPT等产品，也成为当前AI革命的核心驱动力。然而，随着ChatGPT迎来两周年，这一信仰却与现实碰撞出新的火花：仅凭蛮力式的规模化扩展，似乎不再能持续带动AI能力的提升。信仰动摇的关键时刻眼下，全球科技巨头正押下前所未有的赌注。OpenAI正在寻求万亿美元的资金，以推动全球芯片生产；谷歌、Meta、微软和亚马逊也在大幅增加AI计算能力和基础设施的投资。这些举措——预计在2027年前总投资将超1万亿美元——都基于一个共同假设：对变压器模型的规模化扩展能够持续带来稳定的性能增长。这种“规模化福音”的理论基础，可以追溯到2019年加拿大计算机科学家理查德·萨顿的经典论文《苦涩的教训》。他总结，AI 70年的历史表明，依赖计算力的技术往往优于试图模仿人类知识的方式。换句话说，重现智能并不需要彻底理解它，只需要更大的计算机即可。一年后，OpenAI的研究证明了萨顿的假设：变压器模型的能力会随着模型规模、数据量和训练计算量的同步扩展而稳定提升，呈现出平滑的幂律曲线。这一发现被GPT-3及其后续模型如GPT-4、Claude 3.5和Gemini等验证，让“智能”从晦涩难懂的概念，变成了一场资源投入的工程问题。 OpenAI的CEO山姆·阿尔特曼更是坚定地宣传这一观点，他在近期发表的文章《智能时代》中简明总结了多年的进展：“深度学习起效了，规模化带来了可预测的提升，我们因此加大了资源投入。”他甚至预言，超级智能AI将在未来“几千天内”降临。基于这一信念，OpenAI已成功融资220亿美元。第一道裂缝然而，现实情况正变得复杂。以OpenAI的新一代模型Orion为例：训练初期，Orion的性能与GPT-4相当，符合规模化定律的预期。但随着训练的深入，性能提升却不如预期，尤其在编程能力方面，几乎没有显著进步——即便消耗了远超前代的资源。类似的情况也出现在其他公司身上。谷歌最新的Gemini模型未达内部预期，Anthropic的下一代Claude模型开发也一再延期。尽管现有基准测试可能信号不足，但曾经的指数式增长如今更像一条“S曲线”，数据、计算和模型规模的每一次增加带来的增益变得愈发有限。 OpenAI前首席科学家苏茨克维尔的最新表态或许最耐人寻味。他对路透社表示：“2010年代是规模化的时代，而现在，我们又回到了奇思妙想与探索的时代。每个人都在寻找下一个突破。”这番话，来自曾经最坚定的规模化倡导者，无疑是对行业发展路径的深刻反思。三面“高墙” 规模化面临的挑战，大致可以分为数据、计算和架构三大类。这些问题共同构成了规模化模式下无法突破的障碍。数据瓶颈根据2022年的Chinchilla论文，数据和计算需要成比例增长，才能达到模型性能的最佳平衡。然而，目前可用的高质量人类创作内容已几近耗尽，剩余的大多是低质量、重复性或不适合训练的数据。为了达到某些目标，例如让AI能自主撰写学术论文，可能需要训练模型消耗的浮点运算量（FLOPs）比现有水平高出100,000倍，而这需要远超当前可用高质量数据的规模。尽管有研究尝试利用“合成数据”（即AI生成的数据）来弥补，但这容易陷入“镜厅效应”：新模型继承甚至放大前代模型的偏见和缺陷。计算与能源壁垒规模化对计算力和能源的需求正变得难以承受。当前训练一个顶尖模型的能耗，已经接近小型城市的规模。而未来一代的AI模型，可能需要与国家级电力消耗相当的资源。此外，计算需求的指数增长也带来了物理层面的限制，例如计算产生的热量和能源需求本身，正逐渐成为“无法逾越的墙”。架构局限当前的AI模型在处理“长尾问题”时表现尤为不足。这些问题中的特殊情况多到无法通过训练数据完全覆盖。变压器架构虽然在模式识别上表现卓越，但本质上是基于“下一个词预测”，无法真正理解或推理出更广泛的现实情境。超越规模：新方向的探索工程问题的解决在于优化现有技术，而科学问题则需要全新的突破。目前，AI领域的研究正试图跳出变压器架构的限制，例如开发更高效的推理机制或全新架构。多元化的未来正如AI研究者François Chollet所言，过于专注于LLM的规模化，可能实际上让AI迈向通用智能的步伐倒退了5到10年。当前AI领域的单一化研究方向，迫切需要更多元的探索。 ChatGPT的出现让人类重新思考AI的潜力，而下一个转折点，或许将不再依赖于计算能力的简单叠加，而是基于对“智能”本质更深层次的理解。

阿里巴巴即将超越OpenAI的o1？

Posted on November 28, 2024November 28, 2024 by aitrendtrackers@rengongzhineng.io

据报道，中国科技巨头阿里巴巴推出了一款名为QwQ-32B-Preview（简称QWQ）https://huggingface.co/Qwen/QwQ-32B-Preview 的全新AI模型，凭借其强大的推理能力引发广泛关注。这款模型能够通过逻辑、数学以及编程等复杂多步骤问题的“推理”，表现出了前所未有的技术水平。这一发布无疑将QWQ推向了OpenAI最新AI模型o1-preview的正面竞争舞台。从基准测试结果来看，QWQ在多个测试中超越了OpenAI的o1（及其轻量版o1-mini）。在数学推理相关的基准测试中，QWQ的准确率达到90.6%，远高于o1的85.5%。更引人注目的是，在AIME测试（通过其他AI模型评估性能）中，QWQ的得分为50%，而o1的成绩仅为44.6%（作为对比，OpenAI的GPT-4在同测试中的得分仅为9.3%）。尽管如此，QWQ也有其局限性。首先，它的最大输入限制为32,000词，而o1可以接受长达96,000词的输入。此外，由于受到政策要求，QWQ会拒绝回答某些政治敏感问题，并以“核心社会主义价值观”为模型设计的指导原则。同时，该模型在某些情况下会突然切换语言、陷入循环无法正常运作，甚至在“常识推理”任务中表现不佳。值得注意的是，QWQ作为一个开源模型，已在开发者平台Hugging Face上开放下载，并允许商业用途。然而，阿里巴巴只部分开放了模型内容，因此用户无法完全复制模型或查看其具体内部结构。总体而言，这款新模型的发布不仅为AI领域带来了新挑战，也让阿里巴巴在全球AI竞赛中占据了一席之地。

全新AI模型家族登场：完全可复现的开源语言模型OLMo 2

Posted on November 27, 2024November 27, 2024 by aitrendtrackers@rengongzhineng.io

本周二，由已故微软联合创始人保罗·艾伦创立的非营利AI研究机构AI2发布了OLMo 2系列模型 (https://allenai.org/olmo)，这是其OLMo（Open Language Model，开源语言模型）系列的第二代模型。这一发布引起关注，因为OLMo 2是少数可以完全从头复现的AI模型之一。虽然“开源”语言模型市场已不乏选择（如Meta的Llama），但OLMo 2符合开放源码倡议组织（OSI）对开源AI的定义，即开发所用的工具和数据均为公开可用。开放源码倡议组织（OSI）是一个长期致力于定义和推广开源标准的机构，其AI开源定义在今年10月最终定稿。而AI2早在今年2月发布的首个OLMo模型便已符合该标准。 “OLMo 2的开发从头到尾采用公开且可访问的训练数据、开源训练代码、可复现的训练方案、透明的评估方法和中间检查点等，”AI2在博客中写道。“通过公开分享数据、方案和研究成果，我们希望为开源社区提供资源，帮助其探索新的创新方法。” OLMo 2 模型家族亮点 OLMo 2系列包括两个模型：一个具有70亿参数（OLMo 7B），另一个具有130亿参数（OLMo 13B）。参数数量大致反映了模型解决问题的能力，通常参数越多，模型的性能越好。与大多数语言模型一样，OLMo 2 7B和13B可以执行一系列基于文本的任务，如回答问题、总结文档和编写代码。为了训练这些模型，AI2使用了包含5万亿个标记的数据集。标记代表原始数据的最小单元；100万个标记大约相当于75万字。训练数据集包括经过质量筛选的网站、学术论文、问答论坛以及“人类生成与合成生成”的数学练习题。 AI2表示，这些训练数据使得OLMo 2模型在性能上与Meta最新的Llama 3.1等开源模型具有竞争力。“与早期的OLMo模型相比，OLMo 2的所有任务性能都有显著提升。值得注意的是，OLMo 2 7B的表现优于Llama 3.1的8B模型，”AI2在声明中写道。“OLMo 2可以说是迄今为止最好的完全开源语言模型。” 完全开源，商用友好 OLMo 2模型及其所有组件可以从AI2官方网站下载，并使用Apache 2.0许可证发布，这意味着它们可以用于商业用途。不过，最近围绕开源模型的安全性也引发了广泛讨论。例如，Llama模型据称被中国研究人员用于开发军事防御工具。当我在今年2月采访AI2工程师Dirk Groeneveld时，他承认存在滥用的可能性，但他认为开源模型的好处最终大于潜在的风险。 “是的，开源模型可能会被不当使用或用于意料之外的用途，”他表示。“然而，这种方法也促进了技术进步，有助于开发更具伦理性的模型；开源是验证和复现的前提条件，因为只有完全开放才能实现这些目标；同时它还减少了日益集中的权力分配，创造了更公平的访问机会。” 总结 OLMo 2的发布标志着开源AI领域又迈出了一大步。它不仅为开发者提供了一个性能强大的工具，还以其完全可复现的特性和透明化的开发方式树立了开源AI的新标杆。在技术快速发展的今天，这种开放与创新的理念无疑为AI社区注入了更多可能性。

探索代理系统中的记忆选项：全面概览

Posted on November 27, 2024November 27, 2024 by aitrendtrackers@rengongzhineng.io

大型语言模型（LLMs）已经彻底改变了基于代理的系统开发，但“记忆管理”仍是一个棘手的难题。记忆机制能让代理保持上下文、回忆关键信息，并在更长时间内实现自然互动。尽管许多框架假设用户可以直接访问GPT或其他专有API，但本地模型在某些情况下的表现甚至可能超过GPT-3等系统。这为定制化解决方案提供了机会。以下将探讨一些针对记忆功能的项目、框架和工具，分析它们如何支持代理系统的发展。本地模型的挑战与机遇许多代理框架深度绑定了专有LLM，硬编码的API接口让本地模型的集成异常困难。虽然本地模型理论上可以在某些场景中超越专有系统，但其实施往往并不简单。用户通常不得不通过曲线救国的方式，将API请求重定向到本地服务器，而这可能与框架的原始架构或设计理念相冲突。这种局限性催生了众多专注于记忆功能的项目，旨在弥补这一缺口。 Letta https://github.com/letta-ai/letta Letta是一个开源框架，专为构建具备状态管理功能的LLM应用设计。它的设计灵感源自MemGPT论文，提出通过工具调用让LLM自我编辑记忆。Letta以服务器形式运行，支持通过SDK集成到Python应用中。推荐与vLLM和Ollama模型（如Q6或Q8）配合使用。其核心优势在于记忆整合和可扩展的服务器操作。 Memoripy https://github.com/caspianmoon/memoripy/tree/master Memoripy专注于记忆的优先级管理机制：重要记忆优先保留，次要记忆被逐渐弱化。目前支持Ollama和OpenAI API，未来将扩展兼容性。它的创新记忆组织方式，能够显著优化代理系统的交互体验。 Mem0 （https://github.com/mem0ai/mem0） Mem0被称为“智能记忆层”，默认使用GPT-4o模型，同时支持通过LiteLLM访问开源模型。它是一种灵活的选择，适合想要探索专有系统替代方案的开发者。 Cognee （https://github.com/topoteretes/cognee） Cognee提供模块化的提取、认知与加载（ECL）管道，专注于高效文档处理和结构化数据准备。它兼容所有OpenAI端点，并明确支持Ollama及Mixtral-8x7B等模型，非常适合高强度的记忆任务。 Haystack Basic Agent Memory Tool （https://haystack.deepset.ai/integrations/basic-agent-memory）作为Haystack框架的一部分，这款工具为代理提供短期和长期记忆功能，与整个Haystack生态系统无缝集成，适合构建多样化的记忆支持应用。 Memary （https://github.com/kingjulio8238/Memary） Memary专为代理系统设计，能从交互中自动生成记忆。它默认假设用户采用Ollama模型，大幅简化了本地化框架的集成。 Kernel-Memory (https://github.com/microsoft/kernel-memory) 由微软开发的实验项目，Kernel-Memory是为其他服务提供记忆功能的插件。虽然尚处于实验阶段，但它为模块化记忆系统提供了宝贵的研究方向。 Zep (https://github.com/getzep/zep) Zep使用时间知识图谱记录用户信息的演变过程，支持所有OpenAI兼容API，并明确支持LiteLLM作为代理。它提供社区版和云版本，云版本还具备导入非聊天数据的功能，部署选择十分灵活。 MemoryScope (https://github.com/modelscope/MemoryScope) MemoryScope是一个专为聊天机器人设计的记忆数据库，提供记忆整合和反思功能，支持Qwen模型，在记忆管理方面表现出色。 LangGraph Memory Service (https://github.com/langchain-ai/memory-template?tab=readme-ov-file) 这是一款用于LangGraph代理的记忆服务模板，能为开发定制解决方案提供基础。 Txtai (https://github.com/neuml/txtai/tree/master) 尽管主要定位为检索增强生成（RAG）工具，Txtai提供了许多可适应记忆系统的示例，展现了强大的多功能性。 Langroid (https://github.com/langroid/langroid) Langroid提供向量存储和来源引用功能，是构建定制记忆解决方案的有力候选。 LangChain Memory (https://github.com/Ryota-Kawamura/LangChain-for-LLM-Application-Development/blob/main/L2-Memory.ipynb) LangChain以模块化设计著称，支持记忆集成，适合构建复杂记忆系统。 WilmerAI WilmerAI平台内置记忆功能，为特定场景提供了便利的解决方案。 EMENT 作为一个研究项目，EMENT专注于提升LLM的长期情景记忆，结合嵌入和实体提取技术，显著增强记忆留存能力。结语…

OpenAI Sora被曝泄露

Posted on November 27, 2024November 27, 2024 by aitrendtrackers@rengongzhineng.io

有一群自称“索拉公关傀儡”的人最近泄露了OpenAI的视频生成器Sora的访问权限，称此举是为了抗议他们所谓的“虚伪”和“艺术洗白”行为。本周二，该团体在AI开发平台Hugging Face上发布了一个项目，看起来与OpenAI尚未公开的Sora API有关。他们似乎利用早期测试的身份验证令牌，创建了一个前端界面，让用户通过Sora生成视频。通过这个前端，用户只需输入一段简短的文字描述，就可以生成最长10秒、分辨率高达1080p的视频。尽管尝试过程中队列很长，但一些网友还是在社交平台X上传了样本视频，这些视频大多带有OpenAI独特的视觉水印。然而，截至美东时间中午12:01，这个前端已经无法使用。推测可能是OpenAI或Hugging Face撤销了访问权限。据该组织称，OpenAI在三个小时后暂时关闭了Sora的早期访问，影响了所有艺术家。为什么会发生这样的事情？据泄密团体称，OpenAI正在向Sora的早期测试者施压，这些测试者包括红队成员和创意合作伙伴，要求他们对Sora进行正面宣传，同时未能给予他们公平的报酬。他们表示：“价值1500亿美元的公司，却通过[Sora早期访问]项目让数百名艺术家进行无偿劳动，包括测试、反馈和实验性创作工作。”该团体在Hugging Face上的一篇帖子中写道，这个计划看起来更多是为公关和广告服务，而不是促进创意表达和批评。起初，这个团体没有透露成员身份。但当天稍晚，他们在Hugging Face上的附件中以及一份独立的请愿书中逐步列出了部分成员。该团体还声称，OpenAI对Sora的能力有所隐瞒，严格限制早期访问用户的使用方式。据称，所有的Sora生成内容在广泛分享之前都需要OpenAI的批准，而且只有少数创作者会被选中展示他们的作品。他们表示：“我们并不反对将AI技术作为艺术工具（如果反对，我们可能根本不会被邀请参加这个项目）。我们反对的是这种艺术家计划的实施方式，以及在Sora可能公开发布前工具的发展方向。我们公开这一切，是希望OpenAI能更加开放，更加友好地对待艺术家，并超越公关噱头真正支持艺术。” OpenAI的回应对此，OpenAI的一位发言人表示，Sora目前仍处于“研究预览”阶段，公司正在努力在创意和安全性之间找到平衡。发言人提到，“数百名艺术家参与了我们的Alpha测试，为Sora的开发提供了帮助，包括新功能的优先级和安全保障措施的完善。参与是自愿的，没有提供反馈或使用工具的义务。我们很高兴为这些艺术家提供免费访问，并将继续通过资助、活动和其他计划支持他们。我们相信AI可以成为强大的创意工具，并致力于让Sora既实用又安全。” 发言人还补充，艺术家对OpenAI并无义务，除了“负责任地”使用Sora以及在开发阶段不泄露机密信息。不过，他们并未明确说明“负责任”具体指什么，也没有解释哪些细节被视为机密。技术挑战和竞争对手的压力自今年早些时候推出以来，Sora遇到了不少技术难题，而视频生成领域的竞争对手也在奋力赶超。让情况雪上加霜的是，Sora项目的联合负责人之一Tim Brooks在10月初离开OpenAI，跳槽至Google。在最近的一场Reddit问答活动中，OpenAI首席产品官Kevin Weil表示，Sora的发布被推迟，是因为需要完善模型，并解决安全、冒充等问题，同时扩大计算能力。据《The Information》报道，Sora最初版本生成一分钟视频需要超过10分钟的处理时间。 Sora的早期版本还存在一致性问题。电影制作人Patrick Cederberg透露，他需要生成数百段视频才能得到一个可用的，因为模型无法在视频中维持一致的风格、物体和角色。而根据一些X用户发现的代码，泄露的Sora版本似乎是一个更快的“Turbo”版本，并增加了风格控制和有限的自定义选项。《The Information》还提到，OpenAI正在用数百万小时高质量的多样化视频素材训练Sora，以提升生成视频的质量。此外，OpenAI近期在合作上也被竞争对手抢占先机。今年9月，Runway与《疾速追杀》系列的制作公司狮门影业签订协议，用其电影资料库训练定制视频模型。而Stability则招募了《阿凡达》导演詹姆斯·卡梅隆加入董事会。虽然OpenAI今年早些时候也曾与电影制作人和好莱坞公司接触，并在戛纳电影节进行展示，但至今尚未宣布与主要制片厂的合作。

RAG架构类型

Posted on November 26, 2024November 26, 2024 by aitrendtrackers@rengongzhineng.io

检索增强生成（Retrieval-Augmented Generation，简称RAG）架构正在改变信息的检索与处理方式，通过将检索能力与生成式人工智能结合，这种技术提升了准确性和上下文相关性，为满足用户的具体需求提供了强大的工具。以下是对25种RAG架构类型及其独特应用的详细解析。纠错型RAG（Corrective RAG）：纠错型RAG就像一个实时的事实核查工具，不仅生成响应，还会对比可靠数据源验证内容的准确性，从而减少错误。它的架构中包含一个错误检测模块，可以在交付前修正不一致的信息。例如，在医疗领域，搭载纠错型RAG的聊天机器人可以提供药物剂量建议，并核对医学指南。这种架构在医疗、法律和金融等对准确性要求极高的领域尤为重要，确保生成内容与可信数据对齐，优先保证可靠性。预测型RAG（Speculative RAG）：预测型RAG擅长预判用户需求，通过分析用户行为提前准备相关响应。这种前瞻性方法能够预加载数据，从而缩短响应时间，优化用户体验。例如，一款新闻应用可以通过预测型RAG，分析用户搜索历史，推送与环保主题相关的热门文章。这种实时预测功能特别适用于电商、客户服务和新闻推送等需要即时反馈的平台。自适应型RAG（Agenetic RAG）：自适应型RAG能够通过多次交互学习用户偏好，从而动态优化其数据库和检索过程。例如，流媒体平台利用自适应型RAG，可以发现用户逐渐对惊悚片感兴趣，随后在推荐中优先显示此类内容。其无需手动干预就能自动调整的特性，使其在个性化推荐系统中表现出色，适用于零售、娱乐和数字内容策划领域。自我优化型RAG（Self-RAG）：自我优化型RAG专注于持续改进。它通过评估响应的准确性和相关性，不断优化检索方式。例如，一款金融分析工具可以借助自我优化型RAG使用实时股票市场数据，并结合历史模式和用户反馈调整预测。这种自我提升的能力在动态领域如金融、天气预测和物流中非常有价值。实时调整型RAG（Adaptive RAG）：实时调整型RAG能够根据用户上下文或环境变化动态调整响应内容，保持信息的实时相关性。例如，航空订票系统可以通过实时调整型RAG分析座位可用性，并根据突发的航班取消情况，提供替代建议。这种灵活性在票务平台、供应链物流和现场活动管理系统中极具应用潜力。反馈强化型RAG（Refeed Feedback RAG）：反馈强化型RAG通过直接吸收用户反馈不断优化自身。它通过学习用户的纠正意见，持续改进检索和生成方法。例如，电信行业的聊天机器人可能最初误解用户问题，但通过频繁的用户纠正逐渐提升准确率，从而更好地满足用户期望。这种架构在客户服务等需要高互动性的应用中表现尤为出色。领域聚焦型RAG（Realm RAG）：领域聚焦型RAG结合传统系统的检索能力和大型语言模型（LLM）的深度上下文理解，特别适合技术或法律领域。例如，法律助手可以利用领域聚焦型RAG检索与版权法相关的案例，显著节省研究时间并确保精准性。这种架构通过整合LLM能力，为用户提供了前所未有的深度与相关性。分层结构型RAG（Raptor RAG）：分层结构型RAG以树状组织数据，简化复杂或结构化数据集的检索流程。例如，医院可以使用此架构将患者症状分类并关联到可能的诊断结果。这种高效结构在医疗和电商中表现尤为突出，可提升用户导航和信息获取效率。多数据源整合型RAG（Replug RAG）：多数据源整合型RAG通过与外部数据源无缝连接，实现实时更新和洞察。例如，金融平台利用此架构获取最新的股市价格和趋势，确保用户接收的都是最新信息。这种整合内部与外部数据的能力在动态数据密集型行业（如金融、气象预测）中尤为重要。记忆型RAG（Memo RAG）：记忆型RAG在用户交互中保留上下文和连续性。例如，客户服务中的虚拟助手可以记住用户过去的问题，使后续交互更加顺畅。在教育平台上，记忆型RAG可以记住学生之前学习的主题，从而定制后续课程内容。这种上下文保留显著提升用户满意度和参与度。注意力优先型RAG（Attention-Based RAG）：注意力优先型RAG能够过滤掉无关信息，聚焦查询中的关键部分。例如，研究助手可以利用此架构优先检索“AI在医疗中的应用”的相关研究，而避免干扰性内容。这种精准定位的能力非常适合学术研究、药物开发和法律咨询等对准确性要求极高的领域。历史背景型RAG（RETRO RAG）：历史背景型RAG通过纳入过去的交互、文件或数据集，提供更全面的回答。例如，企业知识管理系统可以利用RETRO RAG回忆项目决策，帮助员工快速了解策略背景。这种对历史背景的整合能力在注重连续性和知识传承的行业中不可或缺。自动化RAG（Auto RAG）：自动化RAG在无需人工干预的情况下，高效处理动态和海量数据。例如，新闻聚合器可以借助自动化RAG收集每日头条并按相关性排序。这种架构大幅减少运营负担，非常适合需要实时更新的内容平台。成本约束型RAG（Cost-Constrained RAG）：成本约束型RAG在预定预算内优化检索，兼顾效率和成本。非盈利组织可以利用此架构在有限预算下获取关键数据，在教育和小型企业等预算敏感行业尤为适用。环保型RAG（ECO RAG）：环保型RAG通过优化能源消耗，支持绿色科技。环境监测平台可以利用此架构降低数据检索的碳足迹，特别适合可持续发展项目。规则驱动型RAG（Rule-Based RAG）：规则驱动型RAG严格遵循预设规范，确保生成内容符合法律、伦理或组织要求。它在金融、医疗和法律等合规性至关重要的领域尤为可靠。对话型RAG（Conversational RAG）：对话型RAG专为交互式对话设计，适应对话的动态变化。例如，电商聊天机器人可以根据用户提问实时调整推荐产品。这种架构在增强用户互动体验方面效果显著。迭代型RAG（Iterative RAG）：迭代型RAG通过多次互动优化响应，特别适合技术支持和复杂问题解决场景。它的自我改进能力使其在逐步完善解决方案中大显身手。混合型RAG（HybridAI RAG）：混合型RAG整合多种机器学习模型的优势，适合需要多角度分析的复杂任务。例如，预测性维护系统可以利用此架构综合传感器数据和日志分析，提前预测设备故障。生成型RAG（Generative AI RAG）：生成型RAG将检索与内容生成结合，用于需要创意与相关性的场景，如营销和品牌推广。它通过分析历史数据生成创新文案，助力内容创作。可解释型RAG（XAI RAG）：可解释型RAG确保用户理解响应背后的逻辑。例如，医疗场景中可解释型RAG不仅推荐治疗方案，还会详细说明依据。上下文缓存型RAG（Context Cache RAG）：上下文缓存型RAG通过保留关键数据点，实现跨互动的连贯响应。它特别适合教育工具，确保学习过程的连续性。深度理解型RAG（Grokking RAG）：深度理解型RAG善于处理复杂数据并提供直观解释，适用于需要深入理解的科学研究领域。动态优化型RAG（Replug Retrieval Feedback RAG）：动态优化型RAG通过反馈不断改进外部数据连接能力，特别适合金融、物流等数据密集型行业。…

Anthropic 开源Model Context Protocol（MCP）

Posted on November 26, 2024November 26, 2024 by aitrendtrackers@rengongzhineng.io

今天，Model Context Protocol（MCP）正式开源 https://modelcontextprotocol.io/introduction！这个全新标准旨在帮助AI助手直接连接到数据所在的系统，比如内容存储库、商业工具和开发环境，从而提升前沿模型的响应质量和相关性。随着AI助手逐渐走入主流，行业内对模型能力的投入持续加码，推动车型推理和质量的飞速提升。然而，即使是最先进的模型也受到数据孤岛和遗留系统的限制，导致模型与数据之间的隔阂难以打破。每接入一个新的数据源都需要专门定制，这让构建真正互联的系统变得异常困难。 MCP正是为了解决这一痛点而生。它为AI系统与数据源的连接提供了一个通用、开放的标准，取代了目前零散的集成方式。通过MCP，AI系统能够更简单、更可靠地获取所需数据，打通了从模型到数据的关键通路。什么是Model Context Protocol？ MCP是一种开放标准，帮助开发者为数据源与AI驱动的工具之间搭建安全的双向连接。其架构十分简洁：开发者既可以通过MCP服务器共享数据，也可以构建支持MCP的AI应用（MCP客户端），与这些服务器进行交互。此次发布带来了三个主要组件，为开发者开启MCP世界的大门：值得一提的是，Claude 3.5 Sonnet非常擅长快速构建MCP服务器，实现企业和个人将关键数据集快速连接到各种AI工具的能力。为了让开发者轻松上手，此次发布还包含了预构建的MCP服务器，支持Google Drive、Slack、GitHub、Git、Postgres和Puppeteer等主流企业系统。目前，Block和Apollo等早期用户已经将MCP集成到他们的系统中。而Zed、Replit、Codeium和Sourcegraph等开发工具公司也在探索如何利用MCP提升其平台功能，让AI助手能更好地获取上下文信息，从而在编程任务中生成更精准且实用的代码，减少反复尝试的次数。 Block的首席技术官Dhanji R. Prasanna对MCP的潜力表示高度赞赏。他提到：“在Block，开源不仅仅是一种开发模式，更是推动技术变革的基石。像Model Context Protocol这样的开放技术，就像桥梁一样，将AI与现实应用连接起来，使创新更透明、更具协作性。我们很高兴能够参与这一协议的合作，通过它构建更加智能的系统，让人们从机械式的任务中解放出来，专注于创造性工作。” MCP如何改变现状？以往，开发者需要为每种数据源单独开发连接器，而现在只需遵循一个标准协议即可。随着生态系统的不断成熟，AI系统将能够在不同工具和数据集之间保持上下文的连贯性，逐渐替代当前零碎的集成方式，打造更加可持续的架构。开始使用MCP 开发者现在即可开始构建和测试MCP连接器。现有的Claude for Work用户可以率先通过本地MCP服务器测试，将Claude连接到内部系统和数据集。不久后，还将推出工具包，支持部署远程生产环境下的MCP服务器，为整个组织服务。具体步骤如下： MCP的发布为AI系统与数据源的融合带来了全新可能，未来或将彻底改变AI助手的能力和应用方式。

Google 为 Android 16 开发新 API，赋能 Gemini 实现更强的 AI 代理功能

Posted on November 25, 2024November 25, 2024 by aitrendtrackers@rengongzhineng.io

Google 正在为即将推出的 Android 16 开发一项全新 API，让系统应用可以在其他应用程序中代替用户执行操作。这项新功能的核心是一项专属权限，目前计划仅授予默认的智能助理应用，例如在新款 Android 设备上作为默认助理服务的 Gemini。这为 Gemini 成为用户手机上的 AI 代理铺平了道路，也兑现了 Google 自 Pixel 4 推出全新 Google Assistant 时所承诺的功能愿景。 Gemini 的日益强大：从扩展到全面控制 Gemini 是 Google 力推的聊天机器人及大型语言模型（LLM），目前已深度整合到 Google 的产品体系中。在许多 Android 设备上，它已经成为默认助理服务，并随着每次更新扩展其功能。尽管 Gemini 目前可以通过 Gemini Extensions 与外部服务交互，但它对 Android 应用的直接控制能力依然非常有限。目前，Gemini Extensions 支持通过后端 API 访问 Google Flights、Google Maps、YouTube、Google Workspace 等服务，但仅限于调用用户账户数据，而非直接控制 Android 应用本身。虽然某些扩展（如 Utilities）可以通过预定义的意图执行简单操作，但这种实现方式并不适用于更复杂的任务。 Gemini 面临的另一个问题是可扩展性。Android 应用数量庞大，许多应用没有公开的 API，扩展覆盖率有限。而通过屏幕读取、辅助功能输入等技术让…

Subscribe 订阅