据报道,OpenAI 的全新 AI 代理“Operator”在一系列泄密中首次曝光!这款被称为“下一代突破性技术”的代理工具将能够为用户自动完成各种基于计算机的任务,比如编程、预订旅行和网络浏览等。 泄密关键点: 行业意义: 未来展望: 尽管当前 “Operator” 在复杂任务上的成功率尚待提升,其智能水平和自动化能力已经展现了令人瞩目的潜力。随着研究预览的推出,OpenAI 的这款 AI 代理或将为工作效率工具和自主智能技术设立新的标杆,引领下一波技术革新潮流。
Author: aitrendtrackers@rengongzhineng.io
本地 AI 模型“不实用”?
近年来,本地 AI 模型正逐渐成为热门话题,而过去许多人对它们的偏见——“又笨又占资源”——似乎正在被打破。以下是为何本地 AI 模型如今被认为可行的主要原因,以及它们可能带来的深远影响。 为什么过去的本地 AI 模型“不实用”? 如今发生了什么? 开源 AI 领域,尤其是中国团队的贡献,推动了技术进步: 为什么这很重要? 本地 AI 模型的崛起带来了几大转变: 为什么 GPQA Diamond 很重要? GPQA Diamond 是评估模型理解力和知识水平的可靠基准测试,比数学和编程任务更适合衡量模型的通用智能能力。数据显示,许多 7-8B 的开源模型已经能够在这个测试中媲美 GPT-4o,而与 Claude 3.5 Sonnet 的差距也逐步缩小。 接下来的挑战是什么? 虽然本地 AI 模型的性能和便捷性不断提高,但仍有几个障碍需要克服: 未来展望 随着本地 AI 技术的成熟,个人设备将不再仅仅是消费工具,而能成为功能强大的生产力工具。无论是保护隐私,还是摆脱对云服务的依赖,本地 AI 都展现出改变行业规则的潜力。期待下一个“爆款”产品,真正让这些本地模型走进千家万户。
谷歌 AI 推出了一项革命性框架,专注于扩展扩散模型在推理阶段的性能
背景:扩散模型推理的挑战 生成模型近年来在语言、视觉和生物学领域引发了巨大变革。尽管通过增加数据量、计算资源和模型规模,这些模型在训练阶段取得了显著进步,但推理阶段的扩展能力却面临诸多限制。以扩散模型为例,这类模型通过降噪过程生成连续数据(如图像、音频和视频),但简单增加降噪步数(NFE)的传统方法并未显著提升性能,甚至可能导致计算资源浪费。 目前,多种方法被尝试用来改进生成模型的推理性能。例如,大型语言模型(LLM)在测试时通过改进搜索算法、验证方法和计算分配策略取得了成功。但在扩散模型领域,现有方法主要集中于训练阶段优化,如微调、强化学习和直接偏好优化等,而推理阶段的深入扩展方案尚属稀缺。 谷歌框架:推理阶段的新方法论 NYU、MIT 和谷歌的研究团队提出了一种全新的推理扩展框架,摆脱了简单增加降噪步数的思路,通过创新的搜索机制提升生成质量。新框架的核心是通过更优噪声候选的发现和验证算法,改进扩散模型的降噪过程,并提供灵活的组件组合,适配多种应用场景。 具体实现中,该框架采用了针对 ImageNet 的类条件生成,使用预训练的 SiT-XL 模型(256 × 256 分辨率)和二阶 Heun 采样器。降噪步数固定为 250 步,同时探索额外的 NFE 用于搜索操作。搜索机制采用随机搜索算法和“最佳 N 次策略”(Best-of-N),选取最优噪声候选,验证阶段则引入了两个 Oracle 验证器:Inception 分数(IS)和 Fréchet Inception 距离(FID)。IS 基于 InceptionV3 模型的分类概率最高值,而 FID 通过最小化与预先计算的 ImageNet 特征分布的差异来评估。 框架测试结果与影响 测试结果显示,这一框架在不同基准上的性能表现突出。在 DrawBench(涵盖多样化文本提示)中,基于 LLM Grader 的评估表明,使用不同验证器的搜索机制能够显著提升样本质量。尤其是 ImageReward 和验证器集成(Verifier Ensemble),在多项指标上均表现优异,展现了细腻的评估能力和与人类偏好的高度一致性。 在 T2I-CompBench 的测试中,优化配置更加偏向文本提示的准确性,而非视觉质量。ImageReward 表现最佳,而美学评分(Aesthetic Scores)影响较小甚至为负,CLIP 则提供了适度改进。这些结果表明,不同的验证器在特定任务上的表现具有显著差异。 展望:开启推理优化新方向 研究团队认为,这一框架通过战略性搜索机制实现了推理阶段的显著扩展,为生成模型在不同规模和任务上的性能提升提供了新的思路。同时,研究还揭示了验证器的内在偏差,强调了开发任务特定验证方法的重要性。 这一研究成果为扩散模型的推理优化树立了新标杆,也为未来探索更高效的验证系统和针对特定任务的优化方法提供了广阔空间。无论在视觉生成还是更广泛的生成式 AI 应用中,这一框架都将发挥重要作用。
Perplexity AI 周六向 TikTok 母公司字节跳动递交了一项提案
据 CNBC 报道,AI 搜索引擎初创公司 Perplexity AI 周六向 TikTok 母公司字节跳动递交了一项提案,计划打造一个全新的合并实体,整合 Perplexity、TikTok 美国业务以及新的资本合作伙伴。 方案亮点:保留现有投资者权益,扩展视频内容 据知情人士透露,此次提案旨在让字节跳动的大部分现有投资者保留股权,同时为 Perplexity 增加更多视频内容。这位消息人士因交易保密而要求匿名。据悉,该计划将避免字节跳动直接出售 TikTok,而是通过合并的方式保持控制权,这或许是 Perplexity 自信能成功竞标的原因。 Perplexity AI 是一家主打人工智能搜索技术的初创公司,与 OpenAI 和谷歌展开直接竞争。今年年初,该公司估值仅约 5 亿美元,而随着生成式 AI 的火爆发展和投资者兴趣的激增,其年底估值飙升至约 90 亿美元。然而,快速增长的同时,Perplexity 也因涉及抄袭争议而备受关注。 AI 搜索的未来与 TikTok 的命运 AI 辅助搜索被投资者视为谷歌面临的主要风险之一,因为它可能彻底改变消费者获取信息的方式。自 2022 年底 OpenAI 推出 ChatGPT 并掀起生成式 AI 热潮以来,AI 搜索工具不断涌现,包括 OpenAI 的 SearchGPT 和谷歌的“AI 概述”功能。然而,TikTok 在美国的前景却充满不确定性。 TikTok 宣布,如果拜登政府无法明确表示不会惩罚苹果、谷歌等托管其应用的公司,TikTok 将于周日关闭美国市场。对此,总统当选人唐纳德·特朗普在周六接受 NBC…
OpenAI 携手生物科技初创公司 Retro Biosciences 推出了一款全新 AI 模型 GPT-4b micro
OpenAI 携手生物科技初创公司 Retro Biosciences 推出了一款全新 AI 模型 GPT-4b micro,这款专为优化蛋白质设计的语言模型,正在为长寿研究开辟新天地。据悉,该模型的早期测试表现超出预期,甚至在某些任务上超过了人类研究者的水平。 这款 GPT-4b micro 专注于优化 Yamanaka 因子——一种能够将普通细胞转化为干细胞的蛋白质。科学界普遍认为,这一过程有潜力用于组织再生,甚至推动人体器官的培育。为了实现这一目标,团队将各种生物物种的蛋白质序列和蛋白质之间的交互数据输入模型,让它生成不同版本的蛋白质方案,供实验室进一步测试。这种方式类似于 ChatGPT 的句子补全功能,只不过目标换成了蛋白质。 与 Google 的 Alphafold 使用扩散网络(类似于 AI 图像生成器)的方法不同,Retro CEO Betts-Lacroix 表示,这款语言模型更适合处理 Yamanaka 因子这种“松散且无结构”的蛋白质。不过,团队对于模型的具体推导过程目前也未完全理解。 初步结果展现潜力,但仍需更多验证 OpenAI 研究员 John Hallman 在接受《技术评论》采访时表示,模型提出的蛋白质优化方案“整体上”都优于人类科学家单独完成的成果。测试数据显示,两个 Yamanaka 因子在模型优化后,其表现提升达到了 50 倍。不过,尽管这些结果看似振奋人心,但外部科学家目前无法验证其准确性,直到 OpenAI 和 Retro 发布正式研究论文为止。 值得注意的是,这一模型尚未向公众开放,也没有明确的商用时间表。OpenAI 也尚未决定是将该技术整合到现有的推理模型中,还是独立开发成一个专用工具。此外,OpenAI CEO Sam Altman 还对 Retro Biosciences 投资了 1.8 亿美元,为这一合作添上了浓厚的商业色彩。 尽管面临外界质疑和验证不足的挑战,这款专注于长寿研究的…
Google Titans: 测试阶段的学习与记忆
概述研究团队提出了一种全新的神经长期记忆模块,该模块能够在测试阶段动态学习和记忆历史上下文信息。这项技术不仅解决了传统Transformer因计算复杂度导致的上下文长度限制问题,还实现了快速的并行化训练和高效的推理。团队在此基础上开发了名为Titans的模型架构,融合了短期记忆和长期记忆模块,为处理复杂任务提供了更强的能力。实验结果表明,Titans在语言建模、常识推理、基因组学以及时间序列预测等任务中表现优于Transformer及现代线性递归模型,且能够在上下文窗口长度超过200万的情况下保持高效性和准确性。 https://arxiv.org/pdf/2501.00663 现有模型的记忆局限性Transformer依赖注意力机制精确建模当前上下文内的依赖关系,但因其二次方的时间和内存复杂度限制了适用性。在长上下文任务中,例如语言建模、视频理解和时间序列预测,Transformer面临的挑战尤为突出。 为了提升效率,线性Transformer通过用核函数替代softmax,降低了计算复杂度。然而,这种方法压缩了历史数据,导致性能下降。此外,大多数现有架构在面对泛化、长度外推及推理任务时,仍存在显著局限性,例如缺乏短期记忆和长期记忆间的有效协作,难以学习和记忆历史抽象信息。 记忆的神经学启示研究团队借鉴人类记忆系统,将短期记忆、工作记忆和长期记忆看作彼此独立又紧密相连的模块。这种模块化的记忆设计启发了Titans架构的开发,并帮助解决以下核心问题:如何设计有效的记忆结构、如何实现记忆的更新机制,以及如何优化记忆的检索过程。 Titans架构设计Titans架构包括三大模块: 为了有效融合记忆模块,研究团队提出了三种Titans架构变体: 长期记忆的学习机制长期记忆模块通过“惊讶度”指标来学习和更新记忆。当模型遇到超出预期的数据时,会记录其梯度变化并调整记忆参数。同时,模块通过引入动量机制(momentum)和遗忘机制(weight decay)优化记忆更新,从而更高效地管理有限的记忆容量。 实验结果团队在多种任务上验证了Titans的性能: 深层记忆的作用实验还表明,增加长期记忆模块的深度可以显著提升模型在长序列任务中的性能,同时增强了模型对复杂历史信息的记忆能力。然而,深层记忆也增加了训练时间,显示出效率与效果之间的权衡。 未来展望Titans为AI系统引入了一种新范式,其结合短期和长期记忆的设计,提供了高效的动态记忆更新能力。这项研究展示了未来AI系统可实现“持续学习”的潜力,即在面对现实世界的动态任务时,能够通过学习记忆并适应新的挑战。Titans的模块化架构和记忆机制为构建下一代智能系统奠定了基础,为多领域的任务处理带来突破性的进展。
Sakana AI Transformer²: 自适应大型语言模型的未来
概述适应性是自然界最引人注目的现象之一。章鱼通过改变皮肤颜色与环境融为一体,大脑在受伤后重塑神经网络恢复功能,这些能力让生命体在多变的环境中茁壮成长。 在人工智能领域,适应性的概念同样令人瞩目。一个能够动态调整自身权重的机器学习系统,可以在陌生环境中不断学习并展现进化能力,这种特性接近于生命体的智能表现。自适应AI不仅提升效率,也为构建持续学习的模型提供了新的可能性。 研究团队提出了Transformer²,一种能够根据任务需求动态调整自身权重的机器学习系统。这一系统通过两步流程分析任务需求并进行权重调整,不仅在效率上超越了传统方法如LoRA,还显著提升了在多种任务上的表现,同时大幅减少了参数需求。 解剖LLM的“脑”大型语言模型的知识储存在权重矩阵中,这些矩阵如同人类大脑的神经网络,是模型处理信息和解决任务的核心。为了让这些“脑”适应新任务,研究团队利用奇异值分解(SVD)对其内部结构进行解析。 SVD将LLM的复杂知识分解为更小、更独立的组件,例如数学能力、语言理解能力等。研究表明,通过增强关键组件的信号并抑制其他组件,可以提升模型在不同任务上的表现。 Transformer² 的工作原理Transformer² 提出了自适应LLM的新方法,通过动态调整权重矩阵的关键组件来重新定义任务处理方式。在训练阶段,系统使用奇异值微调(SVF)方法结合强化学习,增强或抑制特定组件的信号,从而优化模型在不同任务中的表现。在推理阶段,模型通过三种任务检测方法调整权重,完成自适应过程。 这种两步流程确保了系统在多种场景中的鲁棒性和高效性。 SVF的核心优势在训练阶段,SVF学习了一组z向量,每个任务对应一个z向量。这些z向量如同任务专家,控制权重矩阵中各组件的影响力。例如,在数学任务中,z向量可能突出与数学相关的组件,而抑制其他不相关的部分。 研究团队通过强化学习训练这些z向量,使得Transformer²能够以最少的额外参数适应新任务。 主要实验结果团队在Llama和Mistral模型上验证了Transformer²的性能,任务范围涵盖数学、代码、推理和视觉问答等领域。结果表明,与LoRA相比,SVF在文本任务上表现更优,尤其在数学任务中表现出色。这得益于强化学习无需每个问题的“完美解答”,而是通过更灵活的优化目标提升性能。 在未见任务上的测试显示,随着方法复杂性的增加,系统的性能也显著提升。例如,在数学问题中,系统通过结合数学、编程和逻辑推理能力,实现了跨领域的综合表现。研究还发现,将Llama训练的z向量迁移到Mistral模型后,后者在大多数任务上的表现有所提高,这暗示了跨模型知识共享的潜力。 未来展望Transformer² 展现了AI系统发展的重要里程碑,其动态适应新任务的能力表明,自适应LLM有望彻底改变AI的研究和应用方式。未来,AI系统可能不再是固定工具,而是能够持续学习、进化和适应的新型智能体。这种能力将助力跨领域问题的解决,为产业发展和日常生活提供全新动力。
微软研究院今天推出MatterGen
微软研究院今天推出了一款强大的新型AI系统MatterGen(https://www.microsoft.com/en-us/research/blog/mattergen-a-new-paradigm-of-materials-design-with-generative-ai/),可以根据特定的需求生成具有所需特性的全新材料。这一突破有望加速更高效电池、太阳能电池以及其他关键技术的开发进程。 颠覆传统的材料发现方式MatterGen标志着科学家发现新材料方式的重大转变。传统方法通常需要筛选数百万种现有化合物,这一过程可能需要耗费数年时间。而MatterGen则通过AI直接生成符合需求的新型材料,就像AI图片生成器根据文字描述创建图像一样。 “生成模型为材料设计提供了一种新范式,可以在给定属性约束的情况下直接生成全新材料,”微软研究院首席研究经理兼该研究负责人谢天(Tian Xie)表示。这项研究发表在《自然》期刊上,他指出:“这是朝着创建通用材料生成模型迈出的重要一步。” MatterGen与传统方法的区别MatterGen使用一种名为扩散模型(diffusion model)的专门AI技术,与DALL-E等图像生成器的原理类似,但它针对三维晶体结构进行了适配。系统通过逐步优化原子随机排列,生成符合指定标准的稳定材料。 研究表明,MatterGen生成的材料在新颖性和稳定性方面“是此前AI方法的两倍以上”,而且其结果“比其他方法接近局部能量最低值的可能性高出15倍”。这意味着生成的材料不仅更具实用价值,而且更可能被物理制造。 在一次显著的验证中,研究团队与中国深圳先进技术研究院的科学家合作,合成了由MatterGen设计的新材料TaCr₂O₆。实验结果显示,这种材料的实际特性与AI预测高度一致,证明了系统的实用性。 现实应用:改变能源存储和计算领域的游戏规则MatterGen的一大亮点在于其灵活性。系统可“微调”以生成具有特定属性的材料,包括特定晶体结构、电子或磁性特性。这使其在设计面向工业应用的专用材料时尤为有价值。 新材料对于推动能源存储、半导体设计和碳捕获等技术至关重要。例如,更好的电池材料可能会加速电动车的普及,而更高效的太阳能电池材料可能会降低可再生能源的成本。谢天解释道:“从工业角度来看,这种潜力是巨大的。人类文明一直依赖于材料创新。如果我们能够利用生成式AI提高材料设计的效率,将有助于加速能源、医疗等行业的进步。” 开源策略助力科学发现微软已将MatterGen的源代码以开源许可证的形式发布,供全球研究人员使用。这一举措可能加速系统在各科学领域的影响。 MatterGen的开发是微软“AI for Science”计划的一部分,该计划旨在利用AI加速科学发现。该项目还集成到微软Azure Quantum Elements平台中,通过云计算服务让企业和研究人员能够更方便地访问这一技术。 尽管MatterGen带来了显著的进展,专家也提醒,从计算设计的材料到实际应用仍需经过大量测试与优化。虽然系统预测看起来很有希望,但在投入工业生产前,需要经过严格的实验验证。 无论如何,这一技术在利用AI加速科学发现方面迈出了重要一步。正如该项目的资深研究员丹尼尔·祖格纳(Daniel Zügner)所言:“我们致力于开展能够产生积极现实影响的研究,而这只是个开始。”
React Native的现状与未来:从发展到展望
对第三方库的依赖增加React Native(RN)相比原生开发功能不够全面,因此开发者常需依赖第三方库来扩展功能。近年来,RN生态系统日趋成熟,几乎能找到满足各种需求的维护良好的库。然而,依赖更多第三方库也带来了挑战,包括持续更新的负担以及供应链攻击的风险。为应对这些问题,可以通过工具如Dependabot实现自动更新,同时借助代码扫描工具捕获潜在的恶意代码。这种方法虽然有效,但从长期看,开发者更希望框架能提供更多开箱即用的功能,进一步降低依赖第三方库的必要性。 共享基础设施带来的效率提升在初期采用React Native时,由于缺乏相关经验和工具积累,各团队各自为战,导致大量重复劳动。为了快速启动开发,团队当时选择优先追求速度而非一致性。随着到2023年底RN应用的逐步成熟,团队开始提取公共组件并整合为共享库,例如身份验证、实时监控和性能测量等功能模块。 共享库的优势显而易见: 展望2025年,这一整合工作将持续进行,进一步提升跨应用代码共享比例。共享代码不仅提高了开发效率,还让工程师能专注于为用户交付更多价值。 React Native的未来展望React Native的发展前景令人期待,Meta作为该项目的主要维护者,持续推动框架的改进。每次版本更新都带来实用的改进,而开发者反馈也在影响框架的未来路线图。随着新架构的普及,开发快速且高性能的应用会变得更简单。此外,许多科技公司(如微软、亚马逊、特斯拉、SpaceX和Coinbase)已在广泛使用React Native,社区也贡献了许多高质量的第三方库和框架。 在Shopify,公司通过以下方式支持React Native的发展: 2025年,Shopify计划重新启动React Native工作组,召集支持RN的公司和开发者共同应对生态系统中的关键挑战、优化资源投资、促进协作并减少重复工作。过去,该工作组的成员包括Meta、Twitter、Coinbase和微软等公司。有兴趣的开发者可以随时加入这一努力。 回归React Native的好时机过去五年,React Native克服了许多早期限制,吸引了更多开发者的关注。如果你已经有段时间没有尝试RN,现在是重新探索它的好机会。Shopify将继续与Meta及社区紧密合作,共同推动React Native的发展,使之更高效、更强大。
用LLM做测试驱动开发:有趣又高效的尝试
最近和同事讨论Tabby时,有人提到AI自动补全代码的潜在危害,比如因LLM(大型语言模型)的不可靠性导致代码质量下降,甚至滋生“意大利面条”代码,把像DRY这样的传统开发原则扔得一干二净。但本文的作者对此持不同意见:如果可以有一个框架,既能整合AI工具,又能让代码变得更可靠,会怎么样?这个想法让人瞬间联想到测试驱动开发(TDD)这种方法,尤其是结合LLM时的潜力。 TDD + LLM:从理想到现实的融合 TDD的核心思路是先写出覆盖全面的单元测试,再根据测试来实现主程序。理论上,测试本身就像完整的规范,所有测试通过则说明程序是正确的。然而,TDD在实践中被许多人认为拖慢了开发速度,甚至可能一无所获。LLM的出现,从经济效益上改变了这种状况。 在传统开发中,作者经常依赖像GitHub Copilot这样的工具来辅助编码。这些工具擅长识别模式并补全代码,但对深入理解需求、编写完整模块常常力不从心。为了让LLM高效工作,作者总结了一些经验:提出清晰的需求说明、逐步提供必要上下文、控制模型的注意力范围等。同时,LLM在调试方面表现优异——给出原始报错信息,它往往能猜出问题所在。 然而,频繁的切换窗口、复制粘贴上下文成了主要障碍。于是,作者尝试通过自动化脚本来简化整个流程。 自动化的TDD:工作流详解 作者写了一个简单的事件循环来自动化测试驱动开发: 通过这种方式,可以降低模型上下文的长度,节省成本,同时提高迭代效率。 模型的局限与对策 尽管方法有效,但也存在局限。例如,模型可能生成质量不高的测试用例,甚至误导开发者。为了解决这个问题,作者建议引入人工补充测试,并使用“变异测试”进一步验证代码的鲁棒性。具体做法是让LLM对代码进行一些微妙但关键的修改,测试是否能够捕捉到这些改动。 优化代码结构以适配LLM 为了让LLM更好地融入实际项目,作者提出了以下几点建议: 这种结构不仅能减少问题代码进入生产环境的风险,还鼓励代码解耦和单元测试优先的开发方式。最终,代码会趋于高内聚低耦合,既功能丰富,又易于维护。 结语:谨慎拥抱新工具 最后,作者提醒读者,AI技术更新日新月异,今天的优化方案可能很快被淘汰。因此,不必着急用这种方法重构已有的大型项目,但对于新项目来说,这是一种值得尝试的开发思路。