有一群自称“索拉公关傀儡”的人最近泄露了OpenAI的视频生成器Sora的访问权限,称此举是为了抗议他们所谓的“虚伪”和“艺术洗白”行为。 本周二,该团体在AI开发平台Hugging Face上发布了一个项目,看起来与OpenAI尚未公开的Sora API有关。他们似乎利用早期测试的身份验证令牌,创建了一个前端界面,让用户通过Sora生成视频。 通过这个前端,用户只需输入一段简短的文字描述,就可以生成最长10秒、分辨率高达1080p的视频。尽管尝试过程中队列很长,但一些网友还是在社交平台X上传了样本视频,这些视频大多带有OpenAI独特的视觉水印。然而,截至美东时间中午12:01,这个前端已经无法使用。推测可能是OpenAI或Hugging Face撤销了访问权限。 据该组织称,OpenAI在三个小时后暂时关闭了Sora的早期访问,影响了所有艺术家。 为什么会发生这样的事情? 据泄密团体称,OpenAI正在向Sora的早期测试者施压,这些测试者包括红队成员和创意合作伙伴,要求他们对Sora进行正面宣传,同时未能给予他们公平的报酬。他们表示:“价值1500亿美元的公司,却通过[Sora早期访问]项目让数百名艺术家进行无偿劳动,包括测试、反馈和实验性创作工作。”该团体在Hugging Face上的一篇帖子中写道,这个计划看起来更多是为公关和广告服务,而不是促进创意表达和批评。 起初,这个团体没有透露成员身份。但当天稍晚,他们在Hugging Face上的附件中以及一份独立的请愿书中逐步列出了部分成员。 该团体还声称,OpenAI对Sora的能力有所隐瞒,严格限制早期访问用户的使用方式。据称,所有的Sora生成内容在广泛分享之前都需要OpenAI的批准,而且只有少数创作者会被选中展示他们的作品。 他们表示:“我们并不反对将AI技术作为艺术工具(如果反对,我们可能根本不会被邀请参加这个项目)。我们反对的是这种艺术家计划的实施方式,以及在Sora可能公开发布前工具的发展方向。我们公开这一切,是希望OpenAI能更加开放,更加友好地对待艺术家,并超越公关噱头真正支持艺术。” OpenAI的回应 对此,OpenAI的一位发言人表示,Sora目前仍处于“研究预览”阶段,公司正在努力在创意和安全性之间找到平衡。发言人提到,“数百名艺术家参与了我们的Alpha测试,为Sora的开发提供了帮助,包括新功能的优先级和安全保障措施的完善。参与是自愿的,没有提供反馈或使用工具的义务。我们很高兴为这些艺术家提供免费访问,并将继续通过资助、活动和其他计划支持他们。我们相信AI可以成为强大的创意工具,并致力于让Sora既实用又安全。” 发言人还补充,艺术家对OpenAI并无义务,除了“负责任地”使用Sora以及在开发阶段不泄露机密信息。不过,他们并未明确说明“负责任”具体指什么,也没有解释哪些细节被视为机密。 技术挑战和竞争对手的压力 自今年早些时候推出以来,Sora遇到了不少技术难题,而视频生成领域的竞争对手也在奋力赶超。让情况雪上加霜的是,Sora项目的联合负责人之一Tim Brooks在10月初离开OpenAI,跳槽至Google。 在最近的一场Reddit问答活动中,OpenAI首席产品官Kevin Weil表示,Sora的发布被推迟,是因为需要完善模型,并解决安全、冒充等问题,同时扩大计算能力。据《The Information》报道,Sora最初版本生成一分钟视频需要超过10分钟的处理时间。 Sora的早期版本还存在一致性问题。电影制作人Patrick Cederberg透露,他需要生成数百段视频才能得到一个可用的,因为模型无法在视频中维持一致的风格、物体和角色。 而根据一些X用户发现的代码,泄露的Sora版本似乎是一个更快的“Turbo”版本,并增加了风格控制和有限的自定义选项。《The Information》还提到,OpenAI正在用数百万小时高质量的多样化视频素材训练Sora,以提升生成视频的质量。 此外,OpenAI近期在合作上也被竞争对手抢占先机。今年9月,Runway与《疾速追杀》系列的制作公司狮门影业签订协议,用其电影资料库训练定制视频模型。而Stability则招募了《阿凡达》导演詹姆斯·卡梅隆加入董事会。 虽然OpenAI今年早些时候也曾与电影制作人和好莱坞公司接触,并在戛纳电影节进行展示,但至今尚未宣布与主要制片厂的合作。
RAG架构类型
检索增强生成(Retrieval-Augmented Generation,简称RAG)架构正在改变信息的检索与处理方式,通过将检索能力与生成式人工智能结合,这种技术提升了准确性和上下文相关性,为满足用户的具体需求提供了强大的工具。以下是对25种RAG架构类型及其独特应用的详细解析。 纠错型RAG(Corrective RAG):纠错型RAG就像一个实时的事实核查工具,不仅生成响应,还会对比可靠数据源验证内容的准确性,从而减少错误。它的架构中包含一个错误检测模块,可以在交付前修正不一致的信息。例如,在医疗领域,搭载纠错型RAG的聊天机器人可以提供药物剂量建议,并核对医学指南。这种架构在医疗、法律和金融等对准确性要求极高的领域尤为重要,确保生成内容与可信数据对齐,优先保证可靠性。 预测型RAG(Speculative RAG):预测型RAG擅长预判用户需求,通过分析用户行为提前准备相关响应。这种前瞻性方法能够预加载数据,从而缩短响应时间,优化用户体验。例如,一款新闻应用可以通过预测型RAG,分析用户搜索历史,推送与环保主题相关的热门文章。这种实时预测功能特别适用于电商、客户服务和新闻推送等需要即时反馈的平台。 自适应型RAG(Agenetic RAG):自适应型RAG能够通过多次交互学习用户偏好,从而动态优化其数据库和检索过程。例如,流媒体平台利用自适应型RAG,可以发现用户逐渐对惊悚片感兴趣,随后在推荐中优先显示此类内容。其无需手动干预就能自动调整的特性,使其在个性化推荐系统中表现出色,适用于零售、娱乐和数字内容策划领域。 自我优化型RAG(Self-RAG):自我优化型RAG专注于持续改进。它通过评估响应的准确性和相关性,不断优化检索方式。例如,一款金融分析工具可以借助自我优化型RAG使用实时股票市场数据,并结合历史模式和用户反馈调整预测。这种自我提升的能力在动态领域如金融、天气预测和物流中非常有价值。 实时调整型RAG(Adaptive RAG):实时调整型RAG能够根据用户上下文或环境变化动态调整响应内容,保持信息的实时相关性。例如,航空订票系统可以通过实时调整型RAG分析座位可用性,并根据突发的航班取消情况,提供替代建议。这种灵活性在票务平台、供应链物流和现场活动管理系统中极具应用潜力。 反馈强化型RAG(Refeed Feedback RAG):反馈强化型RAG通过直接吸收用户反馈不断优化自身。它通过学习用户的纠正意见,持续改进检索和生成方法。例如,电信行业的聊天机器人可能最初误解用户问题,但通过频繁的用户纠正逐渐提升准确率,从而更好地满足用户期望。这种架构在客户服务等需要高互动性的应用中表现尤为出色。 领域聚焦型RAG(Realm RAG):领域聚焦型RAG结合传统系统的检索能力和大型语言模型(LLM)的深度上下文理解,特别适合技术或法律领域。例如,法律助手可以利用领域聚焦型RAG检索与版权法相关的案例,显著节省研究时间并确保精准性。这种架构通过整合LLM能力,为用户提供了前所未有的深度与相关性。 分层结构型RAG(Raptor RAG):分层结构型RAG以树状组织数据,简化复杂或结构化数据集的检索流程。例如,医院可以使用此架构将患者症状分类并关联到可能的诊断结果。这种高效结构在医疗和电商中表现尤为突出,可提升用户导航和信息获取效率。 多数据源整合型RAG(Replug RAG):多数据源整合型RAG通过与外部数据源无缝连接,实现实时更新和洞察。例如,金融平台利用此架构获取最新的股市价格和趋势,确保用户接收的都是最新信息。这种整合内部与外部数据的能力在动态数据密集型行业(如金融、气象预测)中尤为重要。 记忆型RAG(Memo RAG):记忆型RAG在用户交互中保留上下文和连续性。例如,客户服务中的虚拟助手可以记住用户过去的问题,使后续交互更加顺畅。在教育平台上,记忆型RAG可以记住学生之前学习的主题,从而定制后续课程内容。这种上下文保留显著提升用户满意度和参与度。 注意力优先型RAG(Attention-Based RAG):注意力优先型RAG能够过滤掉无关信息,聚焦查询中的关键部分。例如,研究助手可以利用此架构优先检索“AI在医疗中的应用”的相关研究,而避免干扰性内容。这种精准定位的能力非常适合学术研究、药物开发和法律咨询等对准确性要求极高的领域。 历史背景型RAG(RETRO RAG):历史背景型RAG通过纳入过去的交互、文件或数据集,提供更全面的回答。例如,企业知识管理系统可以利用RETRO RAG回忆项目决策,帮助员工快速了解策略背景。这种对历史背景的整合能力在注重连续性和知识传承的行业中不可或缺。 自动化RAG(Auto RAG):自动化RAG在无需人工干预的情况下,高效处理动态和海量数据。例如,新闻聚合器可以借助自动化RAG收集每日头条并按相关性排序。这种架构大幅减少运营负担,非常适合需要实时更新的内容平台。 成本约束型RAG(Cost-Constrained RAG):成本约束型RAG在预定预算内优化检索,兼顾效率和成本。非盈利组织可以利用此架构在有限预算下获取关键数据,在教育和小型企业等预算敏感行业尤为适用。 环保型RAG(ECO RAG):环保型RAG通过优化能源消耗,支持绿色科技。环境监测平台可以利用此架构降低数据检索的碳足迹,特别适合可持续发展项目。 规则驱动型RAG(Rule-Based RAG):规则驱动型RAG严格遵循预设规范,确保生成内容符合法律、伦理或组织要求。它在金融、医疗和法律等合规性至关重要的领域尤为可靠。 对话型RAG(Conversational RAG):对话型RAG专为交互式对话设计,适应对话的动态变化。例如,电商聊天机器人可以根据用户提问实时调整推荐产品。这种架构在增强用户互动体验方面效果显著。 迭代型RAG(Iterative RAG):迭代型RAG通过多次互动优化响应,特别适合技术支持和复杂问题解决场景。它的自我改进能力使其在逐步完善解决方案中大显身手。 混合型RAG(HybridAI RAG):混合型RAG整合多种机器学习模型的优势,适合需要多角度分析的复杂任务。例如,预测性维护系统可以利用此架构综合传感器数据和日志分析,提前预测设备故障。 生成型RAG(Generative AI RAG):生成型RAG将检索与内容生成结合,用于需要创意与相关性的场景,如营销和品牌推广。它通过分析历史数据生成创新文案,助力内容创作。 可解释型RAG(XAI RAG):可解释型RAG确保用户理解响应背后的逻辑。例如,医疗场景中可解释型RAG不仅推荐治疗方案,还会详细说明依据。 上下文缓存型RAG(Context Cache RAG):上下文缓存型RAG通过保留关键数据点,实现跨互动的连贯响应。它特别适合教育工具,确保学习过程的连续性。 深度理解型RAG(Grokking RAG):深度理解型RAG善于处理复杂数据并提供直观解释,适用于需要深入理解的科学研究领域。 动态优化型RAG(Replug Retrieval Feedback RAG):动态优化型RAG通过反馈不断改进外部数据连接能力,特别适合金融、物流等数据密集型行业。…
Anthropic 开源Model Context Protocol(MCP)
今天,Model Context Protocol(MCP)正式开源 https://modelcontextprotocol.io/introduction!这个全新标准旨在帮助AI助手直接连接到数据所在的系统,比如内容存储库、商业工具和开发环境,从而提升前沿模型的响应质量和相关性。 随着AI助手逐渐走入主流,行业内对模型能力的投入持续加码,推动车型推理和质量的飞速提升。然而,即使是最先进的模型也受到数据孤岛和遗留系统的限制,导致模型与数据之间的隔阂难以打破。每接入一个新的数据源都需要专门定制,这让构建真正互联的系统变得异常困难。 MCP正是为了解决这一痛点而生。它为AI系统与数据源的连接提供了一个通用、开放的标准,取代了目前零散的集成方式。通过MCP,AI系统能够更简单、更可靠地获取所需数据,打通了从模型到数据的关键通路。 什么是Model Context Protocol? MCP是一种开放标准,帮助开发者为数据源与AI驱动的工具之间搭建安全的双向连接。其架构十分简洁:开发者既可以通过MCP服务器共享数据,也可以构建支持MCP的AI应用(MCP客户端),与这些服务器进行交互。 此次发布带来了三个主要组件,为开发者开启MCP世界的大门: 值得一提的是,Claude 3.5 Sonnet非常擅长快速构建MCP服务器,实现企业和个人将关键数据集快速连接到各种AI工具的能力。为了让开发者轻松上手,此次发布还包含了预构建的MCP服务器,支持Google Drive、Slack、GitHub、Git、Postgres和Puppeteer等主流企业系统。 目前,Block和Apollo等早期用户已经将MCP集成到他们的系统中。而Zed、Replit、Codeium和Sourcegraph等开发工具公司也在探索如何利用MCP提升其平台功能,让AI助手能更好地获取上下文信息,从而在编程任务中生成更精准且实用的代码,减少反复尝试的次数。 Block的首席技术官Dhanji R. Prasanna对MCP的潜力表示高度赞赏。他提到:“在Block,开源不仅仅是一种开发模式,更是推动技术变革的基石。像Model Context Protocol这样的开放技术,就像桥梁一样,将AI与现实应用连接起来,使创新更透明、更具协作性。我们很高兴能够参与这一协议的合作,通过它构建更加智能的系统,让人们从机械式的任务中解放出来,专注于创造性工作。” MCP如何改变现状? 以往,开发者需要为每种数据源单独开发连接器,而现在只需遵循一个标准协议即可。随着生态系统的不断成熟,AI系统将能够在不同工具和数据集之间保持上下文的连贯性,逐渐替代当前零碎的集成方式,打造更加可持续的架构。 开始使用MCP 开发者现在即可开始构建和测试MCP连接器。现有的Claude for Work用户可以率先通过本地MCP服务器测试,将Claude连接到内部系统和数据集。不久后,还将推出工具包,支持部署远程生产环境下的MCP服务器,为整个组织服务。 具体步骤如下: MCP的发布为AI系统与数据源的融合带来了全新可能,未来或将彻底改变AI助手的能力和应用方式。
Google 为 Android 16 开发新 API,赋能 Gemini 实现更强的 AI 代理功能
Google 正在为即将推出的 Android 16 开发一项全新 API,让系统应用可以在其他应用程序中代替用户执行操作。这项新功能的核心是一项专属权限,目前计划仅授予默认的智能助理应用,例如在新款 Android 设备上作为默认助理服务的 Gemini。这为 Gemini 成为用户手机上的 AI 代理铺平了道路,也兑现了 Google 自 Pixel 4 推出全新 Google Assistant 时所承诺的功能愿景。 Gemini 的日益强大:从扩展到全面控制 Gemini 是 Google 力推的聊天机器人及大型语言模型(LLM),目前已深度整合到 Google 的产品体系中。在许多 Android 设备上,它已经成为默认助理服务,并随着每次更新扩展其功能。尽管 Gemini 目前可以通过 Gemini Extensions 与外部服务交互,但它对 Android 应用的直接控制能力依然非常有限。 目前,Gemini Extensions 支持通过后端 API 访问 Google Flights、Google Maps、YouTube、Google Workspace 等服务,但仅限于调用用户账户数据,而非直接控制 Android 应用本身。虽然某些扩展(如 Utilities)可以通过预定义的意图执行简单操作,但这种实现方式并不适用于更复杂的任务。 Gemini 面临的另一个问题是可扩展性。Android 应用数量庞大,许多应用没有公开的 API,扩展覆盖率有限。而通过屏幕读取、辅助功能输入等技术让…
Neural Magic 发布 LLM Compressor:提升大模型推理效率的新工具
2024年11月24日,Neural Magic 推出了最新工具 LLM Compressor,这是一款专为大型语言模型(LLM)设计的优化工具库。通过先进的模型压缩技术,它能显著提升推理速度,旨在为深度学习社区提供高性能的开源解决方案,尤其适配 vLLM 框架。 LLM Compressor 解决了此前模型压缩工具分散的问题。用户过去需要分别使用 AutoGPTQ、AutoAWQ 或 AutoFP8 等多个独立库来完成不同压缩算法的任务,这让应用过程变得复杂。而 LLM Compressor 将这些分散工具整合为一个库,支持应用最先进的压缩算法,如 GPTQ、SmoothQuant 和 SparseGPT。这些算法不仅降低了推理延迟,还能在高精度要求的生产环境中维持模型的性能。 这款工具的一大技术突破在于对 激活和权重量化 的全面支持,特别是在 INT8 和 FP8 张量核心上的优化。通过量化权重和激活,LLM Compressor 能有效利用 NVIDIA 新一代 GPU(如 Ada Lovelace 和 Hopper 架构)的高性能计算单元,从而缓解计算瓶颈。在实际测试中,模型 Llama 3.1 70B 使用 LLM Compressor 后,仅用两块 GPU 就达到了未压缩模型在四块 GPU 上的接近性能,大幅提升了推理效率。 除此之外,LLM Compressor 支持 结构化稀疏性,例如通过 SparseGPT 实现的 2:4…
OpenAI 投资“有道德”的人工智能:探索AI道德判断的可能性
OpenAI宣布为一项旨在研究和开发具有道德判断能力的人工智能项目提供100万美元资助。这笔资金将分三年拨付,由北卡罗来纳大学和杜克大学的两位伦理学教授沃尔特·辛诺特-阿姆斯特朗(Walter Sinnott-Armstrong)和雅娜·博格(Jana Borg)领导的团队负责实施。这一项目名为“研究AI道德”(Research AI Morality)。 AI可以成为道德指南针? 辛诺特-阿姆斯特朗教授和博格教授的研究显示,AI有潜力成为“道德GPS”,帮助人们做出更符合道德的决策。例如,他们曾开发出一款算法,用于帮助医生优先判断哪些患者应该先接受肾移植。这种算法的设计目标是通过公平和道德的框架优化医疗资源分配。 AI做道德判断的挑战 尽管这一愿景令人兴奋,但为AI赋予道德判断能力的道路并不平坦。伦理和道德不仅是高度主观的,因文化、社会和个人背景而异,而且AI本身缺乏人类的情感与推理能力,常常无法理解复杂的道德情境。 类似的尝试早在2021年就出现过。当时,艾伦人工智能研究所(The Allen Institute for AI)推出了一款名为“Ask Delphi”的AI聊天机器人,用于回答伦理问题。虽然Delphi能处理一些简单的黑白分明的道德问题(例如“作弊是否正确”),但其表现很快暴露出局限性。在面对更复杂的情境时,它生成了偏见甚至不恰当的回答。原因在于,它依赖互联网数据训练,对道德问题的回答基于模式匹配,而非真正的逻辑推理或情感共鸣。 OpenAI的方向 这次研究的重点在于开发一种更高级的AI模型,能够理解复杂的伦理学理论并作出更为全面的道德判断。项目负责人希望通过多学科的研究方法,构建一个不仅依赖数据模式的算法,还能结合伦理学和哲学原则,成为“更有智慧”的道德判断工具。 展望与意义 虽然AI在道德领域的研究仍处于早期阶段,但这一方向可能对多个领域产生深远影响。从医疗决策到社会政策设计,再到日常生活中的选择,能够理解并辅助道德判断的AI或将成为新一代技术革命的重要一环。 然而,研究团队也面临着不可忽视的难题——如何确保AI模型的道德判断不受训练数据中的偏见影响,同时能够平衡多元文化背景下的道德多样性。这不仅是技术问题,更是一个哲学命题。 小结AI能否真的成为人类的“道德指南针”,还需时间验证。但OpenAI的这一投资表明,科技公司正在认真探索如何将技术与伦理结合,为未来社会提供更智能、更负责任的解决方案。
可扩展的穿戴设备基础模型
受生成建模实证成功的启发,研究团队发现,通过从非结构化和噪声数据中学习,超大规模神经网络能够提取出强大的数据表示。在本文中,他们探索了这种方法在消费健康数据领域的扩展潜力,特别是如何通过更高效的样本学习推动运动和活动识别等任务的实现。 穿戴设备:从海量数据到有意义的洞察 如今,能够测量生理与行为信号的穿戴设备已成为日常生活的一部分。这些设备不仅能促进健康行为,还能用于疾病检测以及改善治疗方案的设计与实施。然而,这些设备生成的数据连续、纵向且多模态,其原始信号(如皮肤电活动或加速度计数据)往往难以解读。因此,各种算法应运而生,将这些原始数据转化为更有意义的表示形式。 传统上,这类算法依赖于监督学习模型(如分类模型),旨在检测特定事件或活动(例如识别用户是否正在跑步)。然而,这种方法存在三大限制: 自监督学习(SSL)的突破 SSL通过通用的预训练任务(如拼图重排或图像补全)生成多用途的数据表示,无需依赖标签,能够利用更大比例的可用数据。这种方法为处理穿戴设备生成的大量无标注数据提供了新思路。 结合生成模型在理论与实践中的扩展规律,研究团队提出一个关键问题:扩展定律是否适用于穿戴设备传感器数据?与文本、视频或音频不同,传感器数据具有独特的特点。理解这种扩展规律的表现,不仅能优化模型设计,还能提升任务和数据集之间的泛化能力。 LSM:可扩展的穿戴设备基础模型 在研究中,团队分析了扩展定律是否适用于规模化的多模态传感器数据。他们使用目前最大规模的穿戴设备数据集,包含来自16.5万用户、超过4000万小时的去标识化多模态传感器数据。通过这一数据集,他们训练了一个基础模型,称为大传感器模型(LSM),并在数据、计算和模型参数等维度上展示了显著的性能提升,相较传统方法,性能最高提升了38%。 数据采样与模型训练 参与者佩戴Fitbit Sense 2或Google Pixel Watch 2设备,采集时间覆盖2023年1月至2024年7月。每位参与者提供自报告的性别、年龄、体重和居住州,数据均已去标识化。为了增加数据多样性,研究团队从每位参与者中随机抽取10个5小时窗口的数据。 训练模型时采用了一种“遮蔽”方法,即随机隐藏部分传感器数据,让模型学习如何重建这些缺失部分。这种方法帮助模型识别数据中的潜在模式,不仅适用于下游分类任务,还能实现数据补全(插值)和预测未来信号(外推)的能力。 扩展定律验证与任务应用 研究团队进行了多维度扩展实验,重点分析了计算能力、数据量和模型参数规模对模型性能的影响。结果表明: 此外,研究发现,与增加参与者人数相比,增加每位参与者的数据时长对模型性能的影响更大。这可能是因为更丰富的个人活动样本能帮助模型捕获更复杂的模式。然而,为了实现模型的最大化泛化能力,同时扩展参与者数量和数据时长是理想选择。 未来方向 研究成果证明了大规模数据、模型和计算的扩展策略能够显著提升穿戴设备传感器模型的能力。未来,团队计划探索多样化数据集和定制化预训练技术,以进一步应对穿戴设备数据的独特挑战,为个人健康技术的发展贡献力量。
KAN:带来全新可能的人工神经网络结构
人工神经元是深度神经网络的核心构件,几十年来几乎没有发生太大变化。这些网络赋予了现代人工智能强大的能力,却也让其变得难以理解。 传统人工神经元的运作原理看似简单:它们接收大量输入,将其加总后,通过神经元内部的数学运算生成输出。这些神经元的组合构成了神经网络,但这些组合的复杂性常让人难以解读其运行机制。 然而,科学家们最近提出了一种全新的神经元组合方式,显著简化了神经元内部的运算,同时将部分复杂性移至神经元外部。在这种设计中,新的神经元只需对输入进行简单求和并生成输出,无需额外的隐藏运算。这种新型网络被称为 Kolmogorov-Arnold Networks(KANs),以启发该设计的俄罗斯数学家命名。https://arxiv.org/abs/2404.19756 KAN:带来全新可能的网络结构 麻省理工学院(MIT)领导的一项研究对KAN进行深入分析,发现这种新架构有助于更清晰地理解神经网络的决策过程,不仅能验证其输出的合理性,还能检测潜在的偏差。初步研究表明,随着KAN规模的增大,其精度提升速度甚至比传统神经网络更快。 纽约大学机器学习领域的学者Andrew Wilson对此评价道:“这项研究非常有意思,人们正在重新思考神经网络的基本设计,这是一个可喜的方向。” KAN的基本概念实际上早在上世纪90年代就被提出,当时研究者已经开始构建一些简单版本。然而,MIT团队进一步扩展了这一想法,展示了如何构建和训练更大规模的KAN,并通过实验验证了它们的表现,同时分析了这些网络的解决问题能力如何被人类解读。正如团队成员、MIT博士生刘子明所说:“我们让这一理念焕发新生。希望通过这种可解释性,不再让神经网络像个黑箱。” 尽管这项研究仍处于初期阶段,但已引发广泛关注。目前,GitHub上已出现了多个项目展示KAN在图像识别和流体动力学等领域的应用潜力。 重塑神经网络:从MLP到KAN 目前几乎所有类型的人工智能,包括大语言模型和图像识别系统,都基于一种名为多层感知机(MLP)的子网络。在MLP中,人工神经元通过层层密集连接,每个神经元接收来自前一层神经元的输入,并通过一种称为“激活函数”的固定数学运算生成输出。这种设计虽然强大,但其内部机制复杂得几乎无法反向解析,尤其是在处理图像识别等复杂任务时。 即便是面对简单的合成数据集,刘子明团队尝试逆向解析MLP时也感到困难。他直言:“如果连合成数据都难以解析,那处理真实数据集就完全没希望了。我们想要改变这种架构。” KAN的突破在于移除了MLP中固定的激活函数,取而代之的是一个更简单的、可学习的函数。这些函数位于神经元外部,每次只处理一个输入值,并将其转换为另一个输出值。在训练过程中,KAN无需像MLP那样学习复杂的权重,而是仅需学习如何表示这些简单函数。研究团队在预印本网站ArXiv上发表的论文中指出,这种设计使得KAN整体的数学形式更易于解读,有望理解其学习到的具体功能。 KAN的未来与挑战 虽然KAN在合成数据上的解释性成果令人鼓舞,但团队尚未在复杂的真实问题(如图像识别)上测试其能力。刘子明表示:“我们正在逐步推进,但解释性本身就是一项极具挑战的任务。” 研究还表明,在科学相关任务(例如物理函数近似)中,随着KAN规模的增大,其任务准确度提升速度显著快于MLP。不过,KAN的训练耗时和计算成本也高于MLP。中国西交利物浦大学的张笛认为,这一限制或可通过更高效的算法和硬件加速器来缓解。 尽管面临挑战,KAN的出现为人工智能网络的设计与理解开辟了全新方向,也许有朝一日,神经网络的“黑箱”问题将成为历史。
斯坦福与 DeepMind 的研究突破:AI 模拟个体
坐下来与一位人工智能(AI)模型进行一场两个小时的访谈:一把友善的声音带领你回顾童年、人生关键记忆、职业经历,甚至你的移民政策观念。不久之后,一个虚拟的“你”将以惊人的准确度呈现你的价值观和偏好。听起来像科幻?如今,这已成为现实。 斯坦福与 DeepMind 的研究突破:AI 模拟个体 近日,一支由斯坦福大学与 Google DeepMind 的研究团队发表了一篇论文(尚未经过同行评审),展示了这一技术的可能性。这项研究由斯坦福计算机科学博士生 Joon Sung Park 领导,团队邀请了1000名参与者,涵盖不同年龄、性别、种族、地区、教育背景和政治理念。参与者接受了两小时访谈,并获得最高100美元的报酬。研究团队利用这些访谈数据,创建了每位参与者的“模拟代理”(simulation agents)。这些虚拟代理随后与人类主体完成了一系列性格测试、社交调查和逻辑游戏,结果显示,虚拟代理的表现与人类主体之间有85%的相似度。 Park 表示:“如果有一群‘迷你版的你’能在世界中活动,并做出和你一致的决策,那可能就是未来的图景。” 模拟代理的潜力:社会科学与技术创新的结合 论文中的“模拟代理”被设想为社会科学研究的一种革命性工具。传统研究中,涉及大规模人群的实验往往耗资巨大或难以实施,而模拟代理为研究复杂社会现象(如社交媒体如何抑制错误信息传播或造成交通拥堵的行为模式)提供了一种经济且高效的替代方案。 这类代理与当前热门的“工具型代理”(tool-based agents)有所不同。后者专注于完成具体任务,例如录入数据、检索信息,甚至预订行程并安排会议。Salesforce、Anthropic 和 OpenAI 等公司近年来都在这一领域投入巨大。然而,Park 团队的研究表明,模拟代理的成果或将推动更强大的 AI 代理技术的发展。 研究启示与隐忧:从机遇到挑战 MIT Sloan 管理学院信息技术副教授 John Horton 对此评价道:“这篇论文展示了如何结合人类生成的个性化数据与 AI 模型的程序化模拟能力,创造全新的研究可能性。” 然而,这项技术也带来了深远的伦理问题。与生成图像技术带来的“深度伪造”类似,代理生成技术可能被用于未经授权地模拟某人,甚至“代表”他们发表不实声明。此外,研究中用于评估 AI 模拟效果的方法也较为基础,例如通过常见的社会调查(General Social Survey)和五大性格特质(Big Five Personality Traits)测试评估代理与主体的相似性。尽管这些方法能衡量宏观趋势,但它们无法完全捕捉人类的复杂与独特性。 研究还发现,在一些行为测试中,AI 模拟代理的表现显著逊色。例如,在“独裁者游戏”(dictator game)中,AI 的决策无法准确反映人类对公平等价值的考量。 高效“数字分身”:访谈的重要性 为了让 AI 更好地模拟个体,研究团队选择了访谈的形式作为数据采集方式。Park 表示,与传统问卷相比,访谈能高效捕捉个体独特的经历与细节。例如,一位刚刚战胜癌症的受访者会因此展现出独特的行为模式,这类信息很难通过常规问卷获取。 Park 的这一观点源自他自己的经验。他在2023年的一篇论文引发关注后,曾接受多次播客访谈。他发现,每次长达两小时的访谈后,听众对他的了解显著加深。“两小时的访谈非常有力量,”他说,“它能揭示很多微妙而重要的东西。” 相比之下,一些公司则尝试通过客户的邮件或数据来构建“数字分身”。例如,AI…
Haystack 的开源开发 LLM 应用设计框架
在人工智能的世界中,开发者有许多工具和技术可以用来创建基于大型语言模型(LLM)的应用程序。而最近,一款名为 Haystack 的开源框架正在崭露头角,成为构建 AI 应用的强大工具。本文将详细解读 Haystack 的独特优势,并探讨其在 LLM 生态系统中的竞争力。最后,我们将通过一个 RAG(检索增强生成)案例来展示其实际应用。 什么是 Haystack? Haystack 是一款专为开发 LLM 应用设计的工具包,它特别适用于处理大量文本或文档的场景。Haystack 的特点是代码量少、易于上手,可以快速搭建生产级别的 LLM 应用。正如其名字暗示,Haystack 就像一组可以自由组合的积木,用于创建各种类型的 AI 系统。 以下是一些 Haystack 可实现的功能: 在 Python 3.10 环境中,只需一行代码即可安装: Haystack 的核心工作原理 Haystack 的运作基于两个核心概念: 通过灵活组合不同的组件,开发者可以创建能够执行复杂任务的 AI 系统。 Haystack 的主要特性 1. 灵活性 Haystack 支持多种 AI 模型(如 OpenAI、HuggingFace)和数据存储系统(如 ChromaDB、Pinecone,甚至是 Neo4j)。 2. 易用性 无需深入了解 AI 复杂细节,即可使用 Haystack 构建应用。 3….