为了克服内存限制并使更大的大型语言模型(7B+参数)能够在浏览器中运行,Google AI Edge团队重新设计了模型加载代码,推出了跨平台推理框架。 大型语言模型(LLMs)为人类与计算机和设备的互动带来了新的可能性。尽管这些模型通常运行在专用服务器上,通过网络连接传输请求和响应,但在设备上完全运行模型是一种有吸引力的替代方案。这种方式不仅可以消除服务器成本,还能提供更高的用户隐私保护,并支持离线使用。然而,由于LLMs通常包含数十亿参数、文件大小以GB计,因此在设备上运行这些模型对机器学习基础设施是一个巨大的考验,容易导致内存和计算资源超载。 今年早些时候,Google AI Edge的MediaPipe框架推出了一款实验性的跨平台LLM推理API,该API可以利用设备GPU在Android、iOS和Web上高效运行小型LLMs,最大限度提升性能。最初,这一系统支持在设备上完全运行四款公开可用的LLMs:Gemma、Phi 2、Falcon和Stable LM。这些模型的参数规模从1亿到30亿不等。 当时,30亿参数是该系统能够在浏览器中运行的最大模型。为了实现广泛的跨平台覆盖,Google的系统首先针对移动设备进行优化,随后升级以支持浏览器运行。这次升级虽然保留了速度优势,但由于浏览器的内存限制,使用和内存管理的复杂性也随之增加。加载更大的模型会突破这些内存限制。此外,由于系统需要支持多种模型并使用单文件的.tflite格式,Google的缓解措施也受到了一定限制。 如今,Google很高兴分享这一Web API的最新更新,包括重新设计的Web模型加载系统。这一更新使Google能够运行更大的模型,例如拥有70亿参数的Gemma 1.1 7B模型。这个8.6GB的文件比Google之前在浏览器中运行的任何模型都大数倍,且其响应质量的提升同样显著——欢迎在MediaPipe Studio中亲自体验! 在Web上运行LLMs MediaPipe框架本质上是跨平台的,因此大部分代码都是用C++编写的,可以为多个目标平台和架构进行编译。为了在浏览器中运行代码,Google将整个代码库(包括非Web特定部分及其依赖项)编译为WebAssembly,这是一种可以高效运行于所有主流浏览器中的特殊汇编代码。这种方式为Google带来了出色的性能和可扩展性,但也增加了一些额外的限制,因为浏览器在一个沙盒虚拟机中运行WebAssembly,就像模拟一个独立的物理计算机一样。 值得注意的是,虽然WebAssembly影响了C++代码和CPU内存限制,但它并不限制GPU功能。这是因为Google使用了专为浏览器原生设计的WebGPU API,能够比以往更直接地访问GPU及其计算能力。为实现最佳性能,Google的机器学习推理引擎会将模型权重上传并完全在GPU上运行模型操作。 克服内存限制 与此相对,在从硬盘或网络加载LLM时,原始数据必须通过多个层级才能到达GPU: Google使用基于浏览器的文件读取API将原始数据引入JavaScript,再传递到C++ WebAssembly内存,最后上传到WebGPU,在那里进行所有操作。每个层级都有内存限制,因此Google设计了相应的系统架构来适应这些限制。 WebGPU设备内存 WebGPU设备的限制是硬件特定的,但幸运的是,大多数现代笔记本和台式机的GPU内存都足够Google使用。因此,Google专注于消除其他三项CPU内存限制,使GPU成为唯一的真正限制。 文件读取内存 Google早期的MediaPipe Web API在加载数据时大量使用JavaScript原语,如ArrayBuffer,但这些对象无法支持超过约2GB的大小。为了解决这个问题,Google设计了自定义的数据复制程序,依赖于更灵活的对象,如ReadableStreamDefaultReader。现在,Google在此基础上进一步开发,将巨大的文件分解为较小的块,并在需要时按需流式传输这些块。 WebAssembly内存 WebAssembly当前使用32位整数(范围为0到2^32-1)来索引其内存空间的地址,超过4.3GB的内存时,索引方案将溢出。为了应对这个挑战,Google利用了LLM的结构特性。LLM由许多部分组成,其中大部分二进制大小集中在变压器堆栈中。这个堆栈由一系列类似形状的模型层组成,依次运行。 Gemma 1.1 7B模型有28层,这意味着如果Google能够将这些层逐一加载到WebAssembly内存中,内存使用可以提高28倍。因此,Google将同步加载管道更改为异步加载管道,由C++代码向JavaScript发出请求,并按需等待每个权重缓冲区。 实际结果甚至超出了预期:由于这些层本身包含许多较小的权重缓冲区,按需加载这些权重缓冲区使Google的WebAssembly内存峰值使用量降至不到1%的水平。 JavaScript内存 然而,这些升级也带来了一些弊端:Google现在在整个加载过程中进行一次性扩展扫描,无法按需跳转到文件的特定位置。这意味着加载顺序变得重要。解决方案是将模型权重按加载代码请求的顺序存储。然而,这种保证完全顺序的方式需要在模型格式中做出约定,或者让加载代码动态调整顺序。由于这些是更长期的解决方案,目前Google采用了备用方案,即创建一个临时本地缓存,在扫描数据时将未使用的数据保留,丢弃其余部分。 未来展望 在降低CPU内存使用方面,Google还可以通过减少模型大小来进一步优化,例如通过应用更激进的量化策略。Google希望很快能为Gemma 1.1 7B模型发布一个int4版本,在保持质量的同时,将模型大小减半。 此外,Google还在不断优化性能,添加令人期待的新功能,例如动态LoRA支持、即时微调和多模态支持。敬请期待更多更新,包括Gemma 2的发布!
Author: aitrendtrackers@rengongzhineng.io
ChatGPT和GPT-4可能会在今年秋季迎来“草莓”版甜美升级
虽然OpenAI在AI竞赛中长期处于领先地位,但竞争对手已经赶上,甚至在某些情况下超越了GPT-4,这让大家的目光都聚焦在该公司下一代大型语言模型(LLM)上。据报道,GPT-4的继任者正借助一种新AI进行强化,而这款新AI可能会在今年晚些时候作为ChatGPT的一部分推出。 据《The Information》报道,OpenAI计划在今年秋季发布一款代号为“Strawberry”的新AI,作为聊天机器人的一部分。报道推测,Strawberry有可能会成为ChatGPT的一部分。 Strawberry的特别之处是什么? 关注OpenAI新闻的人可能对Strawberry并不陌生。此前,这款AI被称为Q*(发音为Q Star),由OpenAI前首席科学家Ilya Sutskever启动,后来由Jakub Pachocki和Szymon Sidor两位研究人员在Sutskever离职后继续改进。这款AI曾在2023年引发技术突破,同时也因安全问题引发公司内部动荡。 Strawberry的突出特点是其先进的数学推理能力,能够解决从未见过的数学问题,这是当前的聊天机器人普遍难以做到的。它还具备高级编程和其他技能,能够回答诸如市场营销策略等主观性较强的问题。 用于聊天机器人的Strawberry版本是这一AI的简化版,OpenAI的目标是让这个版本在性能上不逊色于更大规模的模型,同时更加经济且易于操作。然而,报道指出,目前尚不清楚这一简化版的Strawberry是否会在今年为ChatGPT或GPT-4带来性能提升。 大版本Strawberry的作用 OpenAI发现,Strawberry的大版本可以用来生成高质量的训练数据,供其LLM使用。这种由AI生成的训练数据被称为“合成”数据。通过这种合成数据,公司对网络文本和图像等传统数据的依赖减少了。此外,这种高质量数据还能帮助减少AI常见的“幻觉”错误。 Strawberry有望帮助OpenAI解决为其LLM获取足够现实世界数据的问题。报道称,该公司正利用Strawberry的大版本来训练GPT-4的继任者,代号为“Orion”。此外,Strawberry还可能用于提升OpenAI的智能代理技术。 OpenAI对Strawberry的信心十足,甚至向美国国家安全官员展示了该技术。报道指出,此次展示可能与OpenAI希望向政策制定者更透明的举措有关,这些政策制定者对AI的威力感到担忧。对于OpenAI来说,展示这项技术显得尤为重要,尤其是在公司最近有多位安全负责人离职的情况下。 目前尚不清楚简化版Strawberry具体会在今年秋季何时推出,大家只能拭目以待,看看这一增强功能是否能让OpenAI在与竞争对手的较量中再度领先。
埃隆·马斯克宣布:蜂窝Starlink将为所有手机提供免费紧急服务
埃隆·马斯克表示,SpaceX的Starlink手机系统在连接紧急服务时将对用户完全免费。 “不能让人因为忘了付费或无法支付而失去生命,”SpaceX的CEO在周二的一条推文中说道。 这一声明正值SpaceX呼吁联邦通信委员会(FCC)批准其“直连手机”的Starlink技术商用,但面临竞争对手AT&T和Verizon的反对。 上周五,SpaceX向FCC提交文件称,Starlink技术将惠及所有消费者,因为它能在蜂窝信号覆盖不到的区域向所有无线用户发送紧急警报——即便这些用户并未订阅服务。这是因为该技术利用绕地卫星向地面用户提供蜂窝和互联网连接。 周二,马斯克在Twitter上发文称:“如果有人困在荒野中,这技术可以帮助很多人。”他接着补充:“经过深思熟虑,SpaceX Starlink将为处于困境中的手机用户提供免费紧急服务接入。这适用于全球,但需要各国政府的批准。” 目前,马斯克并未透露更多细节,但这一服务有望类似于苹果iPhone的紧急SOS功能,该功能在iPhone 14及更高版本中也是免费的,已经在偏远地区挽救了许多人的生命。 SpaceX正努力争取FCC批准,以便能与T-Mobile合作在今年秋天推出蜂窝Starlink系统。因此,马斯克的推文很可能是为了向美国监管机构施压。同一推文中,FCC共和党专员布伦丹·卡尔(Brendan Carr)也发声支持:“直连手机技术将极大提升公共安全通信和应急响应。” 尽管如此,SpaceX还请求FCC豁免其蜂窝Starlink卫星的正常无线电频率参数,以确保覆盖广度和速度。然而,AT&T和Verizon则要求FCC驳回这一请求,担心Starlink卫星会产生过多无线电干扰。 AT&T向FCC提交的技术分析显示,SpaceX的提议可能会导致AT&T PCS C Block市场部署中网络下行吞吐量平均下降18%。对此,SpaceX回函反驳,称AT&T和Verizon试图阻止消费者接入Starlink技术。 蜂窝Starlink系统也势必会与AT&T和Verizon正在开发的手机卫星互联网系统竞争,这一系统由初创公司AST SpaceMobile提供
谷歌又出三款Gemini模型
在AI时代的组织准备:从技术到变革 谷歌AI Studio产品负责人Logan Kilpatrick自信满满地在X平台上发文称:“Gemini 1.5 Flash是目前全球开发者的最佳选择。” “前所未有”的Gemini模型最新实验版 今年5月,谷歌推出了Gemini 1.5 Flash,这是一款轻量版的Gemini 1.5。Gemini 1.5系列模型专为处理超长文本设计,能够分析超过1000万标记的复杂信息。这使得这些模型能够处理包括文档、视频和音频在内的大量多模态输入。 今天,谷歌推出了一款改进版的Gemini 1.5 Flash模型,其参数达80亿。此外,全新的Gemini 1.5 Pro在编码和处理复杂指令方面表现出显著提升,成为8月初发布的前一版本的“即插即用”替代品。 Kilpatrick没有透露更多细节,只是表示谷歌将在未来几周内发布一个可用于生产环境的版本,并“希望附带评估功能”。 他在X平台的帖子中解释称,这些实验模型是为了收集反馈,让开发者尽早接触到最新更新。“通过实验性发布获得的经验教训将指导我们如何更广泛地发布模型,”他写道。 这次发布的Gemini 1.5 Flash和Pro的“最新实验版”均支持100万个标记限制,并可以通过Google AI Studio和Gemini API免费测试。根据Kilpatrick的说法,这些模型很快也会通过Vertex AI实验端点提供免费使用,并且公司将在未来几周内推出一个用于生产环境的版本。 自9月3日起,谷歌将自动将请求重新路由到新模型,并从Google AI Studio和API中移除旧版模型,以“避免因同时保留多个版本而造成混淆”。 “我们迫不及待地想听听大家的反馈,看看这个模型如何能解锁更多新的多模态应用场景,”Kilpatrick在X上发文称。 “巨大进步”,但依旧存在“懒惰编码病” 发布仅几小时后,大型模型系统组织(LMSO)就在其聊天机器人竞技场中发布了基于2万社区投票的排行榜更新。Gemini 1.5 Flash取得了“巨大飞跃”,从第23位跃升至第6位,达到了Llama的水平,并超越了谷歌的Gemma开放模型。 Gemini 1.5 Pro在编码和数学方面也表现出“强劲提升”,并且“显著改进”。 LMSO对这些模型表示赞赏:“恭喜谷歌DeepMind Gemini团队取得了令人难以置信的发布成果!” 然而,正如通常在迭代模型发布中所见,早期反馈呈现出多样化——从过度吹捧到讽刺和困惑。 一些X用户质疑为何如此频繁地更新而不是直接推出2.0版本。有人发帖表示:“伙计,这已经不够用了 😐 我们需要真正的升级,Gemini 2.0。” 另一方面,许多自称粉丝的用户对这些快速升级表示赞赏,报告称图像分析的“改进非常明显”。“速度简直太快了,”一位用户写道,另一位则指出,谷歌持续推出新产品,而OpenAI几乎保持沉默。还有人甚至表示,“谷歌团队正在默默地、勤奋地、不断地交付成果。” 但也有批评者称其“糟糕”和“懒惰”,特别是在处理需要较长输出的任务时,认为谷歌在这方面“远远落后”于Claude、OpenAI和Anthropic。 一位X用户遗憾地表示,这次更新“可悲地患上了懒惰编码病”,类似于GPT-4 Turbo的表现。 另一位用户则称更新版本“并没有那么好”,并表示模型“经常会崩溃,开始重复内容,就像小模型常见的问题那样。” 还有人表示,尽管对测试感到兴奋,但Gemini在编码方面“是最糟糕的。” 还有人调侃谷歌的命名能力,回忆起其今年早些时候的巨大觉醒失误。 “你们已经完全失去了命名事物的能力,”一位用户开玩笑道,另一位则附和说:“你们真的需要找人帮忙起名字。” 还有人冷嘲热讽地问道:“Gemini 1.5还是讨厌白人吗?”
Meta AI动画生成功能的规模化部署与优化策略
Meta推出Meta AI的目标是为人们提供利用生成式AI(GenAI)提升生产力和激发创造力的新方式。然而,GenAI也伴随着规模化的挑战。当Meta在部署新的GenAI技术时,Meta也专注于尽可能快速且高效地向人们提供这些服务。 Meta AI的动画生成功能允许用户生成短动画,并且在这一方面Meta面临着独特的挑战。为了在大规模应用中实现此功能,Meta的图像动画生成模型必须能够服务于使用Meta产品和服务的数十亿用户,并且做到快速生成、极少出错且资源高效。 以下是Meta如何通过延迟优化、流量管理和其他新颖技术成功部署Meta AI动画生成功能的过程。 优化生成图像动画的延迟 在将动画生成功能推向Meta应用家族和Meta AI网站之前,使动画模型的运行速度变得更快是Meta的首要任务之一。Meta希望用户能够体验到仅需几秒钟就能看到动画生成的魔力。这不仅从用户角度重要,而且模型越快、效率越高,Meta就能使用更少的GPU,从而实现可持续的规模化发展。Meta在创建带有视频扩散的动画贴纸、加速图像生成的Imagine Flash、以及通过块缓存加速扩散模型方面的工作帮助Meta开发出实现大幅度延迟优化的新技术。 减半浮点精度 这些优化技术之一是将浮点精度减半。Meta将模型从float32转换为float16,这加快了推理时间,主要有两个原因。首先,模型的内存占用减少了一半。其次,16位浮点运算比32位运算速度更快。对于所有模型,Meta使用bfloat16,一种用于训练和推理的float16变体,以获取这些优势。 改进时序注意力扩展 第二项优化是改进了时序注意力扩展。时序注意力层在时间轴和文本条件之间进行注意力计算,需要将上下文张量复制以匹配时间维度或帧数。以前,这是在传递到交叉注意力层之前完成的。然而,这导致了性能提升不理想。Meta选择的优化实现通过利用重复张量是相同的这一事实,在通过交叉注意力线性投影层之后进行扩展,从而减少计算和内存消耗。 利用DPM-Solver减少采样步骤 第三项优化使用了DPM-Solver。扩散概率模型(DPMs)是一种功能强大且有影响力的模型,能够生成高质量的结果,但其速度较慢。其他可能的解决方案,如去噪扩散隐式模型或去噪扩散概率模型,虽然可以提供高质量的生成,但需要更多的采样步骤。Meta利用了DPM-Solver和线性对数信噪比时间,将采样步骤减少到15步。 结合引导和步骤蒸馏 Meta实施的第四项优化是结合引导和步骤蒸馏。通过初始化教师和学生权重相同的模型,Meta进行了步骤蒸馏,训练学生模型在单步内模仿教师模型的多个步骤。引导蒸馏方面,Meta通过无分类器引导的方式实现了条件图像生成。这要求每个求解步骤都进行有条件和无条件的前向传递。然而,在Meta的场景中,每步有三个前向传递:无条件、图像条件和完整的文本与图像条件。通过引导蒸馏,Meta将这三个前向传递合并为一个,使推理时间缩短了三倍。最后,通过训练学生模型同时模仿无分类器引导和多步骤操作,Meta的最终模型只需八步求解,每步只需要一次通过U-Net。 PyTorch优化 最后一项优化涉及部署和架构,包含两项转化。首先是利用TorchScript进行脚本化和冻结。通过将模型转换为TorchScript,Meta获得了许多自动优化,包括连续折叠、多个操作的融合以及减少计算图的复杂性。这三项优化帮助Meta提高了推理速度,而冻结技术通过将图中的动态计算值转化为常量,进一步减少了总操作数。 虽然这些优化对于Meta的初次发布至关重要,但Meta还在持续突破界限。例如,Meta将所有媒体推理从TorchScript迁移到基于PyTorch 2.0的解决方案,这为Meta带来了多项提升。通过在组件级别利用pytorch.compile进行优化,以及在新架构中启用上下文并行和序列并行等高级优化技术,Meta实现了从减少高级功能的开发时间到改进跟踪、支持多GPU推理的全面胜利。 在大规模部署图像动画 在完全优化模型后,Meta面临的新挑战是如何在全球范围内运行此模型,支持来自世界各地的流量,同时保持快速的生成时间,尽量减少故障,并确保GPU可以用于公司内的其他重要用例。 Meta首先查看了以前AI生成媒体的流量数据,包括其发布时和随时间推移的流量情况。Meta使用这些信息来估算可以预期的请求数量,并利用模型速度的基准测试来确定需要多少GPU来容纳这些请求。在扩大规模后,Meta开始进行负载测试,以查看是否可以处理各种流量水平,解决各种瓶颈,直到Meta能够处理发布时预计的流量为止。 在测试过程中,Meta注意到动画请求的端到端延迟比预期高,并且高于Meta在构建上述所有优化后看到的情况。调查显示,流量在全球范围内被路由,导致显著的网络和通信开销,增加了生成时间。为了解决这个问题,Meta利用了流量管理系统,该系统获取服务的流量或负载数据并使用这些数据计算路由表。
马斯克支持加州AI安全测试法案,引发科技巨头反对
埃隆·马斯克周一公开支持美国最具争议的人工智能政策提案之一,支持加州法案1047号。这项法案要求大型AI模型在使用前必须进行安全测试。尽管此法案遭到科技巨头如马克·安德森和OpenAI的强烈批评,认为其规定模糊且负担过重,可能会对开源模型产生寒蝉效应,但法案作者、民主党州参议员斯科特·维纳表示,他的目的是防止不法分子利用AI制造生物武器等对人类造成灾难性伤害。 马斯克在社交平台X(原Twitter)上表示,支持该法案是个“艰难的决定,可能会让一些人不满”,但他认为该法案应该通过。这一表态正值提案的关键时刻,该法案必须在本周末前通过州议会,才能递交至州长加文·纽森的桌前。 马斯克强调:“过去20多年,我一直主张对AI进行监管,就像对任何可能对公众构成风险的产品或技术进行监管一样。” 作为特斯拉、X和SpaceX的负责人,马斯克此前曾呼吁主要AI实验室暂停训练新的超强AI系统,但最近他逐渐接受了生成式AI的趋势。X平台近期推出了一款名为Grok的工具,允许用户通过文本提示生成并发布计算机生成的图像,这已经引发了有关虚假信息和深度伪造在社交媒体泛滥的担忧。 马斯克的立场使他与硅谷的强大力量,以及国会中的一些民主党议员站在对立面,后者最近几周纷纷反对该法案——其中包括众议员佐伊·洛夫格伦、罗·卡纳和前议长南希·佩洛西。 此外,马斯克的支持也使民主党参议员维纳陷入尴尬局面。维纳曾与马斯克就保护LGBTQ青少年隐私的立法问题进行过激烈辩论。
Anthropic打破行业惯例,公开AI系统提示,引发透明化新潮流
在AI行业中,Anthropic公司率先发布了其聊天机器人Claude的系统提示,涵盖了Claude 3 Opus、Claude 3.5 Sonnet和Claude 3.5 Haiku等模型。这些提示引导着AI模型该如何回复用户,规定了其回复的基调和禁忌内容。 最新的系统提示(2023年7月12日发布)明确指出,三种模型均不得:打开URL链接或视频;识别或命名图片中的任何人类;以及在回复中使用诸如“当然”或“绝对”等填充词。 Claude 3.5 Sonnet的知识库更新于4月,而Claude 3 Opus和Claude 3.5 Haiku则在2023年8月进行了更新,这意味着这些模型可以使用各自更新日期前后的数据来回答问题。 如果模型无法回答某个问题,因为相关信息难以在互联网上找到,它们不会道歉,而是会警告用户,尽管它们会尽量提供准确的回答,但也可能会出现“幻觉”信息。 目前,其他AI公司(如OpenAI、Google、Meta和Mistral)都没有公开其系统提示,原因可能是出于竞争考虑,或是为了防止黑客利用提示注入来绕过模型的限制。许多人认为,Anthropic此举是为了展示自己更透明和更具伦理责任感,这可能会引发其他公司跟进。
苹果机器人计划:能否成为智能家居的破局者?
苹果正在悄悄布局机器人领域,希望通过这一新方向不仅在消费者家中占据一席之地,还能为其产品线增添全新维度。与此同时,Meta正准备推出更便宜的Quest设备,苹果也在尝试新的Vision Pro销售策略,而App Store负责人则因公司重组即将离职。 苹果的机器人梦想:从桌面设备开始 近年来,苹果高层在思考如何推出全新产品时,遇到了一些挑战:公司的设备几乎已经融入了消费者生活的每个角落。从iPhone、iPad、Mac到Apple TV机顶盒,人们依赖这些设备获取信息和娱乐;AirPods和Beats耳机则为耳朵带来极致的音频体验;Apple Watch也让用户可以随时关注健康状况。而苹果的Vision Pro则试图改变用户看待世界的方式。 尽管苹果可以不断改进这些现有设备,比如让它们更轻薄、提高电池寿命或加快处理速度,但要创造出一款具有革命性的新产品却越来越难。苹果的自动驾驶汽车项目在今年早些时候宣告失败,但这个项目让公司开始思考一个新问题:如果苹果的产品能够自己“动”起来,会怎样? 自动驾驶汽车的梦想虽然破灭了,但它的本质其实就是一个大型滚动机器人。这种核心技术可以应用于其他领域。早在2020年,苹果就开始探索机器人技术,希望让设备具备移动能力。这一探索至今仍在进行。 桌面机器人或将面世 苹果目前正在研发的测试产品代号为J595,是一款桌面设备。它结合了大屏幕显示器、摄像头和带有机械臂的底座,预计这款设备可能会在2026年或2027年问世。未来,苹果或许还会推出移动机器人,甚至在人形机器人领域发力,预计会在下个十年内实现。 苹果相信,机器人技术可以解决许多生活中的小麻烦。例如,当你在厨房忙碌时,设备可以自动将屏幕转向你,帮助你查阅菜谱或进行视频通话。未来的苹果机器人甚至可能承担起家务活,如装洗衣机或清洗餐具。 然而,距离这些梦想成真还有很长的路要走。目前,市面上的机器人设备价格昂贵,智能化程度有限,功能也不够丰富。此外,许多消费者可能还没有准备好迎接机器人进入日常生活。苹果在技术研发上将面临巨大的成本压力,消费者购买时也会望而却步。 前景广阔,但挑战重重 苹果的机器人工作由技术副总裁凯文·林奇负责,他此前领导了公司的自动驾驶汽车项目。如今,他将这支团队的焦点转向了机器人技术。为了赋予未来的机器人设备更多个性,苹果还在开发一种基于生成式AI的新型人机界面,旨在取代Siri成为机器人设备的核心助手。 尽管苹果机器人项目前景广阔,但行业内外仍有不少质疑声。汽车项目的失败让人不禁怀疑,苹果是否有能力在机器人领域取得成功。此外,苹果在增强现实眼镜等领域的开发也曾遇到过挫折。目前尚不清楚苹果是否有足够的决心将机器人产品推向市场,但如果苹果真的想要找到新的方式融入消费者的生活,机器人技术可能会是下一个突破口。 结语 苹果的机器人计划无疑为公司未来的发展提供了一个全新方向。虽然前路充满挑战,但如果苹果能够克服技术障碍并将产品成功推向市场,机器人有望成为苹果在智能家居领域的制胜法宝。未来的家庭生活是否会因为苹果的机器人变得更加便捷,值得我们拭目以待。
研究发现:大多数AI文本检测器远没有宣传的那么可靠
从对“深入探讨”的可疑癖好,到立场摇摆不定的意见,有些明显的迹象可能会让读者觉得一篇文章是AI生成的。然而,要完全准确地辨别AI文本生成,目前对开发者来说仍是个棘手的问题。 许多AI文本检测系统可以被简单的技巧轻松打败,比如在文本中加入一个不寻常的符号。它们可能在某些类型的内容上表现出色,比如学生论文,但在其他类型的内容上却表现不佳,比如新闻文章。而那些可以稳定识别AI生成内容的检测器,也有可能会把人类创作的作品误认为是机器所为。 宾夕法尼亚大学的研究人员的一项研究揭示了这些发现,并对目前市场上AI文本检测器的一些广告宣传提出了质疑。研究作者提出了一种新的评估方法,旨在通过一个包含1000万篇文章的标准化基准数据集来量化这些工具的有效性。这个数据集涵盖了新闻文章、博客、食谱等内容,并提供了一个公开的排行榜来对检测器进行排名。 “我们希望为AI检测器的评估贡献一个系统化的方法,这样当有人声称他们的创新比现有技术更好时,我们就能验证它确实如此,” 宾夕法尼亚大学计算机与信息科学教授兼研究作者Chris Callison-Burch在接受Tech Brew采访时表示。 自2019年OpenAI发布GPT-2以来,尤其是在ChatGPT风靡全球的这两年,专家们对由大型语言模型(LLM)生成的海量文本带来的风险越来越担忧。这些担忧也逐渐成为现实,从教师对AI生成的论文束手无策,到学术研究被垃圾信息淹没,再到骗子利用AI进行大规模诈骗。 然而,若没有准确的检测工具,人们甚至难以了解问题的全貌。OpenAI去年放弃了早期尝试的AI文本分类器,理由是“准确率低”。各种尝试为AI生成的文本加上水印的做法也未见成效。 Callison-Burch指出,尽管许多初创公司声称其检测器的准确率高达99%,但实际上,这个问题比看上去复杂得多。 研究团队列举了许多绕过检测器的方法,包括用相似形状的同形异义字替换某些字符,或者用英式拼写替换某些单词。他们还发现,检测器通常在它们训练过的文本类型上表现最好,比如,训练于ChatGPT的检测器可能难以处理Anthropic的Claude生成的文本,而训练于新闻文章的工具可能在识别食谱时表现不佳。 Callison-Burch提到,至少有一家初创公司已经在其检测器中加入了防护措施,尽管如此,他对排行榜上一些检测器的表现感到鼓舞。 他总结道:“这有点像猫捉老鼠的游戏,或者说是一场军备竞赛。随着LLM越来越强大,它们变得越来越难以被检测到。但对检测的需求比以往任何时候都更加明显。”
Mozilla对今天发布的开源AI新定义感到兴奋,并认为这是向前迈出的重要一步
Mozilla对今天发布的开源AI新定义感到兴奋,并认为这是向前迈出的重要一步。 过去的一年里,越来越多的人开始意识到开源AI对社会的好处。早在去年10月,众多支持者就签署了声明,强调开放性和透明性是AI安全和保障的关键要素。今年2月,Mozilla与哥伦比亚全球政治研究所召集了AI专家,探讨开源AI如何推动社会发展的核心目标。政策制定者也在逐步拥抱开源AI,美国国家电信和信息管理局(NTIA)最近发布了一份重要报告,支持AI的开放性。甚至像Google、微软、苹果和Meta这样的公司,也开始对其AI系统的某些部分开放。 随着对开源AI的关注日益增加,建立对开源AI的共识变得尤为重要。定义开源AI的标准,包括需要共享的内容以及在何种条件下共享,这一点非常关键。如果缺乏明确的标准,可能导致开源AI的混乱局面:公司随意贴上“开源”标签,即使他们的产品并非真正开源;民间团体无法获得必要的AI组件来进行测试和问责;政策制定者也可能制定无法应对这一复杂问题的法规。 最近,开源倡议组织(OSI)发布了新的开源AI定义草案,标志着互联网发展的一个关键时刻。这一时刻是经过两年多的对话、讨论和参与后形成的。这不仅重新定义了“开源”在AI领域的含义,还关乎科技未来的发展及其对社会的影响。 早在1998年,OSI发布的原始开源定义不仅仅是一组指导原则,更像是一个关于软件开发新方式的宣言。这个定义奠定了开放系统的基础,如今已经成为现代互联网的支柱。从Linux到Apache,开源项目推动了创新、协作和竞争,使互联网成长为一个多样化且充满活力的生态系统。通过确保软件可以自由使用、修改和共享,最初的开源运动不仅扩大了技术的可及性,还打破了准入壁垒,促进了创新文化和透明度,同时使软件更安全,减少了网络攻击的风险。 这一新定义是为开源AI讨论带来清晰度和严谨性的关键一步。它引入了类似现有定义的二元化“开源”定义。尽管这是定义开源AI的众多方法之一,但它为开发者、倡导者和监管者提供了明确的标准,特别是在不同工作场景中。这一定义具体指出,开源AI的核心在于自由使用、研究、修改和共享AI系统,并且强调了获取关键组件的重要性,例如用于训练的数据、AI开发的源代码以及AI模型本身的信息。 此外,这一定义还尝试解决AI模型训练数据共享的复杂问题。定义承认在实践中共享完整的训练数据集可能具有挑战性,因此避免了将大量潜在的开源AI开发排除在“开源”之外。为推动这一领域的发展,Mozilla和Eleuther AI召集专家,制定了支持AI训练的开源数据集的最佳实践,并计划很快发布一篇论文,推广AI训练数据更广泛可用的规范。 尽管有人可能对OSI定义的某些方面存有异议,例如对训练数据的处理方式,并且定义可能需要随着时间的推移进行改进,但该定义经过一年多的利益相关者参与,已经为开源AI的讨论奠定了重要的参考点。例如,该定义将成为打击“开源洗白”现象的有力工具,这种现象正变得越来越普遍——非开源模型(甚至像Meta的Llama 3这样仅部分开源的模型)被宣传为领先的“开源”选项,却没有真正为公共资源做出贡献。研究人员表明,“开源洗白”对创新、研究以及公众对AI的理解有着显著影响。 这一努力展现了开源社区的最佳状态——通过公开讨论,解决分歧,承认不足,并共同完善这个定义,建设出更好的成果。它有效地涵盖了开源社区一直在努力处理的许多关键开放性要素,如不仅仅关注模型权重的开放性,还包括更广泛的模型组件、文档和许可方式。而封闭源代码的生态系统则是在秘密中运作,访问受限,大型科技公司在幕后交换计算资源和人才。相比之下,人们更倾向于选择即便不完美但始终透明的开源方式。 许多支持者热切期待继续与OSI和更广泛的开源社区合作,进一步明确开源AI的讨论,并持续为社会释放开源AI的潜力。