在Lex Fridman的播客第452集里,Anthropic公司CEO达里奥·阿莫代伊(Dario Amodei)深入探讨了通用人工智能(AGI)、AI安全性、机制可解释性以及AI如何更好地与人类共存等多个重要主题。阿莫代伊的独特视角不仅来自他在OpenAI时期积累的丰富经验,也源自他在创立Anthropic后对AI伦理和技术安全性的深入思考。在AI技术飞速发展的背景下,阿莫代伊的观点为AI的未来提供了一种谨慎而现实的视角,反映了他对负责任创新的承诺。 1. Claude模型的开发与安全性优先的理念 阿莫代伊介绍了Anthropic的旗舰AI模型——Claude,并强调了其开发理念是以“安全性优先”为核心。AI模型的潜力是巨大的,但这也意味着其带来的风险同样不容忽视。阿莫代伊解释说,Claude不仅是一个强大的语言模型,更是一个被特别设计用以应对风险的AI系统。Anthropic在设计Claude时特别注重模型在生成内容时的安全性,通过一系列技术手段来确保模型的输出符合人类的道德和伦理标准。 AI系统的不可预测性一向被认为是潜在风险之一,尤其是当它们在高风险领域应用时(例如医疗和法律)。阿莫代伊指出,Anthropic在Claude的开发过程中采用了“机制可解释性”技术,这一方法不仅有助于理解模型内部的运作,还能有效降低风险。例如,Claude在训练时会接受一系列道德和伦理约束,以确保其在生成内容时不会产生有害的结果。通过这种方式,Anthropic试图为AI模型构建“安全防护”,确保Claude可以成为一个安全的辅助工具,而不是一种可能带来意外后果的“黑箱”。 2. 扩展法则与AGI的发展潜力 阿莫代伊在谈及AGI(通用人工智能)时强调了“扩展法则”(Scaling Laws)的重要性。他指出,通过增加模型的参数和数据量,AI系统的能力可以显著提升,从而实现更高级的推理和自适应能力。但他也提到,这种“简单粗暴”的扩展带来了许多潜在的风险,尤其是在系统规模增大后,AI的行为可能会变得更加难以预测。 阿莫代伊解释道,扩展法则帮助研究人员理解如何有效增加模型的容量以提升性能,但这一方法的局限性也很明显。随着模型的复杂度增加,其内部决策过程会变得极为复杂且难以解读,可能会出现一些不可预见的“奇异行为”。这种不透明性让人担心AGI一旦应用于人类生活的各个方面,若其行为不受控制,可能会引发难以弥补的后果。因此,阿莫代伊呼吁在推进AGI技术的过程中,业界需要对模型的规模和复杂性保持谨慎,同时开发更多安全机制,以确保这些系统在更高智能化的同时,依旧在安全可控的范围内。 3. AI伦理与社会责任:确保AI的道德边界 阿莫代伊的谈话中多次提及AI系统的伦理问题和社会责任。他认为,确保AI行为的道德边界和符合伦理标准,是技术发展中不可忽视的一个重要方面。Anthropic在AI开发中的一大核心理念便是,AI的开发不仅需要关注性能和效率,更要确保其行为符合人类的道德准则。尤其是当前许多AI模型被广泛应用于内容生成、决策支持等领域,如果缺乏明确的伦理准则,AI可能会作出不符合社会价值的决策。 他进一步指出,为了确保AI模型在生成内容时保持“伦理性”,Anthropic在Claude的训练过程中融入了一系列社会伦理和道德标准的内容。这些训练旨在引导Claude模型在面对不同场景时,能够识别出伦理边界,从而做出符合道德的决策。阿莫代伊认为,AI系统的社会责任在于维护人类的价值观念,只有确保AI在伦理和道德层面上的“正确性”,用户对其信任度才会提升。 此外,他还强调了开发者在AI伦理方面的职责,指出AI系统的道德边界不仅体现在编程规则中,还体现在模型训练过程中的“行为塑造”。通过对模型行为的精细调控,开发者可以确保AI模型在处理复杂的社会伦理问题时,能够做出符合人类社会价值观的选择。阿莫代伊认为,如果AI不能赢得公众的信任,那么即使技术再先进,其实际应用前景也会大打折扣。 4. 机制可解释性:破解AI的“黑箱” 机制可解释性(Mechanistic Interpretability)是阿莫代伊在本次采访中反复强调的一个技术主题。他解释道,机制可解释性是一个新兴的研究领域,旨在深入理解神经网络模型的内部运作,帮助研究人员更好地解读AI如何处理信息。通过这种技术,AI模型的“黑箱”特性得以逐步减少,研究人员可以在模型生成输出时,对其内部决策机制进行追踪和解释。 阿莫代伊指出,Anthropic团队开发了一种名为“Gemma Scope”的工具,以帮助分析Claude等AI模型的内部机制。这种工具可以像“放大镜”一样,让研究人员更清晰地观察模型在不同层级上如何做出决策,从而帮助AI开发者更好地控制模型的输出。阿莫代伊提到,通过机制可解释性,研究人员可以在模型生成过程中追踪其逻辑路径,从而预测可能的误判,并在模型处理复杂任务时提供更为可靠的判断。 他还补充说,机制可解释性技术的应用并非仅限于理解模型决策过程,它还帮助开发者发现模型中的潜在问题。例如,通过追踪模型在生成特定内容时的决策路径,开发者可以更有效地预测模型在不同情境下的表现,进而设计出更为安全、可靠的AI系统。 5. AI的未来与人类的和谐共存 阿莫代伊在展望AI的未来时表示,AI有着深远的潜力,不仅仅在技术层面上,而且在与人类社会的融合与共存方面。阿莫代伊指出,随着AI技术的成熟和广泛应用,AI将有能力进入包括生物学、医学、化学等领域,为这些行业带来新的突破。例如,Anthropic在医疗领域开发的图像分类工具,就曾帮助许多用户获得及时的健康建议,有人反馈这些工具甚至在关键时刻挽救了他们的生命。这类工具展示了AI技术在关键领域的巨大价值,说明AI不仅仅是一个技术工具,更可能成为人类生活的“伙伴”。 阿莫代伊还提到,AI与人类的未来关系应建立在“互利互补”的基础上。Anthropic在开发AI时,始终将人类福祉放在首位。通过将AI设计为“助手”而非“替代者”,阿莫代伊希望AI能够在未来的社会中协助人类完成一些高风险或重复性的任务,而非取代人类的角色。这样一来,AI既可以实现技术创新,又不会对社会结构和人类生活方式带来冲击。 他认为,AI技术在未来将更广泛地融入各个行业,但在AI成为人类不可或缺的伙伴之前,AI技术的开发仍需秉持“负责任的创新”原则,确保技术对社会的积极影响。他提到,通过负责任的AI开发和严格的伦理审查,AI技术可以为人类带来更加美好的未来,而不是一种不可控的技术威胁。 总结 在整个对话中,阿莫代伊以务实和谨慎的态度提出了关于AI发展的多层次观点。他的核心观点是,AI的发展潜力无限,但技术必须要在安全、伦理和可控性等方面达成平衡。他指出,尽管技术进步可能带来AGI的出现,但不负责任的开发可能会导致严重的负面影响。因此,Anthropic的研发策略始终围绕确保AI系统符合人类价值观展开,通过机制可解释性和伦理控制等技术手段,为AI与人类社会的未来共存铺平道路。阿莫代伊的观点不仅为AI技术的未来发展指明了方向,也为科技行业提供了关于如何将技术创新与社会责任相结合的深刻启示。
谷歌DeepMind推出了一种新的方式来“窥探”AI的“内心”
谷歌DeepMind推出了一种新的方式来“窥探”AI的“内心”,并利用自动编码器揭示AI的黑箱运作。这种方法可能帮助研究人员更好地理解和控制AI的决策机制,为未来更可靠的AI系统铺路。 DeepMind的团队在研究被称为“机制可解释性”的领域,即试图理解神经网络如何实际运作。今年7月,他们发布了名为“Gemma Scope”的工具,让研究人员可以更清楚地观察AI在生成输出时内部发生了什么。团队负责人Neel Nanda指出,机制可解释性是一种新兴研究领域,目标是解构神经网络内部算法的运作方式。例如,AI在接收到“写一首诗”的指令后会输出韵律十足的句子,但具体执行的算法却不明朗,研究人员希望通过这种方式追踪其过程。 在分析AI模型Gemma时,DeepMind使用了一种“稀疏自动编码器”的工具。这种编码器可放大模型的每一层,帮助研究人员更直观地观察AI如何在不同数据层级上分类特征。例如,如果向Gemma提问“吉娃娃”,它就会激活“狗”这一特征,显示模型关于狗的知识。稀疏自动编码器的特点是仅使用部分神经元进行激活,形成更高效的表现形式,但同时控制信息的粒度,以便研究人员不至于被过度复杂的信息淹没。 DeepMind此举的目的是将Gemma和自动编码器的研究开源,鼓励更多研究人员使用和探索,从而进一步推动AI模型内部逻辑的理解。据悉,Neuronpedia,一个机制可解释性平台,也与DeepMind合作开发了Gemma Scope的演示版。用户可以在演示中输入不同指令并观察模型的响应,比如如果对“狗”特征进行极度放大,模型会在回答美国总统相关问题时莫名加入“狗”的内容,甚至可能回应出“狗叫声”。 稀疏自动编码器的有趣之处在于它们是无监督的,可以自主发现特征。例如,Neuronpedia的科学负责人Joseph Bloom提到,在自动编码中,“尴尬(cringe)”特征会在涉及负面评论时激活,这也说明模型能够自主找到与人类情感和判断相关的特征。此外,Neuronpedia还允许用户检索特定概念,标注激活的具体词汇,以了解模型是如何分解和理解人类概念的。 这种研究还揭示了AI为何会产生错误。举个例子,研究人员发现,AI模型将“9.11”视作比“9.8”更大,因为模型将这些数字误认为日期。这种错误往往是AI受限于特定的训练数据,经过调整后问题便可纠正。 机制可解释性还有许多潜在应用,例如在模型中去除敏感内容。当前LLM模型通常会内置系统级提示,以阻止用户获取不良信息,但通过机制可解释性,模型开发者有望找到并永久关闭这些节点,使AI彻底忘掉特定内容。 尽管机制可解释性前景广阔,但目前的技术难以完全控制AI的行为。Neuronpedia的创始人Johnny Lin表示,在模型参数的调整上,技术仍然存在不足。比如,如果通过减少暴力特征来控制模型,有可能会削弱AI在其他领域的知识。 总而言之,如果能够进一步深入AI的“心智”,机制可解释性研究将有可能成为实现AI对齐(确保AI行为符合预期)的有效途径。
OpenAI “Operator”的AI代理将首先以“研究预览”形式通过其开发者API推出
继宣布其下一款重要模型Orion不会在今年发布后,内幕消息透露,OpenAI最早可能在明年1月推出一款可以自主控制电脑、完成任务的AI代理。 🔑 关键点: 据内部人士透露,OpenAI已向员工透露,代号为“Operator”的AI代理将首先以“研究预览”形式通过其开发者API推出,供开发者反馈测试,随后再向公众发布。 OpenAI的CEO Sam Altman也证实,他认为“下一次重大突破将来自智能代理”,而首席产品官Kevin Weil表示,“2025年将是智能代理系统走向主流的一年。” 与此同时,Anthropic刚刚推出了名为“Computer Use”的自主AI代理,谷歌也宣布计划在12月推出其“上网助手”AI代理Jarvis,可以与用户共同浏览网页。 🤔 为什么值得关注: 正如上周提到的,由于缺乏未开发的真实世界数据,AI改进速度正在放缓,迫使像OpenAI这样的科技公司寻找新的方法来训练和扩展新模型。单纯的小幅改进已经无法支撑高昂的成本,而价格的提升对于开发和维护这些昂贵的AI模型至关重要。AI代理的引入被寄予厚望,业界希望这一技术能像ChatGPT一样带来创新飞跃,从而让高额的开发成本物有所值。
Ilya Sutskever AI行业将进入一个新的“探索时代”
OpenAI联合创始人伊利亚·苏茨凯弗(Ilya Sutskever)近日预言,随着大语言模型(LLM)的扩展遇到瓶颈,AI行业将进入一个新的“探索时代”。曾坚定支持“越大越好”理念的苏茨凯弗,如今表示,AI的核心不再是简单地扩大模型规模,而是要“扩大正确的部分”。 有消息人士透露,包括OpenAI、Google、Anthropic在内的主要AI实验室均面临类似的困难:大型LLM的训练成本高达数千万美元,系统结构极其复杂,有时甚至需要数月时间才能验证模型是否符合预期。近期的信息显示,OpenAI的新模型Orion、Google的Gemini 2.0以及Anthropic的Opus 3.5均遭遇了技术障碍。苏茨凯弗直言:“2010年代是AI扩展的时代,现在则回归到探索和发现的阶段,大家都在寻找下一个突破。” 为应对当前的技术瓶颈,AI公司纷纷转向“推理计算”(test-time compute),让模型在执行任务时投入更多计算资源。与传统的快速给出答案不同,推理计算方法让AI在给出最终答案前,生成多个备选方案并逐一评估,以此获得更优解。这一新方法有望降低成本,并在保持高效的同时提升模型解决复杂问题的能力。 这一变化或将打破Nvidia在AI硬件领域的垄断地位。过去,Nvidia的显卡在训练大型语言模型中占据主导地位,但推理计算的兴起为其他芯片制造商带来了新机遇,例如Groq等公司正专注于开发针对推理计算优化的芯片。 随着AI实验室逐渐尝试新策略,AI行业正在从单纯扩展模型规模转向更具智能化的计算方法。这一转变不仅有望提高模型性能,还可能从根本上重塑人机交互的方式,引领AI进入新的发展阶段。
Anthropic的首席执行官达里奥·阿莫代(Dario Amodei)AGI可能会在2026至2027年间问世
最近在一次由Lex Fridman主持的访谈中,Anthropic的首席执行官达里奥·阿莫代(Dario Amodei)谈到了人工通用智能(AGI)的快速发展。他预测,AGI可能会在2026至2027年间问世,而内部数据甚至显示这个时间点可能来得更早。不同于OpenAI追求“第一个达成”的目标,Anthropic更加关注安全性,尤其是在强大AI系统带来生存威胁的背景下。这些威胁包括AI被滥用于网络攻击或生物武器等灾难性事件,以及日益复杂的AI系统逐渐超出人类控制的风险。 阿莫代还详细介绍了AI安全等级(ASL)的概念。当前行业处于ASL-2阶段,预计到2025年将进入ASL-3阶段——这是一个关键点,AI模型可能会显著增强恶意行为者的能力。 Anthropic的研发策略建立在AI类似生物系统进化的理解上,这种方式带来了诸多发现,例如大型语言模型中出现的“特朗普神经元”现象。随着技术进步的加速,预计AI模型在2025年将从“高中水平”进化到接近人类的能力。阿莫代强调,到2025年底出台有意义的AI监管措施将是关键,以有效降低相关风险。
DeepSeek AI发布JanusFlow:一个统一的图像理解与生成框架
近年来,AI驱动的图像生成和理解技术发展迅猛,但实现无缝且统一的解决方案仍面临诸多挑战。目前,大部分擅长图像理解的模型在生成高质量图像方面表现不佳,反之亦然。为每项任务维护独立的模型架构不仅增加了复杂性,还降低了效率,使得同时需要图像理解和生成的任务难以高效完成。此外,许多现有模型依赖大量架构修改或预训练组件,以实现各自的功能,但这些方法常导致性能折中和集成困难。 DeepSeek AI新推出的JanusFlow是一个强大的AI框架,将图像理解和生成整合在一个单一模型中,旨在解决上述种种低效问题。JanusFlow通过创新的架构设计,将图像理解和生成任务无缝结合,减少架构复杂性,实现更协调的功能。它采用了自回归语言模型与先进的“整流流”(rectified flow)生成方法,设计了双编码器-解码器结构,分别处理理解和生成任务并在训练中对齐其表示,以确保统一的性能。 技术细节 JanusFlow通过精简的设计将整流流和大型语言模型(LLM)相结合。其架构包括独立的视觉编码器,分别用于图像理解和生成任务。训练过程中,这些编码器被对齐以增强语义一致性,使系统在图像生成和视觉理解任务中表现出色。任务间的编码器解耦设计防止了任务干扰,从而增强了每个模块的独立能力。此外,模型采用无分类指导(Classifier-Free Guidance,CFG),在生成图像时提升文本条件的准确性,使生成图像质量更高。与传统统一系统依赖扩散模型或矢量量化技术不同,JanusFlow提供了更简单、直接的生成流程,限制更少、效率更高。在多个基准测试中,JanusFlow的表现媲美甚至超越许多专用模型。 JanusFlow的意义 JanusFlow的意义在于其高效性和多功能性,填补了多模态模型开发中的关键空白。JanusFlow通过消除单独的生成和理解模块,让研究人员和开发者可以使用一个框架完成多项任务,大幅降低了系统复杂性和资源需求。基准测试结果显示,JanusFlow在多个统一模型上超越了现有模型,在MMBench、SeedBench和GQA上分别达到了74.9、70.5和60.3的高分。在图像生成方面,JanusFlow超过了如SDv1.5和SDXL等模型,在MJHQ FID-30k上得分9.51,在GenEval上得分0.63。这些数据表明,JanusFlow在高质量图像生成和复杂多模态任务处理方面表现优异,且仅需1.3B参数。更重要的是,JanusFlow不依赖复杂的修改或庞大的架构,因此提供了一个更为便捷的通用AI解决方案。 结论 JanusFlow是统一AI模型开发的一项重大进展,实现了图像理解和生成的双重功能。其“极简”设计通过整合自回归能力和整流流技术,不仅提升了性能,还简化了模型架构,使其更高效和易用。通过解耦视觉编码器并在训练中对齐表示,JanusFlow成功缩小了图像理解与生成的差距。随着AI研究不断推进模型的能力边界,JanusFlow代表了朝着更具通用性和多功能性的多模态AI系统迈出的重要一步。
5个非LLM软件趋势
自从ChatGPT在2022年发布以来,LLM模型引领了科技潮流,让人觉得不可思议的是,这已经是将近两年前的事了!但就在这段时间内,还有许多其他软件工程的激动人心进展,可能因为LLM的风头太盛而未得到应有的关注。虽然LLM确实具备革命性,但如今在软件领域,其他令人兴奋的趋势也在悄然崛起。以下是一些非LLM的趋势和创新,且这些领域都充满了增长的潜力。 1. 本地优先软件(Local-First Software) 本地优先软件(Local-first Software)已经存在几十年,但近年其开发体验和功能实现方面都有显著提升。所谓本地优先,就是优先在用户的本地设备上存储和处理数据,而非仅依赖云端服务。React-Query、PouchDB、InstantDB等开发库正帮助实现本地和云端的数据同步,让离线操作更加稳定、低延迟,并带来更出色的用户体验。 特别是冲突解决方案的改进,比如无冲突的CRDT、操作转换OT,以及常用的“最新写入优先”等,让本地优先软件在保持数据一致性方面更具吸引力。通过这些方法,开发者能更轻松地处理设备与服务器端的同步问题,同时提升应用的灵活性。 2. WebAssembly(WASM) WebAssembly是一种二进制指令格式,能够让代码以接近本地设备的速度直接在浏览器中运行。WASM的出现让浏览器成为功能强大的计算平台,能够独立于服务器执行复杂任务,极大地扩展了前端的可能性。 SQLite数据库在浏览器中的使用是WASM的一个成功应用。通过WASM运行的SQLite,提供了更强大的本地数据存储能力,适合离线功能和数据缓存需求。不仅如此,WebAssembly还提升了代码缓存,使应用加载速度更快,这对开发者来说无疑是巨大的优势。甚至,部分AI模型也能直接在浏览器端运行,比如TensorFlow.js就是一个很好的例子,这为隐私保护和边缘计算提供了更多可能。 3. SQLite的“复兴” 提到数据库,开发者通常会选择MySQL、PostgreSQL(关系型)或MongoDB(NoSQL)。然而,SQLite近年来重新受到关注,且在某些情况下甚至可以作为主力数据库来使用。SQLite的好处是:零延迟、简化的设置、易于多实例复制,并且能处理更大规模的数据库。其开发和测试的便捷性让它非常适合本地存储,尤其是在WASM加持下更是如虎添翼。 Notion就是SQLite的成功案例之一,他们在桌面版应用中使用SQLite进行缓存,加速了页面加载速度,而在Web端用WASM结合SQLite后,进一步减少了页面导航延迟20%。这个趋势在很多开发者间引发了讨论,越来越多本地优先的应用开始选择SQLite作为默认的存储方案。 4. 跨平台技术的进步 跨平台技术在性能、开发体验、可用性等方面取得了显著进展,尤其是React Native和Flutter表现尤为突出。例如,Shopify最近将整个移动应用迁移到React Native平台,达成了86%的代码复用率,并提升了屏幕加载和应用启动的速度。这一举措展示了跨平台的巨大潜力,特别是在提升开发效率和保持性能优化的平衡方面。 然而,纯跨平台方案并不意味着放弃本地开发。实践经验表明,高质量的应用开发仍需依赖本地代码,以确保最佳的用户体验和性能优化。React Native在不断更新的架构和性能优化上走得很远,而Flutter则继续在UI体验和多平台支持上取得新突破。 5. 自动化推理(Automated Reasoning) 自动化推理利用逻辑和数学证明来确保系统行为符合预期。这种方法不同于传统测试,它能验证系统在所有可能情境下的正确性。AWS在其基础架构中广泛应用了自动化推理,通过形式化验证规避了许多潜在问题。比如,他们为IAM建立了正式的规范模型,优化了每秒12亿请求的代码处理速度,提高了50%的性能。 自动化推理的最大优势在于可以提前发现潜在漏洞,尤其是在安全性和可靠性要求高的系统中,形式验证为系统提供了比传统测试更深入的验证方式。 在未来,这些非LLM的技术趋势或许会得到更多关注,也将为软件开发带来更多可能性。各项创新正在快速推进,软件工程师们将能利用这些新工具来进一步提升应用的性能和用户体验。
亚马逊正准备推出其最新的人工智能芯片
亚马逊正准备推出其最新的人工智能芯片,以实现其在半导体领域数十亿美元的投资回报,同时减少对市场领导者英伟达的依赖。亚马逊云计算部门的高管们正大力投入定制芯片,旨在提高其众多数据中心的效率,从而降低亚马逊及其云服务客户的成本。 负责这项工作的主要是安纳普尔纳实验室(Annapurna Labs),这家位于奥斯汀的芯片初创公司于2015年初被亚马逊以3.5亿美元收购。下月,亚马逊将推出最新的“Trainium 2”芯片,这款专为训练大型人工智能模型设计的芯片预计会被广泛应用。目前,Trainium 2已在亚马逊支持的竞争公司Anthropic,以及Databricks、德国电信、日本理光和Stockmark等公司中进行测试。 亚马逊网络服务(AWS)和Annapurna的目标是挑战英伟达的地位,后者因在人工智能处理器市场上的统治地位,成为了全球最有价值的公司之一。AWS的计算和网络服务副总裁戴夫·布朗表示,他们希望成为运行英伟达技术的最佳平台,但同时认为市场上有替代选择是健康的。亚马逊还提到,其另一款AI芯片系列Inferentia在生成AI模型响应方面,运行成本已低于英伟达,节省了40%。 由于机器学习和人工智能的计算需求巨大,布朗解释道,云计算成本尤其在这些领域容易增加,节省40%的费用在小额预算中影响不大,但对数千万美元的支出则有显著意义。 亚马逊预计2024年在资本支出上将达到约750亿美元,主要用于技术基础设施,而在最近的财报电话会议上,首席执行官安迪·贾西透露,这一支出可能在2025年进一步增加。2023年,亚马逊在全年支出方面为484亿美元,与之相比,这一增长尤为显著。微软和谷歌等主要云计算供应商也在加大AI领域的投入,显现出持续不断的技术竞争态势。 亚马逊、微软和Meta都是英伟达的重要客户,但同时也在设计各自的数据中心芯片,以打造未来AI增长的基础。据The Futurum Group的丹尼尔·纽曼分析,目前几乎所有主要云服务供应商都在积极构建更加垂直整合的芯片技术栈,降低生产成本、提高利润率、增强可控性等因素成为主流需求。 Annapurna的工程总监拉米·辛诺指出,亚马逊的AI基础设施是从芯片的生产到安装服务器机架的全流程一体化设计,以自有软件和架构为支撑。“达到我们这种规模的难度很大,能够做到的公司屈指可数。” 安纳普尔纳起初为AWS打造了一款名为Nitro的安全芯片,随后开发了多代Graviton系列,这种基于Arm架构的CPU提供了比传统服务器芯片更低功耗的选择。TechInsights分析师G·丹·赫奇森指出,AWS的芯片有助于降低功耗,提高数据中心效率,从而降低运营成本。如果将英伟达的GPU比作通用型的多功能车,那么亚马逊的芯片则更像是为特定任务优化的小型轿车。 不过,目前AWS和Annapurna在AI基础设施市场上对英伟达的影响仍然有限。英伟达在2024财年第二季度的AI数据中心芯片销售收入达263亿美元,这一数字与亚马逊AWS部门的总收入持平,而AWS客户中用于AI的部分还只占较小比例。 在芯片性能上,AWS避免直接与英伟达进行对比,也未提交独立的性能测试报告。芯片咨询公司Moor Insights & Strategy的专家帕特里克·穆尔黑德认为,亚马逊在Trainium 1和Trainium 2之间实现了4倍性能提升,但相较于性能数字,客户能够有更多选择可能更加重要。
超过40家医疗系统正在使用AI转录工具
超过40家医疗系统正在使用OpenAI开发的转录工具,而该工具因被指存在错误风险而备受争议。美国各地数万名临床医生目前依赖这个名为Whisper的AI转录工具来自动转录记录,然而专家警告称其可靠性令人担忧。据美联社报道,Whisper在高风险领域的应用存在潜在风险,OpenAI也在其指南中提醒,使用时应“谨慎”。 尽管如此,Whisper在医疗行业的普及并未放缓。美联社调查发现,美国约40家医疗系统中的3万名医生通过由Nabla公司提供的工具转录记录,而该工具正是基于Whisper模型构建的。多位软件工程师、开发者及学术研究人员透露,Whisper在处理“良好录制的短音频样本”时也会频繁出错。例如,一位来自密歇根大学的研究人员发现,在镇民会议录音的转录中,Whisper生成的“幻觉”内容(即AI模型生成的错误或虚假信息)频率高达80%。其他专家也报告了类似的错误率。一位机器学习工程师表示,在100小时音频转录中发现了大约一半的错误,另一位工程师在分析了26,000份Whisper转录文件后发现几乎普遍存在错误。 随着AI技术的普及,许多医院管理者为降低成本,正将AI工具应用于各种医疗流程,但监管覆盖的力度有限。部分AI工具是为特定需求而定制的,但Whisper的广泛应用表明医疗界对现成的商业产品兴趣浓厚。全美护士联合会(NNU)及其附属机构警告,这种未受监管的AI应用可能对患者构成风险。 NNU的一项调查显示,在采用AI自动转接流程的医院中,48%的护士认为AI生成的医疗报告经常与他们的专业评估不一致,或缺少关键信息。约四成护士表示,他们无法忽略AI生成的报告或修改错误诊断。“最令人担忧的是,AI被用来重新设计护理流程,从而削弱了医疗决策者的技能,”NNU护理实践助理主任Michelle Mahon向IT Brew表示。Mahon还警告,AI开发者声称的“智能”功能正逐步取代医学判断。 前白宫科技政策办公室主任Alondra Nelson也对美联社表示,转录错误可能对患者造成“非常严重的后果”。她认为,AI在医疗领域的应用应设立更高的标准,以确保患者安全。
人工智能助手是否让程序员技能退化?
编程领域正在经历一场AI助手的浪潮,从Copilot到Cursor,再到Zed和Aider,AI助手已无处不在。现在的编程环境中,AI助手几乎成了标配,程序员很难在日常工作中完全避开这些工具。就个人经验而言,笔者尝试过几乎所有的AI助手,并将它们融入了工作流。作为一位拥有超过10年编程经验的程序员,对AI助手的普遍使用带来的影响深感兴趣,于是决定反思:AI助手真的会让自己变成一个更差的程序员吗? 当今需要的技能比过去少了吗? 上世纪90年代出生在巴西的人,对赛车手艾尔顿·塞纳(Ayrton Senna)或许不陌生。塞纳被认为是最具天赋的车手之一,对驾驶技术精益求精,他在1994年圣马力诺赛车场的一场事故中不幸去世。关于“老派车手和现代车手谁更优秀”的辩论从未停止过。很多人认为,过去的车手需要掌握更全面的技能,而今天的车手依赖于自动化技术,失去了手动操控的感觉。 类似地,在编程中,高级语言将很多复杂的内容进行了抽象,使得开发者不再需要掌握底层细节。现在,AI助手引入了一种新的交互模式:自然语言。对于编程来说,这种抽象到底是好是坏? 核心技能 vs. 工具知识 关于是否需要接受正式的计算机教育一直存在争议。在大学的学习帮助程序员理解了计算机的本质,掌握了编程的基本原理。而今天的快速培训课程和训练营则更注重具体工具的使用。相比之下,大学教育更注重培养核心技能,而训练营更侧重于快速上手和职业应用。 这种区别同样适用于编程的AI助手使用中。比如,笔者曾在2018年开始学习Gatsby,并投入大量时间掌握了它的插件和配置。后来Gatsby逐渐被Next.js等框架取代,这些投入的时间和精力在框架更替中变得不再有用。然而,对于服务器端渲染和静态站点生成的理解却保留下来,这些核心技能在技术变迁中依旧有用。AI助手可以协助程序员完成特定框架的实现细节,而不必担心失去对核心编程概念的掌握。 AI助手的积极作用 尽管AI助手可能会让人变得“依赖”,它们也有显著的优点。AI助手可以帮助程序员处理重复性任务,减少分心,保持专注。比如不记得某个TypeScript语法时,可以直接让AI助手给出提示;需要重构文件时,可以让助手分解代码,从而保留精力去完成更重要的设计任务。AI助手在IDE中的集成大幅减少了程序员在小问题上的分心,让他们专注于解决更复杂的抽象问题。 什么时候会出问题 当然,AI助手也可能带来负面影响,最典型的就是过度依赖。当程序员完全依赖AI助手来编写代码,一旦代码出现问题,就会陷入重复提示AI、修改代码的困境,反而浪费了时间。特别是当AI生成的代码质量低下时,程序员需要进行大量的“清理”工作,这很可能让最终完成的工作量比自己手写代码还要大。因此,使用AI助手时要有明确的判断,知道什么时候应该交给AI处理,什么时候应该自己动手。 知道什么时候问题已经解决 编程中,大部分工作不是在解决特别难的技术问题,而是在组织、分析需求、配置工具。掌握“什么时候交给AI助手”是关键。比如,当任务是添加一个简单的下拉菜单排序选项,AI助手可以帮助处理“实现细节”的部分。程序员则可以将注意力集中在核心逻辑上。通过这种方法,程序员可以释放大脑资源,用于更具挑战性的部分,而AI助手则负责“例行公事”。 结论 AI助手确实可能导致编程技能的退化,尤其是当过度依赖AI时。然而,AI助手作为工具,应该是一个实现目标的手段。程序员的最终目标是将现实世界的需求翻译成计算机可以理解的语言,AI助手可以协助实现这一过程,但人类的判断力和抽象能力依然是关键。适当地使用AI助手,可以让程序员将精力放在更具挑战性的任务上,提升总体效率,最终成为更高效的开发者。