aitrendtrackers@rengongzhineng.io, Author at AI TrendTrackers

OpenAI “Operator”的AI代理将首先以“研究预览”形式通过其开发者API推出

Posted on November 14, 2024November 14, 2024 by aitrendtrackers@rengongzhineng.io

继宣布其下一款重要模型Orion不会在今年发布后，内幕消息透露，OpenAI最早可能在明年1月推出一款可以自主控制电脑、完成任务的AI代理。 🔑 关键点：据内部人士透露，OpenAI已向员工透露，代号为“Operator”的AI代理将首先以“研究预览”形式通过其开发者API推出，供开发者反馈测试，随后再向公众发布。 OpenAI的CEO Sam Altman也证实，他认为“下一次重大突破将来自智能代理”，而首席产品官Kevin Weil表示，“2025年将是智能代理系统走向主流的一年。” 与此同时，Anthropic刚刚推出了名为“Computer Use”的自主AI代理，谷歌也宣布计划在12月推出其“上网助手”AI代理Jarvis，可以与用户共同浏览网页。 🤔 为什么值得关注：正如上周提到的，由于缺乏未开发的真实世界数据，AI改进速度正在放缓，迫使像OpenAI这样的科技公司寻找新的方法来训练和扩展新模型。单纯的小幅改进已经无法支撑高昂的成本，而价格的提升对于开发和维护这些昂贵的AI模型至关重要。AI代理的引入被寄予厚望，业界希望这一技术能像ChatGPT一样带来创新飞跃，从而让高额的开发成本物有所值。

Ilya Sutskever AI行业将进入一个新的“探索时代”

Posted on November 13, 2024November 13, 2024 by aitrendtrackers@rengongzhineng.io

OpenAI联合创始人伊利亚·苏茨凯弗（Ilya Sutskever）近日预言，随着大语言模型（LLM）的扩展遇到瓶颈，AI行业将进入一个新的“探索时代”。曾坚定支持“越大越好”理念的苏茨凯弗，如今表示，AI的核心不再是简单地扩大模型规模，而是要“扩大正确的部分”。有消息人士透露，包括OpenAI、Google、Anthropic在内的主要AI实验室均面临类似的困难：大型LLM的训练成本高达数千万美元，系统结构极其复杂，有时甚至需要数月时间才能验证模型是否符合预期。近期的信息显示，OpenAI的新模型Orion、Google的Gemini 2.0以及Anthropic的Opus 3.5均遭遇了技术障碍。苏茨凯弗直言：“2010年代是AI扩展的时代，现在则回归到探索和发现的阶段，大家都在寻找下一个突破。” 为应对当前的技术瓶颈，AI公司纷纷转向“推理计算”（test-time compute），让模型在执行任务时投入更多计算资源。与传统的快速给出答案不同，推理计算方法让AI在给出最终答案前，生成多个备选方案并逐一评估，以此获得更优解。这一新方法有望降低成本，并在保持高效的同时提升模型解决复杂问题的能力。这一变化或将打破Nvidia在AI硬件领域的垄断地位。过去，Nvidia的显卡在训练大型语言模型中占据主导地位，但推理计算的兴起为其他芯片制造商带来了新机遇，例如Groq等公司正专注于开发针对推理计算优化的芯片。随着AI实验室逐渐尝试新策略，AI行业正在从单纯扩展模型规模转向更具智能化的计算方法。这一转变不仅有望提高模型性能，还可能从根本上重塑人机交互的方式，引领AI进入新的发展阶段。

Anthropic的首席执行官达里奥·阿莫代（Dario Amodei）AGI可能会在2026至2027年间问世

Posted on November 13, 2024November 13, 2024 by aitrendtrackers@rengongzhineng.io

最近在一次由Lex Fridman主持的访谈中，Anthropic的首席执行官达里奥·阿莫代（Dario Amodei）谈到了人工通用智能（AGI）的快速发展。他预测，AGI可能会在2026至2027年间问世，而内部数据甚至显示这个时间点可能来得更早。不同于OpenAI追求“第一个达成”的目标，Anthropic更加关注安全性，尤其是在强大AI系统带来生存威胁的背景下。这些威胁包括AI被滥用于网络攻击或生物武器等灾难性事件，以及日益复杂的AI系统逐渐超出人类控制的风险。阿莫代还详细介绍了AI安全等级（ASL）的概念。当前行业处于ASL-2阶段，预计到2025年将进入ASL-3阶段——这是一个关键点，AI模型可能会显著增强恶意行为者的能力。 Anthropic的研发策略建立在AI类似生物系统进化的理解上，这种方式带来了诸多发现，例如大型语言模型中出现的“特朗普神经元”现象。随着技术进步的加速，预计AI模型在2025年将从“高中水平”进化到接近人类的能力。阿莫代强调，到2025年底出台有意义的AI监管措施将是关键，以有效降低相关风险。

DeepSeek AI发布JanusFlow：一个统一的图像理解与生成框架

Posted on November 13, 2024November 13, 2024 by aitrendtrackers@rengongzhineng.io

近年来，AI驱动的图像生成和理解技术发展迅猛，但实现无缝且统一的解决方案仍面临诸多挑战。目前，大部分擅长图像理解的模型在生成高质量图像方面表现不佳，反之亦然。为每项任务维护独立的模型架构不仅增加了复杂性，还降低了效率，使得同时需要图像理解和生成的任务难以高效完成。此外，许多现有模型依赖大量架构修改或预训练组件，以实现各自的功能，但这些方法常导致性能折中和集成困难。 DeepSeek AI新推出的JanusFlow是一个强大的AI框架，将图像理解和生成整合在一个单一模型中，旨在解决上述种种低效问题。JanusFlow通过创新的架构设计，将图像理解和生成任务无缝结合，减少架构复杂性，实现更协调的功能。它采用了自回归语言模型与先进的“整流流”（rectified flow）生成方法，设计了双编码器-解码器结构，分别处理理解和生成任务并在训练中对齐其表示，以确保统一的性能。技术细节 JanusFlow通过精简的设计将整流流和大型语言模型（LLM）相结合。其架构包括独立的视觉编码器，分别用于图像理解和生成任务。训练过程中，这些编码器被对齐以增强语义一致性，使系统在图像生成和视觉理解任务中表现出色。任务间的编码器解耦设计防止了任务干扰，从而增强了每个模块的独立能力。此外，模型采用无分类指导（Classifier-Free Guidance，CFG），在生成图像时提升文本条件的准确性，使生成图像质量更高。与传统统一系统依赖扩散模型或矢量量化技术不同，JanusFlow提供了更简单、直接的生成流程，限制更少、效率更高。在多个基准测试中，JanusFlow的表现媲美甚至超越许多专用模型。 JanusFlow的意义 JanusFlow的意义在于其高效性和多功能性，填补了多模态模型开发中的关键空白。JanusFlow通过消除单独的生成和理解模块，让研究人员和开发者可以使用一个框架完成多项任务，大幅降低了系统复杂性和资源需求。基准测试结果显示，JanusFlow在多个统一模型上超越了现有模型，在MMBench、SeedBench和GQA上分别达到了74.9、70.5和60.3的高分。在图像生成方面，JanusFlow超过了如SDv1.5和SDXL等模型，在MJHQ FID-30k上得分9.51，在GenEval上得分0.63。这些数据表明，JanusFlow在高质量图像生成和复杂多模态任务处理方面表现优异，且仅需1.3B参数。更重要的是，JanusFlow不依赖复杂的修改或庞大的架构，因此提供了一个更为便捷的通用AI解决方案。结论 JanusFlow是统一AI模型开发的一项重大进展，实现了图像理解和生成的双重功能。其“极简”设计通过整合自回归能力和整流流技术，不仅提升了性能，还简化了模型架构，使其更高效和易用。通过解耦视觉编码器并在训练中对齐表示，JanusFlow成功缩小了图像理解与生成的差距。随着AI研究不断推进模型的能力边界，JanusFlow代表了朝着更具通用性和多功能性的多模态AI系统迈出的重要一步。

5个非LLM软件趋势

Posted on November 13, 2024November 13, 2024 by aitrendtrackers@rengongzhineng.io

自从ChatGPT在2022年发布以来，LLM模型引领了科技潮流，让人觉得不可思议的是，这已经是将近两年前的事了！但就在这段时间内，还有许多其他软件工程的激动人心进展，可能因为LLM的风头太盛而未得到应有的关注。虽然LLM确实具备革命性，但如今在软件领域，其他令人兴奋的趋势也在悄然崛起。以下是一些非LLM的趋势和创新，且这些领域都充满了增长的潜力。 1. 本地优先软件（Local-First Software）本地优先软件（Local-first Software）已经存在几十年，但近年其开发体验和功能实现方面都有显著提升。所谓本地优先，就是优先在用户的本地设备上存储和处理数据，而非仅依赖云端服务。React-Query、PouchDB、InstantDB等开发库正帮助实现本地和云端的数据同步，让离线操作更加稳定、低延迟，并带来更出色的用户体验。特别是冲突解决方案的改进，比如无冲突的CRDT、操作转换OT，以及常用的“最新写入优先”等，让本地优先软件在保持数据一致性方面更具吸引力。通过这些方法，开发者能更轻松地处理设备与服务器端的同步问题，同时提升应用的灵活性。 2. WebAssembly（WASM） WebAssembly是一种二进制指令格式，能够让代码以接近本地设备的速度直接在浏览器中运行。WASM的出现让浏览器成为功能强大的计算平台，能够独立于服务器执行复杂任务，极大地扩展了前端的可能性。 SQLite数据库在浏览器中的使用是WASM的一个成功应用。通过WASM运行的SQLite，提供了更强大的本地数据存储能力，适合离线功能和数据缓存需求。不仅如此，WebAssembly还提升了代码缓存，使应用加载速度更快，这对开发者来说无疑是巨大的优势。甚至，部分AI模型也能直接在浏览器端运行，比如TensorFlow.js就是一个很好的例子，这为隐私保护和边缘计算提供了更多可能。 3. SQLite的“复兴” 提到数据库，开发者通常会选择MySQL、PostgreSQL（关系型）或MongoDB（NoSQL）。然而，SQLite近年来重新受到关注，且在某些情况下甚至可以作为主力数据库来使用。SQLite的好处是：零延迟、简化的设置、易于多实例复制，并且能处理更大规模的数据库。其开发和测试的便捷性让它非常适合本地存储，尤其是在WASM加持下更是如虎添翼。 Notion就是SQLite的成功案例之一，他们在桌面版应用中使用SQLite进行缓存，加速了页面加载速度，而在Web端用WASM结合SQLite后，进一步减少了页面导航延迟20%。这个趋势在很多开发者间引发了讨论，越来越多本地优先的应用开始选择SQLite作为默认的存储方案。 4. 跨平台技术的进步跨平台技术在性能、开发体验、可用性等方面取得了显著进展，尤其是React Native和Flutter表现尤为突出。例如，Shopify最近将整个移动应用迁移到React Native平台，达成了86%的代码复用率，并提升了屏幕加载和应用启动的速度。这一举措展示了跨平台的巨大潜力，特别是在提升开发效率和保持性能优化的平衡方面。然而，纯跨平台方案并不意味着放弃本地开发。实践经验表明，高质量的应用开发仍需依赖本地代码，以确保最佳的用户体验和性能优化。React Native在不断更新的架构和性能优化上走得很远，而Flutter则继续在UI体验和多平台支持上取得新突破。 5. 自动化推理（Automated Reasoning）自动化推理利用逻辑和数学证明来确保系统行为符合预期。这种方法不同于传统测试，它能验证系统在所有可能情境下的正确性。AWS在其基础架构中广泛应用了自动化推理，通过形式化验证规避了许多潜在问题。比如，他们为IAM建立了正式的规范模型，优化了每秒12亿请求的代码处理速度，提高了50%的性能。自动化推理的最大优势在于可以提前发现潜在漏洞，尤其是在安全性和可靠性要求高的系统中，形式验证为系统提供了比传统测试更深入的验证方式。在未来，这些非LLM的技术趋势或许会得到更多关注，也将为软件开发带来更多可能性。各项创新正在快速推进，软件工程师们将能利用这些新工具来进一步提升应用的性能和用户体验。

亚马逊正准备推出其最新的人工智能芯片

Posted on November 13, 2024November 13, 2024 by aitrendtrackers@rengongzhineng.io

亚马逊正准备推出其最新的人工智能芯片，以实现其在半导体领域数十亿美元的投资回报，同时减少对市场领导者英伟达的依赖。亚马逊云计算部门的高管们正大力投入定制芯片，旨在提高其众多数据中心的效率，从而降低亚马逊及其云服务客户的成本。负责这项工作的主要是安纳普尔纳实验室（Annapurna Labs），这家位于奥斯汀的芯片初创公司于2015年初被亚马逊以3.5亿美元收购。下月，亚马逊将推出最新的“Trainium 2”芯片，这款专为训练大型人工智能模型设计的芯片预计会被广泛应用。目前，Trainium 2已在亚马逊支持的竞争公司Anthropic，以及Databricks、德国电信、日本理光和Stockmark等公司中进行测试。亚马逊网络服务（AWS）和Annapurna的目标是挑战英伟达的地位，后者因在人工智能处理器市场上的统治地位，成为了全球最有价值的公司之一。AWS的计算和网络服务副总裁戴夫·布朗表示，他们希望成为运行英伟达技术的最佳平台，但同时认为市场上有替代选择是健康的。亚马逊还提到，其另一款AI芯片系列Inferentia在生成AI模型响应方面，运行成本已低于英伟达，节省了40%。由于机器学习和人工智能的计算需求巨大，布朗解释道，云计算成本尤其在这些领域容易增加，节省40%的费用在小额预算中影响不大，但对数千万美元的支出则有显著意义。亚马逊预计2024年在资本支出上将达到约750亿美元，主要用于技术基础设施，而在最近的财报电话会议上，首席执行官安迪·贾西透露，这一支出可能在2025年进一步增加。2023年，亚马逊在全年支出方面为484亿美元，与之相比，这一增长尤为显著。微软和谷歌等主要云计算供应商也在加大AI领域的投入，显现出持续不断的技术竞争态势。亚马逊、微软和Meta都是英伟达的重要客户，但同时也在设计各自的数据中心芯片，以打造未来AI增长的基础。据The Futurum Group的丹尼尔·纽曼分析，目前几乎所有主要云服务供应商都在积极构建更加垂直整合的芯片技术栈，降低生产成本、提高利润率、增强可控性等因素成为主流需求。 Annapurna的工程总监拉米·辛诺指出，亚马逊的AI基础设施是从芯片的生产到安装服务器机架的全流程一体化设计，以自有软件和架构为支撑。“达到我们这种规模的难度很大，能够做到的公司屈指可数。” 安纳普尔纳起初为AWS打造了一款名为Nitro的安全芯片，随后开发了多代Graviton系列，这种基于Arm架构的CPU提供了比传统服务器芯片更低功耗的选择。TechInsights分析师G·丹·赫奇森指出，AWS的芯片有助于降低功耗，提高数据中心效率，从而降低运营成本。如果将英伟达的GPU比作通用型的多功能车，那么亚马逊的芯片则更像是为特定任务优化的小型轿车。不过，目前AWS和Annapurna在AI基础设施市场上对英伟达的影响仍然有限。英伟达在2024财年第二季度的AI数据中心芯片销售收入达263亿美元，这一数字与亚马逊AWS部门的总收入持平，而AWS客户中用于AI的部分还只占较小比例。在芯片性能上，AWS避免直接与英伟达进行对比，也未提交独立的性能测试报告。芯片咨询公司Moor Insights & Strategy的专家帕特里克·穆尔黑德认为，亚马逊在Trainium 1和Trainium 2之间实现了4倍性能提升，但相较于性能数字，客户能够有更多选择可能更加重要。

超过40家医疗系统正在使用AI转录工具

Posted on November 12, 2024November 12, 2024 by aitrendtrackers@rengongzhineng.io

超过40家医疗系统正在使用OpenAI开发的转录工具，而该工具因被指存在错误风险而备受争议。美国各地数万名临床医生目前依赖这个名为Whisper的AI转录工具来自动转录记录，然而专家警告称其可靠性令人担忧。据美联社报道，Whisper在高风险领域的应用存在潜在风险，OpenAI也在其指南中提醒，使用时应“谨慎”。尽管如此，Whisper在医疗行业的普及并未放缓。美联社调查发现，美国约40家医疗系统中的3万名医生通过由Nabla公司提供的工具转录记录，而该工具正是基于Whisper模型构建的。多位软件工程师、开发者及学术研究人员透露，Whisper在处理“良好录制的短音频样本”时也会频繁出错。例如，一位来自密歇根大学的研究人员发现，在镇民会议录音的转录中，Whisper生成的“幻觉”内容（即AI模型生成的错误或虚假信息）频率高达80%。其他专家也报告了类似的错误率。一位机器学习工程师表示，在100小时音频转录中发现了大约一半的错误，另一位工程师在分析了26,000份Whisper转录文件后发现几乎普遍存在错误。随着AI技术的普及，许多医院管理者为降低成本，正将AI工具应用于各种医疗流程，但监管覆盖的力度有限。部分AI工具是为特定需求而定制的，但Whisper的广泛应用表明医疗界对现成的商业产品兴趣浓厚。全美护士联合会（NNU）及其附属机构警告，这种未受监管的AI应用可能对患者构成风险。 NNU的一项调查显示，在采用AI自动转接流程的医院中，48%的护士认为AI生成的医疗报告经常与他们的专业评估不一致，或缺少关键信息。约四成护士表示，他们无法忽略AI生成的报告或修改错误诊断。“最令人担忧的是，AI被用来重新设计护理流程，从而削弱了医疗决策者的技能，”NNU护理实践助理主任Michelle Mahon向IT Brew表示。Mahon还警告，AI开发者声称的“智能”功能正逐步取代医学判断。前白宫科技政策办公室主任Alondra Nelson也对美联社表示，转录错误可能对患者造成“非常严重的后果”。她认为，AI在医疗领域的应用应设立更高的标准，以确保患者安全。

人工智能助手是否让程序员技能退化？

Posted on November 12, 2024November 12, 2024 by aitrendtrackers@rengongzhineng.io

编程领域正在经历一场AI助手的浪潮，从Copilot到Cursor，再到Zed和Aider，AI助手已无处不在。现在的编程环境中，AI助手几乎成了标配，程序员很难在日常工作中完全避开这些工具。就个人经验而言，笔者尝试过几乎所有的AI助手，并将它们融入了工作流。作为一位拥有超过10年编程经验的程序员，对AI助手的普遍使用带来的影响深感兴趣，于是决定反思：AI助手真的会让自己变成一个更差的程序员吗？当今需要的技能比过去少了吗？上世纪90年代出生在巴西的人，对赛车手艾尔顿·塞纳（Ayrton Senna）或许不陌生。塞纳被认为是最具天赋的车手之一，对驾驶技术精益求精，他在1994年圣马力诺赛车场的一场事故中不幸去世。关于“老派车手和现代车手谁更优秀”的辩论从未停止过。很多人认为，过去的车手需要掌握更全面的技能，而今天的车手依赖于自动化技术，失去了手动操控的感觉。类似地，在编程中，高级语言将很多复杂的内容进行了抽象，使得开发者不再需要掌握底层细节。现在，AI助手引入了一种新的交互模式：自然语言。对于编程来说，这种抽象到底是好是坏？核心技能 vs. 工具知识关于是否需要接受正式的计算机教育一直存在争议。在大学的学习帮助程序员理解了计算机的本质，掌握了编程的基本原理。而今天的快速培训课程和训练营则更注重具体工具的使用。相比之下，大学教育更注重培养核心技能，而训练营更侧重于快速上手和职业应用。这种区别同样适用于编程的AI助手使用中。比如，笔者曾在2018年开始学习Gatsby，并投入大量时间掌握了它的插件和配置。后来Gatsby逐渐被Next.js等框架取代，这些投入的时间和精力在框架更替中变得不再有用。然而，对于服务器端渲染和静态站点生成的理解却保留下来，这些核心技能在技术变迁中依旧有用。AI助手可以协助程序员完成特定框架的实现细节，而不必担心失去对核心编程概念的掌握。 AI助手的积极作用尽管AI助手可能会让人变得“依赖”，它们也有显著的优点。AI助手可以帮助程序员处理重复性任务，减少分心，保持专注。比如不记得某个TypeScript语法时，可以直接让AI助手给出提示；需要重构文件时，可以让助手分解代码，从而保留精力去完成更重要的设计任务。AI助手在IDE中的集成大幅减少了程序员在小问题上的分心，让他们专注于解决更复杂的抽象问题。什么时候会出问题当然，AI助手也可能带来负面影响，最典型的就是过度依赖。当程序员完全依赖AI助手来编写代码，一旦代码出现问题，就会陷入重复提示AI、修改代码的困境，反而浪费了时间。特别是当AI生成的代码质量低下时，程序员需要进行大量的“清理”工作，这很可能让最终完成的工作量比自己手写代码还要大。因此，使用AI助手时要有明确的判断，知道什么时候应该交给AI处理，什么时候应该自己动手。知道什么时候问题已经解决编程中，大部分工作不是在解决特别难的技术问题，而是在组织、分析需求、配置工具。掌握“什么时候交给AI助手”是关键。比如，当任务是添加一个简单的下拉菜单排序选项，AI助手可以帮助处理“实现细节”的部分。程序员则可以将注意力集中在核心逻辑上。通过这种方法，程序员可以释放大脑资源，用于更具挑战性的部分，而AI助手则负责“例行公事”。结论 AI助手确实可能导致编程技能的退化，尤其是当过度依赖AI时。然而，AI助手作为工具，应该是一个实现目标的手段。程序员的最终目标是将现实世界的需求翻译成计算机可以理解的语言，AI助手可以协助实现这一过程，但人类的判断力和抽象能力依然是关键。适当地使用AI助手，可以让程序员将精力放在更具挑战性的任务上，提升总体效率，最终成为更高效的开发者。

AI蛋白质结构预测工具AlphaFold3现已开源

Posted on November 12, 2024November 12, 2024 by aitrendtrackers@rengongzhineng.io

AI蛋白质结构预测工具AlphaFold3现已开源。11月11日，伦敦的谷歌DeepMind公司宣布，这款诺贝尔奖获奖模型的代码现可供学术界下载用于非商业用途。这一决定是在DeepMind因未公开代码而备受批评后做出的，许多科学家认为这阻碍了科学复现。DeepMind团队在6个月后最终兑现承诺，将AlphaFold3的代码向学术界开放。 AlphaFold3与之前版本的不同之处在于，它不仅能预测单个蛋白质的结构，还可以模拟蛋白质与其他分子（例如DNA）的相互作用。然而，在此前仅提供的网络服务器版本中，科学家无法通过AlphaFold3预测蛋白质在潜在药物中的行为。现在，研究人员可以通过自己运行模型来实现这些交互预测，大大推动了药物研发。当初，DeepMind只通过网络服务器提供AlphaFold3，意在平衡研究开放性与商业利益保护。其衍生公司Isomorphic Labs专注于将AlphaFold3用于药物发现。然而，限制访问模型代码和权重的决定引发了科学界的不满。如今，尽管代码已经开源，但权重文件仅向学术科研人员开放，且需单独申请。值得注意的是，DeepMind并不是唯一一家发布蛋白质结构预测工具的公司。过去几个月，百度、字节跳动以及加州旧金山的初创公司Chai Discovery等公司也相继发布了基于AlphaFold3原理的预测模型。尽管这些模型不允许用于商业应用，但Chai Discovery的模型Chai-1可以通过网络服务器提供预测服务。同时，旧金山的Ligo Biosciences推出了不受限制的AlphaFold3版本，但功能尚不完整，尚不支持对药物等非蛋白质分子进行模拟。计算生物学家AlQuraishi表示，他的团队也在开发完全开源的版本OpenFold3，预计年内发布，这将为药企提供自由调整模型、并用专有数据进行再训练的可能性。对开放性的关注也反映了生物AI模型发布方式的多样化趋势。威斯康星大学麦迪逊分校的计算生物学家Anthony Gitter指出，科研公司若在期刊和预印本中分享成果，应确保信息的透明性，否则难以获得学术界的信任。实际上，AlphaFold3的高复现性使得多个团队在不依赖源代码的情况下已实现类似模型。DeepMind科学AI负责人Pushmeet Kohli指出，这一现象显示了模型本身的可复现性，但他也期待学术界和企业研究人员间关于出版规范的更深入讨论。 AlphaFold2的开源推动了大量创新，最近一场蛋白质设计竞赛中，获胜团队便利用其设计出了一种能结合癌症靶点的新蛋白质。AlphaFold3开源后，项目负责人Jumper表示期待更多意外的创新，尽管其中不乏失败的可能。他认为这种多样化的探索方式能带来更丰富的科研成果。

亚马逊正在开发专为送货司机设计的智能眼镜

Posted on November 12, 2024November 12, 2024 by aitrendtrackers@rengongzhineng.io

据路透社报道，亚马逊正在开发专为送货司机设计的智能眼镜，旨在提供逐步导航功能，从而缩短每次投递的时间。据称，该项目名为“Amelia”，是亚马逊提升“最后100码”送货效率的一部分。这个智能眼镜基于现有的Echo Frames平台，但不同的是，它不仅仅是音频输出，还将内嵌显示屏，为司机提供更精准的导航，比如在下电梯后提醒向左或向右转。除此之外，亚马逊还在研究添加摄像头的可能性，使司机能够拍下包裹照片作为交付证明。这样一来，司机在送货过程中完全解放双手，携带更多包裹成为可能，而这些节省的时间则能进一步提高配送量。当然，实现这项技术可能还需要一段时间。将显示屏加入普通眼镜或音频型智能眼镜（如当前的Echo Frames）是一项不小的工程挑战，许多公司在这一点上都遇到过失败。报道指出，亚马逊目前面临的困难之一是如何在保证眼镜轻便的前提下，让电池支撑8小时的完整工作时长。此外，许多人已经佩戴矫正镜片，而智能眼镜难以适配各种处方度数，这也是消费级产品面临的普遍问题。亚马逊还需要说服其庞大的司机团队使用这项技术，其中许多司机还是第三方合同工。另外，为了实现精确的导航，亚马逊也需要大量数据支持，如建筑布局、人行道、街道等信息，这可能需要数年时间才能完成数据积累。亚马逊进军企业市场的想法并不出人意料。路透社的消息人士还透露，上代Echo Frames的销量不到1万副，远不及同期推出的Ray-Ban Meta眼镜。智能眼镜和AR头显产品从消费市场转向企业市场的策略早已成为趋势，包括谷歌眼镜、Magic Leap和微软的HoloLens。此外，亚马逊未来是将这项技术仅用于自家配送网络，还是开放给第三方企业仍不明朗。不过，报道指出，亚马逊计划为未来的Echo Frames增加显示屏，这一消费级产品最早可能在2026年第二季度亮相。

Subscribe 订阅