aitrendtrackers@rengongzhineng.io, Author at AI TrendTrackers

Adobe Premiere Pro 正在引入生成式 AI 视频工具——希望包括 OpenAI 的 Sora 在内

Posted on April 16, 2024April 16, 2024 by aitrendtrackers@rengongzhineng.io

Adobe 正在为其 Firefly 系列开发一款生成式 AI 视频模型，将为其 Premiere Pro 视频编辑平台带来新工具。这些全新的 Firefly 工具，加上与 Runway、Pika Labs 和 OpenAI 的 Sora 模型的一些拟议的第三方集成，将使 Premiere Pro 用户能够使用文本提示生成视频以及添加或移除对象（就像 Photoshop 的生成填充功能一样），并延长视频剪辑的长度。与 Adobe 以往关于 Firefly 的许多公告不同的是，这次公司新的视频生成工具没有设定发布日期——无论是测试版还是其他版本，只是表示这些工具将在“今年”推出。尽管这家创意软件巨头展示了其自家视频模型在早期视频演示中的能力，但它计划将 Premiere Pro 与其他提供商的 AI 模型集成还不是板上钉钉的事。 Adobe 在其新 Firefly 生成式 AI 视频模型的视频演示中截取的屏幕快照显示，在通过 Adobe 自家生成式 AI 视频模型移除一个对象后，图像出现了明显的涂抹现象。在视频预览中，Adobe 将第三方 AI 集成称为对未来可能面貌的“早期探索”。其理念是为 Premiere Pro 用户提供更多选择，根据 Adobe 的说法，允许他们使用像 Pika 这样的模型来延长镜头，或在生成 B…

亚马逊的“随取随走”技术背后，隐藏着一个小“八卦”：成群的印度员工正通过屏幕，密切关注你的购物每一动作。

Posted on April 15, 2024April 15, 2024 by aitrendtrackers@rengongzhineng.io

亚马逊的“随取随走”技术背后其实有一个不为人知的小秘密：大约1000名坐在印度的员工在默默地审查你在店内拿起、放下的每一件商品。这项技术原本被吹嘘为完全由计算机视觉驱动的购物革命，旨在让顾客无需经过传统的结账流程。然而，《信息》周二的报道揭示，这项技术实际上还极度依赖人力。报道中引用了一位匿名的参与“随取随走”技术开发的人士的话说，2022年，每1000笔“随取随走”的销售中，大约有700笔需要印度团队的人工审核。亚马逊内部其实希望这一数字能降至50笔。亚马逊发言人对此进行了回应，他们表示，印度团队的主要工作是帮助训练公司用于“随取随走”的模型。发言人还提到：“在我们的计算机视觉技术无法完全确定某人购买的商品时，同事们也会对少数购物行为进行验证。” 此外，亚马逊计划在Amazon Fresh商店中用智能购物车Dash Carts替换“随取随走”技术。智能购物车也能让顾客避免排队结账，不过顾客需要将商品放入购物车，购物车会记录他们的选择并直接从账户扣款。发言人提到，顾客在使用“随取随走”服务的同时，也表达了希望能更方便地找到附近的商品和优惠，随时查看购物小票，以及在商店内购物时了解节省了多少钱——所有这些需求，都能通过Dash Carts得到满足。从最初只在Amazon Go便利店推出起，“随取随走”技术已经扩展到更大的商店。目前，44家Amazon Fresh商店中有27家安装了这项技术，亚马逊还将其引入了一些Whole Foods商店。同时，包括Aldi和Dollar General在内的零售商也开始测试由初创公司开发的类似“随取随走”的技术。

在处理了五亿个GPT令牌后的教训

Posted on April 15, 2024April 15, 2024 by aitrendtrackers@rengongzhineng.io

我想分享一些在处理超过5亿个令牌后得出的“令人惊讶”的教训。首先给出一些细节：教训1：在提示方面，少即是多我们一直发现，如果某件事已经是常识，那么在提示中不列出确切的列表或指示会产生更好的结果。GPT并不愚蠢，实际上如果你过度具体化，它反而会感到困惑。这与编码基本不同，在编码中一切都必须明确。这里有一个我们遇到问题的例子：我们的一个流程部分是读取一些文本块，并要求GPT将其分类为美国的50个州之一或联邦政府。这并不是一个困难的任务——我们可能本可以使用字符串/正则表达式，但有足够的奇怪的边角情况使得这会花费更长时间。所以我们的第一次尝试大约是这样的：这里有一个文本块。一个字段应该是”locality_id”，它应该是50个州之一或联邦的ID，使用这个列表：[{“locality”: “Alabama”, “locality_id”: 1}, {“locality”: “Alaska”, “locality_id”: 2} … ]这种方法有时有效（我估计超过98%的时间），但失败的次数足够多，我们不得不进一步深入调查。在我们调查时，我们注意到另一个字段，name，一直在返回该州的全名……正确的州——尽管我们没有明确要求它这样做。因此，我们改为在name上进行简单的字符串搜索以找到该州，自此以后它一直运行得很好。我认为总的来说，更好的方法应该是“你显然知道这50个州，GPT，所以只需给我这个州的全名，或者如果这关系到美国政府就给我’Federal’。” 为什么这很疯狂？好吧，当你更模糊时，GPT的质量和泛化能力能够提高，这是高阶委派/思考的典型标志。教训2：你不需要langchain。你可能甚至不需要OpenAI在过去一年中发布的API中的任何其他东西。只需要聊天API。这就是全部。Langchain是过早抽象的完美例子。我们最初认为我们必须使用它，因为网络上是这么说的。然而，数百万令牌和大约3-4个非常多样化的LLM功能后，我们的openai_service文件仍然只有一个40行的函数： def extract_json(prompt, variable_length_input, number_retries)我们使用的唯一API是聊天。我们总是提取json。我们不需要JSON模式，也不需要函数调用或助手（尽管我们确实做了所有这些）。天哪，我们甚至不使用系统提示（也许我们应该……）。当gpt-4-turbo发布时，我们在代码库中更新了一个字符串。这是一个强大的泛化模型的美丽之处——少即是多。该函数中的大部分40行都是围绕OpenAI API常规的500s/socket关闭的错误处理（尽管情况已经改善，鉴于他们的负载，这并不令人惊讶）。我们构建了一些自动截断，所以我们不必担心上下文长度限制。我们有我自己的专有令牌长度估计器。这里是：在有许多句点或数字的角落案例中，它失败了（这些的令牌比率< 3个字符/令牌）。所以还有另一种非常专有的try/catch重试逻辑：我们使用这种方法取得了相当大的进展，而且它足够灵活以满足我们的需求。教训3：使用流API改善延迟并向用户显示变速“打字”字符，实际上是ChatGPT的一大UX创新。我们以为这是个噱头，但用户对变速“打字”字符的反应非常积极——这感觉像是AI的鼠标/光标UX时刻。教训4：GPT在生成空假设方面真的很糟糕 “如果你什么也没找到，就返回一个空输出”——这可能是我们遇到的最容易出错的提示语言。GPT不仅经常选择幻觉而不是什么也不返回，而且它还经常缺乏自信，返回空白的频率比应有的要高。我们的大多数提示都是这种形式： “这里有一块关于一家公司的声明文本，我希望你输出提取这些公司的JSON。如果没有相关内容，请返回一个空白。这是文本：[文本块]” 有一段时间，我们遇到了一个错误，其中[block of text]可能是空的。幻觉很糟糕。顺便说一下，GPT喜欢幻觉烘焙店，这里有一些很棒的：阳光面包店金谷面包店幸福面包店幸运的是，解决方案是修复错误，如果没有文本就不发送提示（嗯！）。但当“它是空的”很难以编程方式定义时，情况就更困难了，你实际上确实需要GPT发表意见。教训5：“上下文窗口”是个用词不当——它们只是在输入上变大，而不是输出鲜为人知的事实：GPT-4可能有一个128k令牌的输入窗口，但它的输出窗口仍然是可怜的4k！称它为“上下文窗口”令人困惑。但问题还更糟——我们经常要求GPT给我们返回一个JSON对象列表。没什么复杂的：想想吧，一个json任务数组列表，其中每个任务都有一个名称和一个标签。 GPT实际上不能返回超过10个项目。试图让它给你返回15个项目？也许它做到了15%的时间。我们最初以为这是因为4k上下文窗口的问题，但我们到达10个项目时，它只会是大约700-800个令牌，GPT就会停下来。现在，你当然可以通过给它一个提示来交换输出输入，要求一个任务，然后给它（提示+任务），要求下一个任务等等。但现在你在和GPT玩电话游戏，还得处理像Langchain这样的东西。教训6：向量数据库和RAG/嵌入对我们这些普通人来说基本无用我真的尝试过。但每次我以为我找到了RAG / embeddings的杀手级用例时，我都感到困惑。我认为向量数据库/RAG真的只适合搜索。而且只是搜索。不是像“哦——检索块有点像搜索，所以它会工作！”那样的搜索，而是真正的谷歌和必应搜索。这里有一些原因：没有相关性的截止点。市场上有一些解决方案，你可以为相关性创建自己的截止启发式，但它们将是不可靠的。这实际上在我看来杀死了RAG——你总是冒着检索到不相关结果的风险，或者过于保守，你错过重要的结果。为什么要把你的向量放在一个专门的、专有的数据库中，远离你所有的其他数据？除非你是在谷歌/必应的规模上交易，否则这种失去上下文的交易绝对不值得。除非你在进行非常开放的搜索，比如说——整个互联网——用户通常不喜欢语义搜索返回他们没有直接输入的东西。对于大多数商业应用程序中的搜索，你的用户是领域专家——他们不需要你猜测他们可能的意思——他们会告诉你！在我看来（这是未经测试的），对于大多数搜索案例，LLMS的更好用途是使用普通的完成提示将用户的搜索转换为分面搜索，甚至更复杂的查询（或者，甚至是SQL！）。但这根本不是RAG。教训7：基本上不会发生幻觉。我们的每个用例都基本上是“这里有一堆完整的详细信息，分析/总结/提取”——它非常可靠。我认为你可以看到很多最近的产品发布都强调了这种确切的用例。因此，这一切都是关于好的数据输入，好的GPT令牌响应输出。…

全设备运行：苹果iOS 18 AI新功能盘点，独立于云计算的未来展望

Posted on April 15, 2024April 15, 2024 by aitrendtrackers@rengongzhineng.io

苹果即将在iOS 18中推出的全新AI功能堪称革命性——这一切都在设备上运行，绝不依赖云端服务器。《彭博社》的马克·古尔曼在他的Power On新闻通讯中爆料说，等到6月10号的大揭幕，我们就能见到这些前所未有的本地化功能了。他说，这意味着苹果用于驱动新功能的大型语言模型不会处理任何云端数据。尽管如此，苹果可能还是会提供一些基于云的AI服务，可能采用谷歌的Gemini或其他服务提供商的技术。据古尔曼所说，苹果已经与谷歌、OpenAI还有中国的百度进行了初步接触，探讨未来可能的生成式AI合作。不过，iOS 18可能还不会集成苹果自己的类ChatGPT聊天机器人，是否会融入Gemini或其他聊天机器人还是一个未知数。未来，苹果有可能推出自家的基于云的生成式AI功能，因为供应链分析师如明基科技的郭明錤和Jeff Pu都表示，苹果正在积极购买AI服务器。 iOS 18据说将引入一系列刷新的生成式AI功能，覆盖iPhone上的Spotlight搜索、Siri、Safari浏览器、Shortcuts快捷操作、Apple Music、信息、健康、Numbers、Pages文档、Keynote演示等应用。古尔曼此前报导，这些生成式AI将极大提升Siri解答复杂问题的能力，并能让信息App自动完成句子。苹果预计将在每年一度的开发者大会WWDC上揭晓iOS 18和其他软件更新，该会议将从6月10日持续到6月14日。这次更新，绝对是为了让你的iPhone变得更聪明，更能懂你！

Grok-1.5 Vision 预览将数字世界与物理世界连接起来，首款多模态模型

Posted on April 15, 2024April 15, 2024 by aitrendtrackers@rengongzhineng.io

我们很高兴介绍Grok-1.5V，这是我们的首款多模态模型。除了强大的文本处理能力外，Grok现在还能处理各种视觉信息，包括文档、图表、图示、截图和照片。Grok-1.5V即将向早期测试者和现有的Grok用户开放。能力介绍Grok-1.5V在多个领域与现有的前沿多模态模型相媲美，这些领域包括跨学科推理、理解文档、科学图表、图表、截图和照片等。我们对Grok在理解我们的物理世界方面的能力感到特别兴奋。在我们新的RealWorldQA基准测试中，Grok在真实世界空间理解方面表现优于同类，该基准测试衡量真实世界的空间理解能力。在所有数据集中，我们都在零样本设置中评估Grok，不使用思维链提示。基准对比真实世界理解为了开发有用的真实世界AI助手，推进模型对物理世界的理解至关重要。为此，我们引入了一个新的基准测试RealWorldQA。这个基准旨在评估多模态模型的基本真实世界空间理解能力。虽然当前基准中的许多例子对人类来说相对容易，但它们常常对前沿模型构成挑战。根据流程图生成代码未来展望推进我们的多模态理解和生成能力是构建能够理解宇宙的有益AGI的重要步骤。在未来几个月，我们预计将在图像、音频和视频等各种模式上，显著提高这些能力。

苹果研究人员推出“pfl-research”：一个快速、模块化且易于使用的Python框架，用于模拟联邦学习

Posted on April 14, 2024April 14, 2024 by aitrendtrackers@rengongzhineng.io

在不断变化的人工智能领域，一种革命性的概念——联邦学习（Federated Learning，FL）引起了广泛关注。这种尖端技术允许在不同设备和位置上合作训练机器学习模型，同时确保个人数据远离窥探目光安全存储。这既利用了数据优化模型，又兼顾了隐私保护，可谓是两全其美。尽管联邦学习令人兴奋，但在这一领域进行研究对数据科学家和机器学习工程师来说是一个真正的挑战。模拟现实的、大规模的FL场景一直是一个持续的难题，现有工具在速度和可扩展性上难以满足现代研究的需求。本文介绍了一个名为pfl-research的突破性Python框架，旨在为您的私有联邦学习（PFL）研究工作提供强大动力。这个框架快速、模块化且用户友好，使研究人员能够迅速迭代和探索新思想，而不会被计算限制所困扰。 pfl-research的一个突出特点是其多功能性。它就像一个会说TensorFlow、PyTorch甚至是传统非神经网络模型多种语言的研究助理。而且，pfl-research与最新的隐私算法兼容良好，确保在你推动可能性的边界时，你的数据安全如虫。但真正让pfl-research与众不同的是其积木式的方法。它就像是研究人员的高科技乐高套装，包含了数据集、模型、算法、聚合器、后端、后处理器等模块化组件，你可以自由组合，创建出符合你特定需求的仿真。无论是想在大型图像数据集上测试新的联邦平均算法，还是需要在分布式文本模型上试验不同的隐私保护技术，pfl-research都能满足你的需求。现在，事情变得更加激动人心。在与其他FL模拟器的测试中，pfl-research的仿真速度最高可达竞争对手的72倍。有了pfl-research，你可以在庞大的数据集上运行实验，而不会流一滴汗或牺牲研究质量。但pfl-research团队并没有因此自满。他们有宏伟的计划继续改进这一工具，比如不断添加对新算法、数据集和跨库仿真（想象一下跨多个组织或机构的联邦学习）的支持。他们还在探索尖端的仿真架构，以推动可扩展性和多功能性的界限，确保pfl-research在联邦学习领域持续发展中保持领先。想象一下pfl-research为你的研究开启的可能性。你可能会是第一个破解隐私保护自然语言处理代码的人，或者开发出针对个性化健康应用的开创性联邦学习方法。在不断进化的人工智能研究世界中，联邦学习是一场游戏规则的改变者，而pfl-research是你的终极助手。它快速、灵活、用户友好，是任何希望在这一激动人心的领域中开辟新天地的研究者的梦想组合。

Google推新芯片，挑战Nvidia、Microsoft和亚马逊的霸主地位

Posted on April 13, 2024April 13, 2024 by aitrendtrackers@rengongzhineng.io

Google宣布其新一代AI芯片——Cloud TPU v5p现已对开发者开放，这是对Nvidia流行AI芯片的少数替代品之一，并且对Microsoft和Amazon也发起了挑战。这款新的张量处理单元（TPU）首次在去年12月与其聊天机器人Gemini同时公布。据公司称，新TPU的训练速度几乎是前代Google TPU v4的三倍。大型语言模型（LLMs）是支持像ChatGPT这样的AI聊天机器人的技术基础。 Google CEO Sundar Pichai在周二拉斯维加斯举行的年度Google Cloud Next大会上说：“现在已经发展到第五代，这些进步帮助客户训练并运行前沿的语言模型。”Google的这一宣布标志着大型科技公司人工智能军备竞赛中的又一里程碑。Nvidia是众所周知的AI芯片——图形处理单元（GPU）的主要供应商。而Google的母公司Alphabet是Nvidia的最大客户之一，仅次于Microsoft和Facebook的母公司Meta。Pichai表示：“[Google的]这些投资使我们站在了AI平台转变的最前沿。”Google的竞争对手Microsoft、Amazon和Meta也都开发了自己的AI芯片。尽管如此，很明显Nvidia对Google依然至关重要。在宣布最新AI芯片的同一篇博客文章中，Google提到了Nvidia 20次。在详述TPU v5p的同时，该公司表示正在更新其A3超级计算机，该计算机使用Nvidia GPU运行。Google还提醒客户，它正在使用Nvidia的最新芯片——Blackwell，在其AI Hypercomputer中。在讨论Google的新AI芯片后，Google Cloud CEO Thomas Kurian进行了一场更加耀眼的展示，介绍了基于Arm的新中央处理单元——Google Axion。在主题演讲中，Kurian手持Axion芯片走上舞台，展示该芯片并赢得掌声。Google Axion是对Microsoft和Amazon已经制造的基于Arm的计算芯片的新竞争者。英国科技公司Arm授权其芯片基础设计给实际的芯片制造商以供构建。Google发布Axion标志着该公司首次使用Arm的芯片基础架构来制造CPU。Google表示，Axion的性能“比目前云中可用的最快通用Arm基础实例高出30%”，并且“性能提升高达50%，能效提高高达60%”。Google客户可以在其云服务上使用Axion，这基本上意味着这些用户将选择在Google的实体数据中心中使用更高效的计算处理器运行其云服务。Google还告诉路透社，“在任何地方使用Arm的客户都可以轻松采用Axion，无需重新架构或重写应用程序。”

Mistral AI突围：开源大模型Mixtral 8x22B颠覆行业格局

Posted on April 13, 2024April 13, 2024 by aitrendtrackers@rengongzhineng.io

巴黎的小伙伴Mistral AI不甘寂寞，冲出重围，推出了全新的大型语言模型Mixtral 8x22B，一举成为人工智能界的新宠儿。这不仅仅是因为它的震撼登场，更因为Mistral承诺将其开源，向像OpenAI、Meta、Google这样的大佬们发起挑战。 Mixtral 8x22B采用了尖端的混合专家（MoE）架构，拥有令人瞩目的1760亿参数和65000令牌的上下文窗口。这些性能不仅超越了它的前作Mixtral 8x7B，也可能在与OpenAI的GPT-3.5和Meta的Llama 2等顶尖模型的竞争中占得一席之地。Mixtral 8x22B的独特之处不仅在于它的技术实力，更在于其无门槛的获取方式；任何人都可以通过种子下载，并且享受Apache 2.0的宽松授权。在OpenAI最近推出带视觉功能的GPT-4 Turbo，Google推出面向开发者免费试用的Gemini Pro 1.5 LLM，以及Meta即将推出Llama 3的模型的大背景下，Mistral的Mixtral 8x22B以其开源性质和广泛的适用前景脱颖而出。 Mixtral 8x22B的推出，反映出人工智能开发趋向于更开放、更协作的大趋势。Mistral AI这家由Google和Meta的前员工创立的公司，正在引领这种变革，它鼓励一个更包容的生态系统，在这里开发者、研究人员和爱好者都能够负担得起且轻松访问到先进的AI技术。初步反馈超级给力，很多人都看好这款模型在从内容创作到客户服务，再到药物研发和气候模型研究等各个领域内燃起创新的星星之火。随着AI技术的快速发展，像Mixtral 8x22B这样的模型发布凸显了开放创新在推动进步中的重要性。Mistral AI的最新动作不仅提升了语言模型的技术水平，也促进了一个更加合作、民主的AI新景观。

OpenAI再创新高：GPT-4-Turbo升级，带来视觉技术和更强大的分析功能

Posted on April 13, 2024April 13, 2024 by aitrendtrackers@rengongzhineng.io

OpenAI最近放出了它那位名叫GPT-4-Turbo的先进人工智能的大更新，不得了，这回它的应答和分析能力可是“大幅提升”了。一开始，这款集成了AI视觉技术，能分析并理解视频、图像和音频内容的模型，仅对开发者开放。但OpenAI表示，这些特色功能很快就会加入到ChatGPT中。这还是头一遭，带有视觉技术的GPT-4-Turbo向第三方开发者开放。想想就有点小激动，这或许会催生出一些关于时尚、编程乃至游戏方面的新奇应用和服务。新模型还将知识更新截止日期延长到了2023年12月。这是AI训练完成的时间点。之前的知识截止日期是去年的4月。 GPT-4-Turbo的大部分焦点都放在了通过API调用访问OpenAI模型的开发者身上，以提升他们的工作效率，创造出更高效的应用程序。这是因为之前需要不同的模型来处理图像和文本。将来，模型及其视觉分析能力将进一步扩展，并加入到像ChatGPT这样的消费者应用中，使其对图像和视频的理解更加高效。这是Google开始推出的Gemini Pro 1.5已经开始实施的一项措施，尽管现在，像OpenAI一样，这家搜索巨头也将其限制在开发者使用的平台上，而不是消费者。GPT-4在最近的基准测试中的表现并不尽如人意，包括与Claude 3 Opus或Google的Gemini等新模型相比。一些较小的模型在特定任务上也表现更佳。这次的更新应该会改变这一局面，或者至少为企业客户增加新的吸引人特性，直到GPT-5问世。更新还保留了128,000个令牌的上下文窗口，大约相当于一本300页的书。虽然不是市场上最大的，但对大多数用例来说已经足够了。到目前为止，OpenAI除了在ChatGPT中关注文本和图像的分析和理解外，还专注于音频的分析和理解。新更新将视频带给了更多人。当这一功能来到ChatGPT时，用户可能能够上传短视频片段，并让AI总结内容或挑选出关键时刻。

体验Humane AI：我与可穿戴AI别针的生活

Posted on April 12, 2024April 12, 2024 by aitrendtrackers@rengongzhineng.io

就像一个固定在你衬衫上的、由AI驱动的《星际迷航》通讯器一样，AI Pin是一个大胆的概念，但它在日常使用中令人沮丧。 Humane的AI Pin体积小巧，承诺可以大大方便我的生活。但它还有很多工作要做。许多我测试过的技术看起来像科幻小说，但在现实世界中使用起来却很麻烦。这就是我对Humane AI Pin的感受。我可以在这个夹在衣服上的设备中看到一个未来的概念，它承诺是一个活的星舰徽章版本，但那个未来还未到来。 Humane AI Pin（售价699美元）想要成为一个自给自足的手机替代品，一个闪亮的语音控制通讯器，同时还能投射出你可以用手控制的激光显示屏，就像一个神奇的投影仪表盘。这在概念上令人惊叹，但在执行上却令人沮丧。Humane的Pin可能是可穿戴设备的未来，超越我们的手表，但目前它还不够稳定或连通性不足。这也不会是我们看到的最后一个AI可穿戴设备：Meta的Ray-Ban眼镜已经有AI功能，并将在下个月向公众推出；初创公司Brilliant正在制造带显示屏的AI眼镜；而Rabbit R1是一个手持的AI驱动设备，就像手机和AI GameBoy的结合。 AI Pin位于这些设备的中间。这些设备中的许多都在寻求重新发明我口袋中的手机，但我得说：那部手机已经非常灵活和惊人了。它已经包含了我相互联系的生活。这就是AI可穿戴设备需要应对的，就像智能手表之前做的那样。它们需要是有用的、价格合理的扩展，而不是昂贵的尝试，去重新发明已经有效的东西。 Humane AI Pin就像Apple Watch和AirPods的设计表亲一样放在黄色桌子上。这个AI Pin非常精美。它是前苹果工程师和设计师Imran Chaudhri和Bethany Bongiorno的智慧结晶，看起来像是Apple Watch和AirPods的结合体，如果两者融合成一个带摄像头的迷你pod的话。光滑且带金属边框的外观让我想起了缩小版的第一代iPhone。附件设计得也很好。AI Pin自带电池，还有一个可以通过衣物磁性连接的扩展电池包，可以提供额外的电量。我之前从未见过这样的设备。AI Pin可以直接夹在衣物上，后面的电池包可以通过布料连接并供电。AI Pin包括一个额外的电池包，以及两种充电方式。其中一种，一个小充电摇篮，可以让你在桌面上充电的同时使用Pin的语音激活功能。另一种，则是一个小的、类似蛋形的便携充电包，它自带电池，感觉像是《机器人瓦力》中EVE使用的AirPods盒子。它还可以充电那些电池增强包，而另一个则在穿戴中使用。这种可更换电池系统是关于徽章的最佳创意之一。我发现我每天的电池寿命可以持续大部分时间，远比我使用Meta的Ray-Ban眼镜几小时后需要充电（然后没眼镜戴）要长。我喜欢有持续充电选项的舒适感。还有几种额外的夹子适用于不同的服装。那个电池增强包有点笨重，穿在我的毛衣下感觉很奇怪，但一个没有电池的较薄后背夹适用于薄衬衫。还有一个夹子带有金属附件，当磁力系统对厚衣服或夹克不够强时使用。别针没有按钮，依赖前面的触摸板来轻点和长按以进行语音命令。没有语音激活，这意味着你总是需要轻点（字面上，像星际舰队官员那样）：单指轻点用于语音，两指长按用于翻译，两指双击拍照，轻点并长按录像。注意：它一次只能录制15秒视频。那种野性的投射激光和手势跟踪：令人惊叹也令人沮丧当你轻点别针并伸出手时，AI Pin的标志性激光投射魔术界面就会发生。近距离跟踪传感器触发激光投影仪，将一个发光的蓝色显示屏投射到你伸出的手上。然后，你可以用那只手来倾斜和捏控界面。看起来就像纯粹的赛博朋克巫术，我很快就掌握了这个概念。导航并不总是容易。显示屏有时需要几次尝试才会出现，而且根据你放置别针的位置，投射距离和角度可能会变化，需要不同的手角度。捏控感觉有点尴尬，尤其是当你需要保持手掌张开时。为了每次我将其固定在衣服上时输入我的解锁密码，我需要将手向外移或向内拉来选择数字，这很麻烦。如果你想连接Wi-Fi，你需要用捏控导航到设置，然后口述你的Wi-Fi密码，这并不容易。（你也可以使用QR码，但那很奇怪）。没有其他连接方式，因为没有手机应用。作为一个经常测试可穿戴设备的人，这让我困惑。不幸的是，在正常的阳光下室外几乎无法使用激光显示屏；它完全洗白了，我不得不遮住手才能尝试看清文字。即使在室内，投射在你手上的投影也很难阅读，因为文字会弯曲和移动。不像屏幕，你的手并不完全平坦。很酷轻点并长按两个手指会触发即时翻译，而我尝试别针的第一次，无论我说什么都会变成西班牙语。据Humane称，它目前支持50种语言。它还可以自动识别另一位说其他语言的发言者的声音，并将其翻译回英语给我听。你的手机也可以翻译，如果你得到正确的应用，但AI Pin感觉更接近一个即时的魔法翻译器。问题是我的别针有时不会切换语言。有时它会卡在德语或法语上。这也许是一个早期问题，但确实令人沮丧。 AI Pin和Meta Ray-Ban眼镜并排放在木桌上就像Meta的AI启用眼镜一样，Human AI Pin可以使用其广角相机扫描世界，处理并反应你所看到的。结果差异很大。我必须让设备“看看”，然后弄清楚我想让它告诉我什么，这感觉像是在咨询一个神灯精灵。有时答案有帮助，有时一点用也没有。你可以让别针大声读出东西，尝试识别汽车、植物或地点或描述一个房间。拍照和AI Pin回答之间的中继需要几秒钟以上。这是一个未来世界的有趣想法，在那里我们佩戴的看见摄像头可以是辅助工具；这是我在测试Meta的Ray-Bans时的想法。这个过程不像我希望的那样自动或流畅有帮助。有时AI根本没有帮助我，或者对同一个问题给出不同的答案。当然，接下来是关于Humane AI Pin的细节和用户体验： AI Pin确实能拍摄静态照片和15秒视频。相机质量还可以，但不算出色。由于没有屏幕或取景器，很难预测别针拍出的照片会是什么样子。你可以在手上预览拍摄的照片，但只有蓝色单色显示。或许能随身携带一个可穿戴相机，不用拿出手机就能捕捉生活瞬间是一种乐趣，但总体来说，我更喜欢Meta的眼镜，因为在我看来它们的相机质量更好（但关于Humane AI相机的优点还有更多讨论）。有限的视频录制时间意味着我无法使用它保存超过短暂实时记忆的片段。关于声控AI：不完整，不可靠当我拿着一罐Spindrift问AI Pin“看看这是什么”，它的回答是：“‘Luck’是由苹果电视加推出的2022年电影，讲述了世界上最倒霉的人Sam Greenfield如何进入幸运之地，并必须与魔法生物联合，扭转她的运气。”我猜它误解了我说的“运气和告诉我这是什么”。这就是我与声控AI的生活典型。当AI Pin的AI工作时，它很有趣。我问了下一班火车何时到达我的城镇，它知道。我询问了纽约喷气机队最新的休赛期操作，然后要求提供该球员的统计数据。你可以在手机上做这些事情，但像Siri和Alexa这样的服务并不总是能顺畅处理语音请求。 AI Pin与我的世界脱节。作为一个独立的、具备蜂窝连接的设备，它根本不与我的手机同步。不是通过手机应用，而是Humane AI Pin有一个网页仪表板，我所有的AI请求、照片和视频以及服务都在那里管理。尽管我欣赏Humane所做的努力，这让我觉得我在重新开始我的数字生活。它不了解我的日历、我的电子邮件、我的笔记或任何其他事情。它不能叫Uber或查找我的购买历史。从某种意义上说，这很安心，但也表明很多服务目前还无法与它集成。 Humane的网页仪表板目前可以与苹果同步联系人，与微软（也用于联系人）和谷歌（联系人，以及同步到谷歌照片）连接。它只支持一项音乐服务：Tidal。如果你恰好订阅了Tidal，AI Pin可以播放流媒体音乐，并且别针的蓝牙可以与耳机配对。还有更多的接入点即将到来，据Humane的创始人说。我写这篇文章的时候还不到第一天。然而，对于一个完全依赖AI服务来帮助我的设备来说，我需要这些服务正常工作。我经常遇到别针告诉我它还不能做某些事情的情况。我不能发送电子邮件。我不能设定计时器。我不能检查营养价值。我不能设置提醒。你可以让别针“记住”事情，这些会被保存为在Humane网页仪表板中的笔记。别针稍后会回忆这些事情，比如我孩子的名字。我更希望它能导入我已经存储在其他地方的笔记。…

Subscribe 订阅