亚马逊网络服务(AWS)宣布将Anthropic的Claude 3系列模型整合到其Amazon Bedrock服务中。此举显著扩展了其AI能力,并向客户提供Claude 3系列的完整套件——Opus、Sonnet和Haiku——作为托管服务。Amazon Bedrock是第一个也是唯一一个普遍向客户提供这些模型的服务。 Anthropic的Claude 3系列在AI技术上取得了重大进展。其旗舰模型,Claude 3 Opus,被认为是市场上表现最优的基础模型,超越了OpenAI的GPT-4等著名模型,在推理、数学和编码能力上有所领先。据Anthropic称,Claude 3 Sonnet和Claude 3 Haiku也带来了相当大的改进。Sonnet的速度是前代的两倍,而Haiku是目前市场上最快、最紧凑的模型,提供了性价比高的解决方案,而不牺牲性能。 这些模型的独特之处在于它们的高级智能,表现出近乎人类的响应能力和较前代产品更高的准确率。Claude 3系列AI模型在遵循复杂指令和坚持特定品牌声音指南方面具有卓越的能力,非常适合面向客户的应用程序。此外,这些模型在产生适合自然语言分类和情感分析的格式输出方面也具有高度的熟练度,极大地扩展了它们在各个行业的应用性。 将Claude 3添加到Amazon Bedrock的生成AI模型名单中,该名单已经包括来自AI21实验室、Cohere、Meta、Mistral AI、Stability AI和亚马逊自身的贡献,显著增强了客户可选择的范围。这使得企业能够更精确地根据自己的需求定制AI解决方案,推动各个领域的创新并转变用户体验。 包括辉瑞、西门子和达美航空在内的全球各行业的大公司已经在利用这些能力来自动化任务、创造新的用户界面以及加速研究和开发工作。Claude 3系列中的视觉启用模型进一步丰富了这一产品系列,使其能够处理和分析各种数据格式和视觉资产,如图表、图形和照片。 主要要点:
现代商业中首席人工智能官(CAIO)的角色与影响
首席人工智能官(CAIO)角色在许多企业的C级行政团队中迅速崛起,这标志着人工智能(AI)在商业领域中的重要性日益增强。CAIO的主要职责是塑造和推动组织的AI战略,这包括制定并执行利用AI改善产品、服务和运营效率的计划。CAIO的使命是确保AI部署技术上可靠,与更广泛的商业目标一致,并遵守相关法规。 CAIO的独特贡献和职责 CAIO在这些领域的专注对于将AI整合到核心业务流程中,并确保其部署增加可持续和道德的价值至关重要。 CAIO在各行各业的战略相关性 这些例子强调了CAIO在利用AI促进创新和战略增长方面的关键作用。 CAIO与CTO的角色和责任 CAIO(首席人工智能官)的主要聚焦是跨越业务运营的AI战略整合,关键职责包括制定AI战略、管理AI实施、确保AI伦理和合规。CAIO的战略影响专注于利用AI推动业务创新和效率,而他们的技术专长在于AI、机器学习和数据分析方面的深入知识。 相较之下,CTO(首席技术官)的主要聚焦是对组织整个技术景观的监督,关键职责包括领导技术计划、管理IT基础设施、确保技术创新和安全。CTO的战略影响更广泛地关注将技术计划与商业目标相对齐,他们的技术专长覆盖多个技术领域的广泛知识。 确定是否需要CAIO 决定一个组织是否需要CAIO涉及几个考虑因素。关键因素包括AI整合的规模、受AI影响的运营流程的复杂性以及AI对公司未来的战略重要性。对于大量投资AI的公司或那些由AI技术迅速变革的行业,任命CAIO对于维持竞争优势和确保统一的AI战略执行至关重要。 结论 总之,CAIO角色在利用AI的变革力量方面起着至关重要的作用。随着组织越来越认识到AI推动创新和运营效率的潜力,CAIO的专业知识变得不可或缺。CAIO能够在技术可能性与商业需求之间架起桥梁,同时导航道德和合规的风景线,这使得这一角色在当今AI驱动的商业环境中至关重要。对于将AI作 为核心战略组成部分的组织应评估任命专门的CAIO来领导他们的AI计划的好处。
Meta因露骨AI图片陷入困境
近日,Meta的独立监督委员会启动了对Meta AI内容政策及其行动的调查,此举源于两张露骨的AI生成图片在Facebook和Instagram上的发布。 Meta目前通过AI和人工审核相结合的方式来检测其平台上的露骨AI内容,并且最近宣布计划将“由AI制作”标签扩展到更多内容上,以提供更多清晰度并防止深度伪造对公众造成伤害。然而,监督委员会的介入是为了调查Meta围绕AI生成的深度伪造内容的执法政策是否有效以及是否一致。 “委员会选择这些案例来评估Meta的政策及其执法实践在处理露骨AI生成图像方面是否有效。” 在Meta的平台上发现了什么样的露骨AI内容呢? 首起事件发生在印度,一位Instagram用户报告了一张涉及公众人物的露骨AI生成图像,请求Meta将其删除。Meta未能做到这一点,并且在48小时后该请求自动关闭。用户对Meta的决定提出上诉,但请求再次被关闭,图片仍留在Instagram上。随后,用户将此图像报告给了监督委员会,Meta迅速删除了该图像,并称其“违反了社区关于欺凌和骚扰的标准”。总结:Meta需要两次报告,以及一次向委员会的报告才将露骨的AI图像删除。 第二起事件发生在美国,Meta的系统检测到Facebook上一个公众人物的AI生成露骨图像,并立即将其删除。Meta对这两起事件的处理方式的不同令人关注——尤其是两张图像都违反了Meta的AI内容政策——这也解释了为什么委员会要介入调查。 “委员会认为探索Meta的政策及执法实践在解决这一问题上是否有效很重要。”委员会目前正在调查这两个案件(他们已请求公众在4月30日前发表评论),并将在几周内发布决定。在这两个案例中,Meta现已删除了露骨内容,委员会为了保护涉事个人免受进一步骚扰,不会公开他们的姓名。
Reka Core:引领AI新纪元的多模态语言模型
Reka 最新推出的多模态语言模型“Reka Core”可谓是技术界的一股清流,这款堪比行业顶尖模型的前沿产品,不仅在多模态理解(包括图像、视频和音频)方面表现出色,而且还能处理更复杂的编码和代理工作流任务。Reka Core 在经过数千GPU几个月的训练后,已经展现出与 OpenAI、Anthropic 和 Google 等巨头抗衡的能力。 尝试: https://chat.reka.ai/auth/login 在独立第三方的多模态人类评估中,Reka Core 在视频任务上超过了 Gemini Ultra,在语言任务上则与其他前沿模型不相上下。更令人印象深刻的是,Reka Core 不仅支持多种语言,还能精准回忆更多信息,显示出卓越的推理能力。 此外,Reka 还与 Snowflake、Oracle 和 AI 新加坡等全球技术平台和政府机构建立了合作关系,这些合作伙伴将帮助将 Reka Core 引入市场,让更多用户享受到这些先进的 AI 功能。Reka 的目标不仅是推动技术的发展,更是通过其全面的多模态模型,为电子商务、社交媒体、数字内容及视频游戏、医疗保健和机器人技术等行业提供支持,拓宽客户的应用场景。 Reka Core 的推出标志着公司在实现其使命方面迈出了重要的一步。未来,Reka 期待通过持续的训练和优化,进一步突破性能界限,同时也欢迎新的合作伙伴加入这一旅程,共同开启 AI 新纪元。 此外,Reka 还与 Snowflake、Oracle 和 AI 新加坡等全球技术平台和政府机构建立了合作关系,这些合作伙伴将帮助将 Reka Core 引入市场,让更多用户享受到这些先进的 AI 功能。Reka 的目标不仅是推动技术的发展,更是通过其全面的多模态模型,为电子商务、社交媒体、数字内容及视频游戏、医疗保健和机器人技术等行业提供支持,拓宽客户的应用场景。 Reka Core 的推出标志着公司在实现其使命方面迈出了重要的一步。未来,Reka 期待通过持续的训练和优化,进一步突破性能界限,同时也欢迎新的合作伙伴加入这一旅程,共同开启 AI 新纪元。
Adobe Premiere Pro 正在引入生成式 AI 视频工具——希望包括 OpenAI 的 Sora 在内
Adobe 正在为其 Firefly 系列开发一款生成式 AI 视频模型,将为其 Premiere Pro 视频编辑平台带来新工具。这些全新的 Firefly 工具,加上与 Runway、Pika Labs 和 OpenAI 的 Sora 模型的一些拟议的第三方集成,将使 Premiere Pro 用户能够使用文本提示生成视频以及添加或移除对象(就像 Photoshop 的生成填充功能一样),并延长视频剪辑的长度。 与 Adobe 以往关于 Firefly 的许多公告不同的是,这次公司新的视频生成工具没有设定发布日期——无论是测试版还是其他版本,只是表示这些工具将在“今年”推出。尽管这家创意软件巨头展示了其自家视频模型在早期视频演示中的能力,但它计划将 Premiere Pro 与其他提供商的 AI 模型集成还不是板上钉钉的事。 Adobe 在其新 Firefly 生成式 AI 视频模型的视频演示中截取的屏幕快照显示,在通过 Adobe 自家生成式 AI 视频模型移除一个对象后,图像出现了明显的涂抹现象。在视频预览中,Adobe 将第三方 AI 集成称为对未来可能面貌的“早期探索”。其理念是为 Premiere Pro 用户提供更多选择,根据 Adobe 的说法,允许他们使用像 Pika 这样的模型来延长镜头,或在生成 B…
亚马逊的“随取随走”技术背后,隐藏着一个小“八卦”:成群的印度员工正通过屏幕,密切关注你的购物每一动作。
亚马逊的“随取随走”技术背后其实有一个不为人知的小秘密:大约1000名坐在印度的员工在默默地审查你在店内拿起、放下的每一件商品。 这项技术原本被吹嘘为完全由计算机视觉驱动的购物革命,旨在让顾客无需经过传统的结账流程。然而,《信息》周二的报道揭示,这项技术实际上还极度依赖人力。报道中引用了一位匿名的参与“随取随走”技术开发的人士的话说,2022年,每1000笔“随取随走”的销售中,大约有700笔需要印度团队的人工审核。亚马逊内部其实希望这一数字能降至50笔。 亚马逊发言人对此进行了回应,他们表示,印度团队的主要工作是帮助训练公司用于“随取随走”的模型。发言人还提到:“在我们的计算机视觉技术无法完全确定某人购买的商品时,同事们也会对少数购物行为进行验证。” 此外,亚马逊计划在Amazon Fresh商店中用智能购物车Dash Carts替换“随取随走”技术。智能购物车也能让顾客避免排队结账,不过顾客需要将商品放入购物车,购物车会记录他们的选择并直接从账户扣款。 发言人提到,顾客在使用“随取随走”服务的同时,也表达了希望能更方便地找到附近的商品和优惠,随时查看购物小票,以及在商店内购物时了解节省了多少钱——所有这些需求,都能通过Dash Carts得到满足。 从最初只在Amazon Go便利店推出起,“随取随走”技术已经扩展到更大的商店。目前,44家Amazon Fresh商店中有27家安装了这项技术,亚马逊还将其引入了一些Whole Foods商店。 同时,包括Aldi和Dollar General在内的零售商也开始测试由初创公司开发的类似“随取随走”的技术。
在处理了五亿个GPT令牌后的教训
我想分享一些在处理超过5亿个令牌后得出的“令人惊讶”的教训。 首先给出一些细节: 教训1:在提示方面,少即是多 我们一直发现,如果某件事已经是常识,那么在提示中不列出确切的列表或指示会产生更好的结果。GPT并不愚蠢,实际上如果你过度具体化,它反而会感到困惑。 这与编码基本不同,在编码中一切都必须明确。 这里有一个我们遇到问题的例子: 我们的一个流程部分是读取一些文本块,并要求GPT将其分类为美国的50个州之一或联邦政府。这并不是一个困难的任务——我们可能本可以使用字符串/正则表达式,但有足够的奇怪的边角情况使得这会花费更长时间。所以我们的第一次尝试大约是这样的: 这里有一个文本块。一个字段应该是”locality_id”,它应该是50个州之一或联邦的ID,使用这个列表:[{“locality”: “Alabama”, “locality_id”: 1}, {“locality”: “Alaska”, “locality_id”: 2} … ]这种方法有时有效(我估计超过98%的时间),但失败的次数足够多,我们不得不进一步深入调查。 在我们调查时,我们注意到另一个字段,name,一直在返回该州的全名……正确的州——尽管我们没有明确要求它这样做。因此,我们改为在name上进行简单的字符串搜索以找到该州,自此以后它一直运行得很好。我认为总的来说,更好的方法应该是“你显然知道这50个州,GPT,所以只需给我这个州的全名,或者如果这关系到美国政府就给我’Federal’。” 为什么这很疯狂?好吧,当你更模糊时,GPT的质量和泛化能力能够提高,这是高阶委派/思考的典型标志。 教训2:你不需要langchain。 你可能甚至不需要OpenAI在过去一年中发布的API中的任何其他东西。只需要聊天API。这就是全部。Langchain是过早抽象的完美例子。我们最初认为我们必须使用它,因为网络上是这么说的。然而,数百万令牌和大约3-4个非常多样化的LLM功能后,我们的openai_service文件仍然只有一个40行的函数: def extract_json(prompt, variable_length_input, number_retries)我们使用的唯一API是聊天。我们总是提取json。我们不需要JSON模式,也不需要函数调用或助手(尽管我们确实做了所有这些)。天哪,我们甚至不使用系统提示(也许我们应该……)。当gpt-4-turbo发布时,我们在代码库中更新了一个字符串。 这是一个强大的泛化模型的美丽之处——少即是多。 该函数中的大部分40行都是围绕OpenAI API常规的500s/socket关闭的错误处理(尽管情况已经改善,鉴于他们的负载,这并不令人惊讶)。 我们构建了一些自动截断,所以我们不必担心上下文长度限制。我们有我自己的专有令牌长度估计器。这里是: 在有许多句点或数字的角落案例中,它失败了(这些的令牌比率< 3个字符/令牌)。所以还有另一种非常专有的try/catch重试逻辑: 我们使用这种方法取得了相当大的进展,而且它足够灵活以满足我们的需求。 教训3:使用流API改善延迟并向用户显示变速“打字”字符,实际上是ChatGPT的一大UX创新。 我们以为这是个噱头,但用户对变速“打字”字符的反应非常积极——这感觉像是AI的鼠标/光标UX时刻。 教训4:GPT在生成空假设方面真的很糟糕 “如果你什么也没找到,就返回一个空输出”——这可能是我们遇到的最容易出错的提示语言。GPT不仅经常选择幻觉而不是什么也不返回,而且它还经常缺乏自信,返回空白的频率比应有的要高。 我们的大多数提示都是这种形式: “这里有一块关于一家公司的声明文本,我希望你输出提取这些公司的JSON。如果没有相关内容,请返回一个空白。这是文本:[文本块]” 有一段时间,我们遇到了一个错误,其中[block of text]可能是空的。幻觉很糟糕。顺便说一下,GPT喜欢幻觉烘焙店,这里有一些很棒的: 阳光面包店金谷面包店幸福面包店 幸运的是,解决方案是修复错误,如果没有文本就不发送提示(嗯!)。但当“它是空的”很难以编程方式定义时,情况就更困难了,你实际上确实需要GPT发表意见。 教训5:“上下文窗口”是个用词不当——它们只是在输入上变大,而不是输出 鲜为人知的事实:GPT-4可能有一个128k令牌的输入窗口,但它的输出窗口仍然是可怜的4k!称它为“上下文窗口”令人困惑。但问题还更糟——我们经常要求GPT给我们返回一个JSON对象列表。没什么复杂的:想想吧,一个json任务数组列表,其中每个任务都有一个名称和一个标签。 GPT实际上不能返回超过10个项目。试图让它给你返回15个项目?也许它做到了15%的时间。我们最初以为这是因为4k上下文窗口的问题,但我们到达10个项目时,它只会是大约700-800个令牌,GPT就会停下来。现在,你当然可以通过给它一个提示来交换输出输入,要求一个任务,然后给它(提示+任务),要求下一个任务等等。但现在你在和GPT玩电话游戏,还得处理像Langchain这样的东西。 教训6:向量数据库和RAG/嵌入对我们这些普通人来说基本无用 我真的尝试过。但每次我以为我找到了RAG / embeddings的杀手级用例时,我都感到困惑。 我认为向量数据库/RAG真的只适合搜索。而且只是搜索。不是像“哦——检索块有点像搜索,所以它会工作!”那样的搜索,而是真正的谷歌和必应搜索。这里有一些原因: 没有相关性的截止点。市场上有一些解决方案,你可以为相关性创建自己的截止启发式,但它们将是不可靠的。这实际上在我看来杀死了RAG——你总是冒着检索到不相关结果的风险,或者过于保守,你错过重要的结果。为什么要把你的向量放在一个专门的、专有的数据库中,远离你所有的其他数据?除非你是在谷歌/必应的规模上交易,否则这种失去上下文的交易绝对不值得。除非你在进行非常开放的搜索,比如说——整个互联网——用户通常不喜欢语义搜索返回他们没有直接输入的东西。对于大多数商业应用程序中的搜索,你的用户是领域专家——他们不需要你猜测他们可能的意思——他们会告诉你!在我看来(这是未经测试的),对于大多数搜索案例,LLMS的更好用途是使用普通的完成提示将用户的搜索转换为分面搜索,甚至更复杂的查询(或者,甚至是SQL!)。但这根本不是RAG。 教训7:基本上不会发生幻觉。 我们的每个用例都基本上是“这里有一堆完整的详细信息,分析/总结/提取”——它非常可靠。我认为你可以看到很多最近的产品发布都强调了这种确切的用例。 因此,这一切都是关于好的数据输入,好的GPT令牌响应输出。…
全设备运行:苹果iOS 18 AI新功能盘点,独立于云计算的未来展望
苹果即将在iOS 18中推出的全新AI功能堪称革命性——这一切都在设备上运行,绝不依赖云端服务器。《彭博社》的马克·古尔曼在他的Power On新闻通讯中爆料说,等到6月10号的大揭幕,我们就能见到这些前所未有的本地化功能了。他说,这意味着苹果用于驱动新功能的大型语言模型不会处理任何云端数据。 尽管如此,苹果可能还是会提供一些基于云的AI服务,可能采用谷歌的Gemini或其他服务提供商的技术。据古尔曼所说,苹果已经与谷歌、OpenAI还有中国的百度进行了初步接触,探讨未来可能的生成式AI合作。不过,iOS 18可能还不会集成苹果自己的类ChatGPT聊天机器人,是否会融入Gemini或其他聊天机器人还是一个未知数。 未来,苹果有可能推出自家的基于云的生成式AI功能,因为供应链分析师如明基科技的郭明錤和Jeff Pu都表示,苹果正在积极购买AI服务器。 iOS 18据说将引入一系列刷新的生成式AI功能,覆盖iPhone上的Spotlight搜索、Siri、Safari浏览器、Shortcuts快捷操作、Apple Music、信息、健康、Numbers、Pages文档、Keynote演示等应用。古尔曼此前报导,这些生成式AI将极大提升Siri解答复杂问题的能力,并能让信息App自动完成句子。 苹果预计将在每年一度的开发者大会WWDC上揭晓iOS 18和其他软件更新,该会议将从6月10日持续到6月14日。这次更新,绝对是为了让你的iPhone变得更聪明,更能懂你!
Grok-1.5 Vision 预览 将数字世界与物理世界连接起来,首款多模态模型
我们很高兴介绍Grok-1.5V,这是我们的首款多模态模型。除了强大的文本处理能力外,Grok现在还能处理各种视觉信息,包括文档、图表、图示、截图和照片。Grok-1.5V即将向早期测试者和现有的Grok用户开放。 能力介绍Grok-1.5V在多个领域与现有的前沿多模态模型相媲美,这些领域包括跨学科推理、理解文档、科学图表、图表、截图和照片等。我们对Grok在理解我们的物理世界方面的能力感到特别兴奋。在我们新的RealWorldQA基准测试中,Grok在真实世界空间理解方面表现优于同类,该基准测试衡量真实世界的空间理解能力。在所有数据集中,我们都在零样本设置中评估Grok,不使用思维链提示。 基准对比 真实世界理解为了开发有用的真实世界AI助手,推进模型对物理世界的理解至关重要。为此,我们引入了一个新的基准测试RealWorldQA。这个基准旨在评估多模态模型的基本真实世界空间理解能力。虽然当前基准中的许多例子对人类来说相对容易,但它们常常对前沿模型构成挑战。 根据流程图生成代码 未来展望推进我们的多模态理解和生成能力是构建能够理解宇宙的有益AGI的重要步骤。在未来几个月,我们预计将在图像、音频和视频等各种模式上,显著提高这些能力。
苹果研究人员推出“pfl-research”:一个快速、模块化且易于使用的Python框架,用于模拟联邦学习
在不断变化的人工智能领域,一种革命性的概念——联邦学习(Federated Learning,FL)引起了广泛关注。这种尖端技术允许在不同设备和位置上合作训练机器学习模型,同时确保个人数据远离窥探目光安全存储。这既利用了数据优化模型,又兼顾了隐私保护,可谓是两全其美。 尽管联邦学习令人兴奋,但在这一领域进行研究对数据科学家和机器学习工程师来说是一个真正的挑战。模拟现实的、大规模的FL场景一直是一个持续的难题,现有工具在速度和可扩展性上难以满足现代研究的需求。 本文介绍了一个名为pfl-research的突破性Python框架,旨在为您的私有联邦学习(PFL)研究工作提供强大动力。这个框架快速、模块化且用户友好,使研究人员能够迅速迭代和探索新思想,而不会被计算限制所困扰。 pfl-research的一个突出特点是其多功能性。它就像一个会说TensorFlow、PyTorch甚至是传统非神经网络模型多种语言的研究助理。而且,pfl-research与最新的隐私算法兼容良好,确保在你推动可能性的边界时,你的数据安全如虫。 但真正让pfl-research与众不同的是其积木式的方法。它就像是研究人员的高科技乐高套装,包含了数据集、模型、算法、聚合器、后端、后处理器等模块化组件,你可以自由组合,创建出符合你特定需求的仿真。无论是想在大型图像数据集上测试新的联邦平均算法,还是需要在分布式文本模型上试验不同的隐私保护技术,pfl-research都能满足你的需求。 现在,事情变得更加激动人心。在与其他FL模拟器的测试中,pfl-research的仿真速度最高可达竞争对手的72倍。有了pfl-research,你可以在庞大的数据集上运行实验,而不会流一滴汗或牺牲研究质量。 但pfl-research团队并没有因此自满。他们有宏伟的计划继续改进这一工具,比如不断添加对新算法、数据集和跨库仿真(想象一下跨多个组织或机构的联邦学习)的支持。他们还在探索尖端的仿真架构,以推动可扩展性和多功能性的界限,确保pfl-research在联邦学习领域持续发展中保持领先。 想象一下pfl-research为你的研究开启的可能性。你可能会是第一个破解隐私保护自然语言处理代码的人,或者开发出针对个性化健康应用的开创性联邦学习方法。 在不断进化的人工智能研究世界中,联邦学习是一场游戏规则的改变者,而pfl-research是你的终极助手。它快速、灵活、用户友好,是任何希望在这一激动人心的领域中开辟新天地的研究者的梦想组合。