Anthropic公司最新升级了他们的AI模型Claude 3,这一次的大招是添加了对外部工具的支持。这意味着Claude 3可以自动访问文档或进行更复杂的计算。根据Anthropic的说法,Claude 3能从数百个选项中可靠地选择合适的工具来完成任务。 客户可以通过结构化的API,让Claude访问内部知识数据库、实时数据和复杂计算。此外,Claude还能指挥子代理来处理更细致的请求,这使得AI模型可以通过定制功能来处理更广泛的任务。 工具必须由API用户提供,因为Claude本身并不内置任何工具功能。每个工具都有一个名称、详细描述和一个JSON格式的输入模式。 Anthropic建议在工具描述中提供尽可能多的细节和上下文,以便Claude能学会正确使用它们。描述的重要性甚至超过了使用示例。每个工具的描述应该至少包括三到四句话,解答如下问题: 如果Claude识别出合适的工具,API会返回一个带有“tool_use”原因的响应。基于工具名称和输入,功能可以在客户端执行,并将结果返回给Claude。 根据任务的不同,Claude会展示一个“思考链”,逐步考虑如何使用哪些工具。这提供了对其决策过程的洞察,并有助于调试。对于更复杂的模型,如Sonnet,可以通过特殊的提示来激发思考链。 Anthropic表示,顶级模型Opus最能够结合多个复杂工具,并处理缺失的参数。如果需要,它会请求更多信息。 较小的Haiku模型即使没有明确的参数也尝试调用工具。总体而言,Anthropic表示,Claude可以可靠地从数百个选项中选择正确的工具。 随着设计精良的工具的引入,Claude的应用范围可以大大扩展。API文档中包含了许多例子,展示了如何将Claude用作客户服务助手、提取结构化数据或控制子代理。
Author: aitrendtrackers@rengongzhineng.io
Altman 与前苹果设计师 Ive 合作的 AI 设备:别期待它长得像手机哦!
据《The Information》报道,一家初创公司正在与多家大型风险投资公司进行融资谈判,包括与 Altman 和 Ive 是朋友的 Emerson Collective 和 Thrive Capital。软银CEO孙正义也参与了早期的讨论,但他目前的参与程度尚不清楚。 据悉,Ive 正在寻求高达10亿美元的融资。Thrive Capital 此前已经对 OpenAI 进行了投资,OpenAI 的语言模型有可能为所提议的设备的某些功能提供动力。 熟悉这些讨论的人士表示,这款AI设备将主要通过语音互动提供自然而直观的用户体验,并且它的外观不会像手机。 类似的面向消费者的概念性AI硬件,如 Rabbit R1 和 Humane pin,使用的是能执行任务的动作驱动语言模型,如个人助理,不仅可以回答问题,还可以进行详细的网页搜索和预订机票。 如果成功,这一项目可能会增强 OpenAI 在与 Meta、谷歌和苹果等竞争对手的竞争中的地位,后者都在争相开发配备语音助手的AI驱动设备。但该项目仍处于初期阶段。OpenAI 和微软的竞争对手已经在市场上推出了数亿台启用AI的硬件设备。 一些持怀疑态度的投资者警告,对于这一未经证实的产品类别,在早期阶段给予高估值是不明智的。目前尚不清楚 OpenAI 是否会在 Altman 和 Ive 的硬件公司中持有财务股份。 此外,作为 OpenAI 首席执行官,Altman 还在从事其他辅助项目,包括一个开发和制造 AI 训练和推理芯片的网络,这可能与 Nvidia 竞争。预计 OpenAI 将参与并成为该公司的客户。
牛顿:Archetype AI 的开创性模型,实时解读真实世界的新宠儿
新晋科技公司Archetype AI (Home)最近搞大动作,推出了他们首个“实体AI”模型——牛顿。这玩意儿不是普通的聊天机器人哦,它能够解读各种传感器数据,再加上自然语言处理技术,实时回答关于真实世界的各种问题。 别的AI只会对着文本和图片训练,牛顿却不同,它从加速度计、陀螺仪、雷达、相机、麦克风到温度计等各种传感器中汲取营养。它的使命是将这些传感器数据与自然语言结合起来,解读环境中发生的事,帮助人类捕捉那些复杂或者快速变化的信息。 Archetype AI的首席执行官Ivan Poupyrev信心满满,他表示,“世界上最大的问题是实体问题,不是数字问题。”牛顿可以监控包裹中的运动传感器,报告内容物是否已损坏,或者解析家庭或工厂中的数据,用平实的语言告诉你发生了什么。 此外,牛顿的首批客户包括Infineon、大众汽车以及其他一些在汽车、消费电子、建筑、物流和零售行业的公司。Archetype AI已经从Venrock这样的风险投资公司那里筹集到1300万美元的种子基金,亚马逊工业创新基金和日立创投也是投资者之一。 这笔新资金将用于扩大Archetype AI的团队并扩展平台,以适应多种行业的多种用途,为即将到来的“万亿传感器经济”做准备。这家公司的创始团队中有来自谷歌高级技术和项目(ATAP)组的前高管,还有从迪士尼、索尼、三星、NASA、斯坦福和麻省理工等公司和机构的资深人士。 总的来说,Archetype AI带着他们的超级模型牛顿,准备在真实世界和数字世界之间架起一座桥梁,让复杂的信息变得触手可及。
职场新变革:AI赋能ICT劳动力联盟的行动与展望
今天,思科和其他八家大公司宣布,他们将组建一个名为“AI赋能ICT劳动力联盟”的新组织。这个组织的主旨是啥呢?简单来说,就是想把生成式AI的玩法教给更多的工作人员,让他们掌握未来可能成为硬通货的AI技能。他们的第一个动作是搞一个大报告,看看现在人们对AI的了解有多深,顺便提供一些实用的建议,让公司和员工都能从中受益。 这些组织里不乏一些重量级的玩家,比如谷歌、IBM、英特尔和微软等。他们合作的一个重要原因,是之前美国和欧盟的贸易与技术理事会里面的一个小组,也在推动类似的事务。 思科的高级副总裁兼全球创新官Guy Diedrich说,这个联盟的成立,其实也是为了更好地整合这些公司丰富的经验。他透露,AI技术其实早在十多年前就已经被他们用在产品中了。只不过,现在整个行业都在经历一场变革。 Diedrich还提到,随着AI技术的不断进步,一些重复性高的工作可能会逐渐被AI取代。但同时,那些需要创造力和解决问题能力的职位,将变得越来越重要。他强调,理解企业中AI知识的现状,对于解决AI系统可能带来的偏见问题也至关重要。 他们还计划通过这个联盟,将AI的信息传播给更多不同背景的人,确保技术的多元化和公正性。如果做不到这一点,那么现有的偏见只会通过AI得到更高效的扩散。 SAP的副总裁Nicole Helmer也表示,尽管很多人担心AI会大量取代人类的工作,但技术的发展总体上是创造了更多的工作机会。她认为,未来的关键将是提升人们的AI素养,就像过去几十年提升数字素养一样。 这个组织的第一份报告计划在今年夏天发布。Diedrich透露,他们希望能将研究结果公之于众,帮助更多人理解AI对工作的影响,并做好相应的准备。
幽灵伙伴升级记:苹果Vision Pro的空间化人格新玩法
从今天开始,使用Vision Pro的小伙伴们不再只能在FaceTime通话中飘来飘去像个幽灵啦!现在,你们可以在支持SharePlay的应用里使用它们来协作、游戏或者和朋友们一起看视频了。 苹果将这一功能称为“空间化人格”。他们的想法是,让你感觉就像和其他用户处在同一个物理空间一样。这个功能去年开发者预览会上有展示,但直到现在才在实际的Persona测试版中推出。这听起来有点难以想象,不过你可以在下面的视频中看看实际效果。 据说,每个用户都可以控制自己看到的内容,并重新定位对象的位置,而不会影响到其他用户的视图。空间音频也将帮助你感知到对方在虚拟空间中的位置。 想要启用这个功能,你得确保自己的设备运行的是VisionOS 1.1或更高版本,并在FaceTime通话中选择空间化人格选项。一次最多可以有五个人参与到一个空间化人格会话中。 我们还得测试一下这个功能的实际表现如何,特别是它依赖于SharePlay,而Vision Pro的应用商店现在还比较空荡荡的。在我看电影时,能否通过邀请另一个幽灵伙伴来减少寂寞感,这还有待观察呢。
微软推出GPT-4 Turbo优先使用权:Copilot for Microsoft 365商业用户享受无限制对话及增强图像生成能力
微软为其AI驱动的Copilot助手的商业订阅者推出了GPT-4 Turbo的优先使用权。这使得用户能够在Copilot移动应用、网络、Windows和Edge中使用OpenAI最新的模型,作为每月每用户30美元的Copilot for Microsoft 365服务的一部分。 虽然Copilot Pro的消费者已经能够使用GPT-4 Turbo,但现在,使用Copilot for Microsoft 365的企业用户也能够访问这一服务,并且在每日的聊天次数和每次对话的轮次上没有限制。 GPT-4 Turbo将在Copilot for Microsoft 365中提供,用于网络查询最新的公开信息,以及跨工作数据的使用,比如查询邮件、文档、会议等。OpenAI的最新模型还支持在单个提示中处理多达300页文本,使其更加适用于分析文件。 此外,微软还在为Copilot for Microsoft 365的商业订阅者改进Microsoft Designer中的图像生成能力。本月晚些时候,用户将能够每天创建100张图像,而之前的限制是每天15张。这一功能使用的是OpenAI的DALL-E 3模型,微软表示图像生成请求将会“迅速”,以减少图像创建的等待时间。
Alphabet考虑收购HubSpot:一个不太可能但未可知的大手笔动作
路透社周四爆料,谷歌母公司Alphabet正在考虑收购总部位于波士顿的HubSpot,一家市值超330亿美元的CRM和营销自动化公司——这个数字自从有了这份报告后就一直在爬升。 如果这笔交易真的成了,那得花不少银子,肯定得比现在的估值贵上一大截。毕竟,要让这家公司心甘情愿卖身成为搜索巨头的一部分,价格得诱人才行。值得一提的是,这两家公司之间已经有过合作了——他们合作使用谷歌广告来推动HubSpot的销售——有时候,这种合作关系就是收购谈判的开端。 虽然谷歌/Alphabet这些年来购买了不少公司,但它有史以来最大的一笔交易是在2011年斥资125亿美元收购了摩托罗拉移动。不过,它后来以29.1亿美元的价格把它卖给了联想,所以面对一个更大的价格标签,它可能会有点犹豫。更近一点的大手笔交易是在2022年花54亿美元收购了安全情报平台Mandiant。谷歌通常的收购都在30亿美元以下,所以这样的大手笔对公司来说绝对是不寻常的。 再加上最近几年大多数科技公司都在实行紧缩政策,以及谷歌CEO Sundar Pichai在一月份警告说还会有更多的裁员,这种紧缩氛围下的大手笔交易似乎不太可能,尤其是如果这种操作真的很重要的话,向员工解释起来可能也很棘手。不过,考虑到截至去年年底谷歌手头有1100亿美元的现金,如果它想要这么做的话,确实有足够的现金来进行这场操作。 另一个可能会让公司在尝试购买HubSpot时遇到的问题是,当前对大型交易的监管环境相当敌对。美国、英国和欧盟近来都在密切监视大型交易。有些交易,比如Adobe尝试以200亿美元收购Figma,因为竞争问题而未能成功。不过,不清楚Alphabet是否会面临相同的问题。HubSpot在CRM领域面临来自Adobe和Salesforce这样的强大竞争对手,两家公司都资金雄厚,所以这笔交易不会让谷歌在市场上占据主导地位,但如果存在风险,肯定会涉及一笔解约费,这又是公司需要考虑的另一个因素。 问题在于,这样的交易最终成行的可能性有多大,以及它能给这两家公司带来什么,是他们现有合作关系无法提供的。就像一位分析师对我说的那样,这听起来不太可能,但谁也说不准。
YouTube首席执行官指控OpenAI违反服务条款:AI训练数据伦理之争加剧
YouTube首席执行官尼尔·莫汉(Neal Mohan)猛烈抨击OpenAI,指控他们潜在违反服务条款,通过使用YouTube视频来训练他们的AI视频生成器Sora,该生成器距离发布仅有数月。尽管莫汉承认他没有具体证据,但他强调这种使用显然违反了YouTube的规则。 这一指控出现在关于AI模型训练数据伦理来源的辩论日益增长之际。OpenAI对Sora的具体训练数据来源保持沉默,但公司争相收集尽可能多的内容以推动他们的AI进步。目前,两家公司在AI领域都处于领先地位。 从内容创作者的角度来看,当创作者将他们的辛勤工作上传到我们的平台时,他们有一定的期望。其中一个期望是服务条款将被遵守。它不允许下载诸如转录或视频片段之类的内容,这是我们服务条款的明确违规。这些是我们平台内容的规则。 莫汉向公众保证,谷歌在训练其自己的AI模型Gemini时,会在使用任何YouTube视频之前与创作者签订个别合同;这是相当虚伪的,不是吗?这引发了关于谷歌数据使用立场的问题——它在面对竞争对手时保护创作者,但为了自己的利益采用类似策略。 巴里·施瓦茨(Barry Schwartz)正确总结道: 这就是谷歌如何训练其像Gemini这样的LLMs(大型语言模型)。它从网站、文章、书籍和其他内容收集数据。复杂的算法分析数据以提高语言理解能力。这有助于AI模型更准确地执行任务,如翻译语言、生成创意文本和回答问题。 是否OpenAI确实在抓取YouTube内容尚待观察,但这一情况暴露了谷歌生态系统内的潜在双重标准。
Quantinuum与微软携手突破:开创容错量子计算新纪元
Quantinuum,这家全球最大的综合量子计算公司,与微软合作,实现了让容错量子计算成为现实的突破,通过展示具有主动综合提取功能的最可靠逻辑量子位,这是之前认为还需数年才能实现的成就。 这一成就源自Quantinuum拥有行业领先的保真度、可扩展性和灵活性的32量子位H2量子处理器(由霍尼韦尔提供动力),结合了微软高度创新的错误纠正能力。联合团队使用H2上可用的32个物理量子位中的30个创建了四个逻辑量子位,创造了两家公司都宣称为“最可靠的逻辑量子位”。他们还成功展示了综合提取,这是实现容错量子计算的另一个关键里程碑。 在微软所描述的“第二级弹性”新时代,量子计算能够处理由错误引起的问题,并开始解决有意义的挑战,如模拟分子和材料的状态、模拟凝聚态物理系统,以及探索许多领域问题的解决方案。根据微软的严格标准,多个纠缠逻辑量子位的展示,以及逻辑量子位的性能超过物理量子位,标志着量子计算进入这一长期期待的第二阶段的转变。 Quantinuum和微软之间的合作建立了行业的一个关键进步,并展示了通向混合经典-量子超级计算的关键里程碑,这种计算能力有望改变科学发现。 作为领导者,我们将继续比竞争对手更快地创新,通过硬件创新和开发应用程序来利用这个真正的逻辑量子位的新时代。我们将继续确保我们的客户是第一个从这些和未来的突破中受益的人。我很兴奋地看到他们如何利用可靠的量子计算,为他们最具挑战性的问题生成比以往任何时候都更强大的解决方案。
点亮创意:ChatGPT如何搭桥DALL-E图像编辑新纪元
OpenAI 刚刚宣布,现在您可以在 ChatGPT 中编辑由 DALL-E 生成的图片了,这项新功能遍及网络、iOS 和 Android 平台。此外,ChatGPT 现在还能在界面中显示 DALL-E 图片的风格灵感。 对于不熟悉的朋友们来说,DALL-E 是 OpenAI 推出的一款基于生成式 AI 的文本到图片生成工具,已经整合到了 ChatGPT 中,但只对 ChatGPT Plus 订阅者开放。直到最近,ChatGPT 只允许用户基于文本提示生成图片。现在,OpenAI 启用了在 ChatGPT 平台上编辑 DALL-E 生成图片的选项。 为了图片编辑,OpenAI 推出了一个新的编辑器界面,包括了“使用选择工具”——通过点击 DALL-E 生成的图片即可访问。利用选择工具,用户可以选中图片中要编辑的区域,然后在聊天中以文本提示的形式描述更改。此外,用户还可以在对话面板中提供想要的编辑提示。 OpenAI 建议为了获得更好的结果,应该围绕编辑区域选择更大的空间。在图片编辑工具界面中,还有撤销、重做和清除选择的选项,以便进行更改或重新开始编辑。界面允许添加、移除和更新图片的部分内容。提交提示后,可以通过点击编辑器右上角的“保存”按钮保存图片。 除此之外,还有另一种通过简单提供提示来编辑图片的选项。使用这种方法,用户需要在 DALL-E 编辑器界面右侧的对话面板中给出所需的提示。 在 ChatGPT 移动应用上使用 DALL-E 进行图片编辑的体验与网页版相似,用户可以在 Android 和 iOS 上的 ChatGPT 移动应用中编辑 DALL-E 界面上生成的图片。在智能手机应用中,选择生成的图片后,将显示四个编辑选项——编辑、选择、保存和分享。通过选择“选择”选项,用户可以使用选择工具突出显示他们想要编辑的图片部分。工具界面左侧的滑块允许您改变选择工具的大小。与网页客户端一样,屏幕底部有撤销和重做按钮,用于撤销和重做选择。编辑完成后,用户可以在屏幕右下角点击“下一步”。在那里,用户可以为他们想在突出显示的区域中进行的更改提供提示。