Meta 最近在他们的 Llama 模型家族上又搞大动作,准备迎来第三次大升级——Llama 3。他们的目标是让这些模型更大(高达1400亿参数),更开放,性能更棒。虽然最庞大的模型还得等上一阵,但下周我们可能就能见到些小一号的版本。 别慌,让我来细说: Meta 的这次升级,让 Llama 3 模型家族的小弟们可能下周就跑出来见人了。这从 Llama 2 的框架上改良过来的,主打开源策略,不同大小的模型基于它们的参数量来划分。去年 Meta 就开始推这种大规模的开源语言模型,参数从70亿到700亿不等。现在,就连70亿参数的模型也被看作小巫见大巫了。 但现在市场上其他公司,比如 Mistral,也在推出同级别的强力模型,Llama 2 的70亿版本已经不是领头羊了。Meta 此举,意在通过推出 Llama 3 系列的小型版本来重夺市场。这些模型到底有多小还是个谜。是会延续 Llama 7亿和130亿的老路线,还是像微软的 Phi 和谷歌的 Gemma 那样,试水20亿参数的新级别? 为何你要关注这件事? 开源模型可以在你的设备上本地运行,不需联网。这样一来,既快速又保私隐,有时候还能省下不少成本。虽然这类模型处理长篇生成任务时表现不佳,但别误会,随着这类模型近年来的进步,它们的表现已经大大超过了 GPT-3.5。 不过,它们主要还是在特定任务上经过微调后使用,比如执行简单的 API 调用,或是提供设备助手服务(像是 Siri、Alexa 等)。
Author: aitrendtrackers@rengongzhineng.io
Meta的新AI深度伪造策略:增加标签,减少下架
Meta 最近调整了其关于人工智能生成内容和经过操纵的媒体的规则,这是在其监督委员会的批评之后作出的决定。从下个月开始,Meta将对更广泛的此类内容进行标记,包括在深度伪造内容上加贴“由AI制作”的标签。当内容以其他可能对重要问题误导公众的方式被操纵时,还可能显示额外的上下文信息。 这一举措可能导致这家社交网络巨头标记更多可能具有误导性的内容——这在全球多地进行选举的一年里尤为重要。然而,对于深度伪造内容,Meta只会在内容具有“行业标准的AI图像指示”或上传者已声明内容是AI生成的情况下才加标签。 不符合这些条件的AI生成内容可能会未经标记地发布。 这一政策变动也可能导致更多的AI生成内容和操纵媒体留在Meta的平台上,因为Meta正转向更注重“提供透明度和额外上下文”的方法来处理这些内容,这被视为一种比移除操纵媒体(考虑到与之相关的言论自由风险)更好的处理方式。 因此,对于Meta平台如Facebook和Instagram上的AI生成或其他方式操纵的媒体,基本策略似乎是:增加标签,减少下架。 Meta表示,从七月开始,将不再仅仅因为当前的操纵视频政策就移除内容,在周五发布的博客文章中补充说:“这一时间表给人们时间了解自我披露过程,在我们停止移除少量操纵媒体之前。” 这种方法的改变可能是为了应对对Meta内容审核和系统风险的日益增长的法律要求,例如欧盟的数字服务法案。自去年八月以来,该法律已对其两个主要社交网络施加了一系列规则,要求Meta在清除非法内容、减少系统风险和保护言论自由之间找到平衡。欧盟还在增加对平台的压力,敦促科技巨头在技术上可行的情况下为深度伪造内容加水印,特别是在即将到来的六月的欧洲议会选举之前。 即将到来的美国总统选举在十一月也可能是Meta考虑的因素之一。 Meta的咨询委员会,这个由科技巨头资助但允许独立运作的机构,虽然只审查了极少数的内容审核决定,但也可以提出政策建议。Meta并不一定接受委员会的建议,但在这种情况下,它已同意修改其方法。 在周五发布的博客文章中,Meta内容政策副总裁Monika Bickert表示,公司根据委员会的反馈修改了关于AI生成内容和操纵媒体的政策。她写道:“我们同意监督委员会的观点,认为我们现有的方法过于狭窄,因为它只涵盖通过AI创建或修改的视频,使人似乎说了他们未曾说过的话。” 今年早些时候,Meta宣布正在与行业中的其他公司合作,开发用于识别AI内容的共同技术标准,包括视频和音频。它依靠这一努力现在扩大合成媒体的标记。 Bickert指出:“我们在AI生成的视频、音频和图像上的‘由AI制作’标签将基于我们对AI图像的行业共享信号的检测,或人们自我披露他们正在上传AI生成内容。” 这项扩展政策将覆盖“除了监督委员会建议标记的操纵内容之外的更广泛内容范围”,据Bickert说。 她写道:“如果我们确定数字创建或修改的图像、视频或音频在重要问题上具有特别高的误导公众的风险,我们可能会添加更显眼的标签,以便人们获得更多信息和上下文。” “这种总体方法为人们提供了更多关于内容的信息,以便他们能更好地评估内容,并在他们在其他地方看到相同内容时提供上下文。” Meta表示,除非操纵内容违反其他政策(如选民干预、欺凌和骚扰、暴力和煽动或其他社区标准问题),否则不会移除操纵内容——无论是基于AI的还是其他方式操纵的。如上所述,它可能会在某些公众高度关注的情景中添加“信息标签和上下文”。 Meta的博客文章强调了其所说的与近100个独立事实核查者的网络合作,这些核查者将帮助识别与操纵内容相关的风险。 这些外部实体将继续审查错误和误导性的AI生成内容,据Meta说。当他们将内容评为“虚假或修改”时,Meta表示将通过应用算法更改来回应,这些更改将减少内容的传播——意味着这些内容在Feed中的位置会更低,从而 减少人们看到它的机会,除此之外,Meta还会在那些最终看到内容的人的界面上添加额外信息的覆盖标签。 随着合成内容的激增,这些第三方事实核查者的工作量似乎将增加,这主要是由生成AI工具的繁荣驱动的。而且因为这种政策转变,更多这样的内容似乎将保留在Meta的平台上。
Anthropic 的 Claude 3 现能从数百个选项中可靠地挑选出合适的工具来完成任务
Anthropic公司最新升级了他们的AI模型Claude 3,这一次的大招是添加了对外部工具的支持。这意味着Claude 3可以自动访问文档或进行更复杂的计算。根据Anthropic的说法,Claude 3能从数百个选项中可靠地选择合适的工具来完成任务。 客户可以通过结构化的API,让Claude访问内部知识数据库、实时数据和复杂计算。此外,Claude还能指挥子代理来处理更细致的请求,这使得AI模型可以通过定制功能来处理更广泛的任务。 工具必须由API用户提供,因为Claude本身并不内置任何工具功能。每个工具都有一个名称、详细描述和一个JSON格式的输入模式。 Anthropic建议在工具描述中提供尽可能多的细节和上下文,以便Claude能学会正确使用它们。描述的重要性甚至超过了使用示例。每个工具的描述应该至少包括三到四句话,解答如下问题: 如果Claude识别出合适的工具,API会返回一个带有“tool_use”原因的响应。基于工具名称和输入,功能可以在客户端执行,并将结果返回给Claude。 根据任务的不同,Claude会展示一个“思考链”,逐步考虑如何使用哪些工具。这提供了对其决策过程的洞察,并有助于调试。对于更复杂的模型,如Sonnet,可以通过特殊的提示来激发思考链。 Anthropic表示,顶级模型Opus最能够结合多个复杂工具,并处理缺失的参数。如果需要,它会请求更多信息。 较小的Haiku模型即使没有明确的参数也尝试调用工具。总体而言,Anthropic表示,Claude可以可靠地从数百个选项中选择正确的工具。 随着设计精良的工具的引入,Claude的应用范围可以大大扩展。API文档中包含了许多例子,展示了如何将Claude用作客户服务助手、提取结构化数据或控制子代理。
Altman 与前苹果设计师 Ive 合作的 AI 设备:别期待它长得像手机哦!
据《The Information》报道,一家初创公司正在与多家大型风险投资公司进行融资谈判,包括与 Altman 和 Ive 是朋友的 Emerson Collective 和 Thrive Capital。软银CEO孙正义也参与了早期的讨论,但他目前的参与程度尚不清楚。 据悉,Ive 正在寻求高达10亿美元的融资。Thrive Capital 此前已经对 OpenAI 进行了投资,OpenAI 的语言模型有可能为所提议的设备的某些功能提供动力。 熟悉这些讨论的人士表示,这款AI设备将主要通过语音互动提供自然而直观的用户体验,并且它的外观不会像手机。 类似的面向消费者的概念性AI硬件,如 Rabbit R1 和 Humane pin,使用的是能执行任务的动作驱动语言模型,如个人助理,不仅可以回答问题,还可以进行详细的网页搜索和预订机票。 如果成功,这一项目可能会增强 OpenAI 在与 Meta、谷歌和苹果等竞争对手的竞争中的地位,后者都在争相开发配备语音助手的AI驱动设备。但该项目仍处于初期阶段。OpenAI 和微软的竞争对手已经在市场上推出了数亿台启用AI的硬件设备。 一些持怀疑态度的投资者警告,对于这一未经证实的产品类别,在早期阶段给予高估值是不明智的。目前尚不清楚 OpenAI 是否会在 Altman 和 Ive 的硬件公司中持有财务股份。 此外,作为 OpenAI 首席执行官,Altman 还在从事其他辅助项目,包括一个开发和制造 AI 训练和推理芯片的网络,这可能与 Nvidia 竞争。预计 OpenAI 将参与并成为该公司的客户。
牛顿:Archetype AI 的开创性模型,实时解读真实世界的新宠儿
新晋科技公司Archetype AI (Home)最近搞大动作,推出了他们首个“实体AI”模型——牛顿。这玩意儿不是普通的聊天机器人哦,它能够解读各种传感器数据,再加上自然语言处理技术,实时回答关于真实世界的各种问题。 别的AI只会对着文本和图片训练,牛顿却不同,它从加速度计、陀螺仪、雷达、相机、麦克风到温度计等各种传感器中汲取营养。它的使命是将这些传感器数据与自然语言结合起来,解读环境中发生的事,帮助人类捕捉那些复杂或者快速变化的信息。 Archetype AI的首席执行官Ivan Poupyrev信心满满,他表示,“世界上最大的问题是实体问题,不是数字问题。”牛顿可以监控包裹中的运动传感器,报告内容物是否已损坏,或者解析家庭或工厂中的数据,用平实的语言告诉你发生了什么。 此外,牛顿的首批客户包括Infineon、大众汽车以及其他一些在汽车、消费电子、建筑、物流和零售行业的公司。Archetype AI已经从Venrock这样的风险投资公司那里筹集到1300万美元的种子基金,亚马逊工业创新基金和日立创投也是投资者之一。 这笔新资金将用于扩大Archetype AI的团队并扩展平台,以适应多种行业的多种用途,为即将到来的“万亿传感器经济”做准备。这家公司的创始团队中有来自谷歌高级技术和项目(ATAP)组的前高管,还有从迪士尼、索尼、三星、NASA、斯坦福和麻省理工等公司和机构的资深人士。 总的来说,Archetype AI带着他们的超级模型牛顿,准备在真实世界和数字世界之间架起一座桥梁,让复杂的信息变得触手可及。
职场新变革:AI赋能ICT劳动力联盟的行动与展望
今天,思科和其他八家大公司宣布,他们将组建一个名为“AI赋能ICT劳动力联盟”的新组织。这个组织的主旨是啥呢?简单来说,就是想把生成式AI的玩法教给更多的工作人员,让他们掌握未来可能成为硬通货的AI技能。他们的第一个动作是搞一个大报告,看看现在人们对AI的了解有多深,顺便提供一些实用的建议,让公司和员工都能从中受益。 这些组织里不乏一些重量级的玩家,比如谷歌、IBM、英特尔和微软等。他们合作的一个重要原因,是之前美国和欧盟的贸易与技术理事会里面的一个小组,也在推动类似的事务。 思科的高级副总裁兼全球创新官Guy Diedrich说,这个联盟的成立,其实也是为了更好地整合这些公司丰富的经验。他透露,AI技术其实早在十多年前就已经被他们用在产品中了。只不过,现在整个行业都在经历一场变革。 Diedrich还提到,随着AI技术的不断进步,一些重复性高的工作可能会逐渐被AI取代。但同时,那些需要创造力和解决问题能力的职位,将变得越来越重要。他强调,理解企业中AI知识的现状,对于解决AI系统可能带来的偏见问题也至关重要。 他们还计划通过这个联盟,将AI的信息传播给更多不同背景的人,确保技术的多元化和公正性。如果做不到这一点,那么现有的偏见只会通过AI得到更高效的扩散。 SAP的副总裁Nicole Helmer也表示,尽管很多人担心AI会大量取代人类的工作,但技术的发展总体上是创造了更多的工作机会。她认为,未来的关键将是提升人们的AI素养,就像过去几十年提升数字素养一样。 这个组织的第一份报告计划在今年夏天发布。Diedrich透露,他们希望能将研究结果公之于众,帮助更多人理解AI对工作的影响,并做好相应的准备。
幽灵伙伴升级记:苹果Vision Pro的空间化人格新玩法
从今天开始,使用Vision Pro的小伙伴们不再只能在FaceTime通话中飘来飘去像个幽灵啦!现在,你们可以在支持SharePlay的应用里使用它们来协作、游戏或者和朋友们一起看视频了。 苹果将这一功能称为“空间化人格”。他们的想法是,让你感觉就像和其他用户处在同一个物理空间一样。这个功能去年开发者预览会上有展示,但直到现在才在实际的Persona测试版中推出。这听起来有点难以想象,不过你可以在下面的视频中看看实际效果。 据说,每个用户都可以控制自己看到的内容,并重新定位对象的位置,而不会影响到其他用户的视图。空间音频也将帮助你感知到对方在虚拟空间中的位置。 想要启用这个功能,你得确保自己的设备运行的是VisionOS 1.1或更高版本,并在FaceTime通话中选择空间化人格选项。一次最多可以有五个人参与到一个空间化人格会话中。 我们还得测试一下这个功能的实际表现如何,特别是它依赖于SharePlay,而Vision Pro的应用商店现在还比较空荡荡的。在我看电影时,能否通过邀请另一个幽灵伙伴来减少寂寞感,这还有待观察呢。
微软推出GPT-4 Turbo优先使用权:Copilot for Microsoft 365商业用户享受无限制对话及增强图像生成能力
微软为其AI驱动的Copilot助手的商业订阅者推出了GPT-4 Turbo的优先使用权。这使得用户能够在Copilot移动应用、网络、Windows和Edge中使用OpenAI最新的模型,作为每月每用户30美元的Copilot for Microsoft 365服务的一部分。 虽然Copilot Pro的消费者已经能够使用GPT-4 Turbo,但现在,使用Copilot for Microsoft 365的企业用户也能够访问这一服务,并且在每日的聊天次数和每次对话的轮次上没有限制。 GPT-4 Turbo将在Copilot for Microsoft 365中提供,用于网络查询最新的公开信息,以及跨工作数据的使用,比如查询邮件、文档、会议等。OpenAI的最新模型还支持在单个提示中处理多达300页文本,使其更加适用于分析文件。 此外,微软还在为Copilot for Microsoft 365的商业订阅者改进Microsoft Designer中的图像生成能力。本月晚些时候,用户将能够每天创建100张图像,而之前的限制是每天15张。这一功能使用的是OpenAI的DALL-E 3模型,微软表示图像生成请求将会“迅速”,以减少图像创建的等待时间。
Alphabet考虑收购HubSpot:一个不太可能但未可知的大手笔动作
路透社周四爆料,谷歌母公司Alphabet正在考虑收购总部位于波士顿的HubSpot,一家市值超330亿美元的CRM和营销自动化公司——这个数字自从有了这份报告后就一直在爬升。 如果这笔交易真的成了,那得花不少银子,肯定得比现在的估值贵上一大截。毕竟,要让这家公司心甘情愿卖身成为搜索巨头的一部分,价格得诱人才行。值得一提的是,这两家公司之间已经有过合作了——他们合作使用谷歌广告来推动HubSpot的销售——有时候,这种合作关系就是收购谈判的开端。 虽然谷歌/Alphabet这些年来购买了不少公司,但它有史以来最大的一笔交易是在2011年斥资125亿美元收购了摩托罗拉移动。不过,它后来以29.1亿美元的价格把它卖给了联想,所以面对一个更大的价格标签,它可能会有点犹豫。更近一点的大手笔交易是在2022年花54亿美元收购了安全情报平台Mandiant。谷歌通常的收购都在30亿美元以下,所以这样的大手笔对公司来说绝对是不寻常的。 再加上最近几年大多数科技公司都在实行紧缩政策,以及谷歌CEO Sundar Pichai在一月份警告说还会有更多的裁员,这种紧缩氛围下的大手笔交易似乎不太可能,尤其是如果这种操作真的很重要的话,向员工解释起来可能也很棘手。不过,考虑到截至去年年底谷歌手头有1100亿美元的现金,如果它想要这么做的话,确实有足够的现金来进行这场操作。 另一个可能会让公司在尝试购买HubSpot时遇到的问题是,当前对大型交易的监管环境相当敌对。美国、英国和欧盟近来都在密切监视大型交易。有些交易,比如Adobe尝试以200亿美元收购Figma,因为竞争问题而未能成功。不过,不清楚Alphabet是否会面临相同的问题。HubSpot在CRM领域面临来自Adobe和Salesforce这样的强大竞争对手,两家公司都资金雄厚,所以这笔交易不会让谷歌在市场上占据主导地位,但如果存在风险,肯定会涉及一笔解约费,这又是公司需要考虑的另一个因素。 问题在于,这样的交易最终成行的可能性有多大,以及它能给这两家公司带来什么,是他们现有合作关系无法提供的。就像一位分析师对我说的那样,这听起来不太可能,但谁也说不准。
YouTube首席执行官指控OpenAI违反服务条款:AI训练数据伦理之争加剧
YouTube首席执行官尼尔·莫汉(Neal Mohan)猛烈抨击OpenAI,指控他们潜在违反服务条款,通过使用YouTube视频来训练他们的AI视频生成器Sora,该生成器距离发布仅有数月。尽管莫汉承认他没有具体证据,但他强调这种使用显然违反了YouTube的规则。 这一指控出现在关于AI模型训练数据伦理来源的辩论日益增长之际。OpenAI对Sora的具体训练数据来源保持沉默,但公司争相收集尽可能多的内容以推动他们的AI进步。目前,两家公司在AI领域都处于领先地位。 从内容创作者的角度来看,当创作者将他们的辛勤工作上传到我们的平台时,他们有一定的期望。其中一个期望是服务条款将被遵守。它不允许下载诸如转录或视频片段之类的内容,这是我们服务条款的明确违规。这些是我们平台内容的规则。 莫汉向公众保证,谷歌在训练其自己的AI模型Gemini时,会在使用任何YouTube视频之前与创作者签订个别合同;这是相当虚伪的,不是吗?这引发了关于谷歌数据使用立场的问题——它在面对竞争对手时保护创作者,但为了自己的利益采用类似策略。 巴里·施瓦茨(Barry Schwartz)正确总结道: 这就是谷歌如何训练其像Gemini这样的LLMs(大型语言模型)。它从网站、文章、书籍和其他内容收集数据。复杂的算法分析数据以提高语言理解能力。这有助于AI模型更准确地执行任务,如翻译语言、生成创意文本和回答问题。 是否OpenAI确实在抓取YouTube内容尚待观察,但这一情况暴露了谷歌生态系统内的潜在双重标准。