最近,谷歌在其Cloud Next大会上大放异彩,推出了针对企业级的AI代码完成和辅助工具——Gemini Code Assist。这个工具其实是老牌Duet AI的换新标和大升级混搭版,它原本在2023年末向大众开放,那时谷歌就已经在暗示,将会从Codey模型过渡到Gemini。 在拉斯维加斯举办的3万人大会上,谷歌展示了Code Assist,这款工具将通过VS Code和JetBrains等流行编辑器插件提供。比起以往的Duet AI,Code Assist不仅仅是个名字上的变化,更是功能和性能上的飞跃,直接向GitHub的Copilot Enterprise发起挑战,而不仅仅是针对普通版的Copilot。 Code Assist的一大卖点是支持Gemini 1.5 Pro,这个版本拥有高达一百万令牌的上下文窗口,这意味着谷歌的这个工具能够整合并利用比竞争对手更多的上下文信息。这不仅能提高代码建议的准确性,还能支持对大块代码的推理和修改。 谷歌的云平台及技术基础设施副总裁Brad Calder在发布会前的新闻发布会上表示:“这次升级带来了业界最大的一百万令牌上下文窗口,这使得客户可以在整个代码库中进行大规模的修改,实现以前不可能的AI辅助代码转换。” 像GitHub Enterprise一样,Code Assist也可以根据公司内部的代码库进行微调。这种定制功能目前还在预览阶段。 另一个让Code Assist脱颖而出的特点是它能够支持部署在本地、GitLab、GitHub以及Atlassian的BitBucket等的代码库,还能支持分布在不同服务之间的代码库。这是谷歌在这一领域最受欢迎的竞争对手目前还不提供的功能。 谷歌还与多家以开发者为中心的公司合作,将他们的知识库整合到Gemini中。Stack Overflow就在今年早些时候宣布了与谷歌云的合作。Datadog、Datastax、Elastic、HashiCorp、Neo4j、Pinecone、Redis、Singlestore和Snyk现在也通过类似的合作伙伴关系加入了谷歌。 当然,真正的考验是开发者如何反应以及这些建议对他们的帮助有多大。谷歌通过支持各种代码仓库和提供巨大的上下文窗口正朝着正确的方向迈进,但如果延迟太高或者结果并不理想,这些功能都显得无足轻重。如果它的表现不能显著超过已经领先一步的Copilot,它可能会步AWS的CodeWhisperer的后尘,后者似乎几乎没有任何动力。 除了Code Assist,谷歌今天还发布了CodeGemma,这是其Gemma系列中的一个新的开放模型,专为代码生成和辅助进行了调优,现已通过Vertex AI提供。 此外,谷歌今天还宣布了Gemini Cloud Assist,以帮助“云团队设计、操作和优化他们的应用生命周期”。这个工具可以生成符合公司需求的架构配置,例如,根据所需设计成果的描述。它还可以帮助诊断问题并 找到其根源,以及优化公司的云使用,以降低成本或提高性能。 Cloud Assist将通过聊天界面直接嵌入到多个谷歌云产品中。
微软对其基于Arm的Windows系统终将超越苹果充满信心
下个月在西雅图的一场活动上,微软即将全面展示其“AI PC”愿景。知情人士向 The Verge 透露,微软对其新一轮的Windows笔记本电脑充满信心,这些笔记本搭载的Arm处理器将在CPU性能和AI加速任务上超越苹果搭载M3处理器的MacBook Air。 经过多年的等待和高通的一些未兑现的承诺,微软现在认为即将推出的Snapdragon X Elite处理器将为Windows on Arm带来期待已久的性能飞跃,促使微软更加积极地推动Windows on Arm的发展。微软现在押注于高通即将推出的Snapdragon X Elite处理器,这些处理器将被用于今年推出的多款Windows笔记本电脑以及微软最新的面向消费者的Surface硬件。 微软对这些新的高通芯片非常有信心,计划展示多个演示,展示这些处理器在CPU任务、AI加速乃至应用仿真方面的速度将超过M3 MacBook Air。微软在内部文件中声称,这些新的Windows AI PC将拥有“比苹果Rosetta 2更快的应用仿真速度” —— Rosetta 2是苹果在其Apple Silicon Mac上用来将为64位Intel处理器编译的应用转换为苹果自家处理器的应用兼容层。 应用仿真在过去十年中一直是Windows on Arm的一个大问题,但微软在两年多前为Windows 11提供了x64应用仿真支持。这有助于确保在没有原生ARM64版本的情况下,应用程序可以在Windows on Arm设备上运行。对于即将推出的Windows on Arm笔记本电脑而言,原生Arm应用是提升性能的关键,而谷歌最近也刚刚发布了适用于这些即将推出的设备的ARM64版Chrome。 微软已经宣布了搭载Intel处理器的Surface Pro 10。我还被告知,微软计划在即将推出的Surface Pro 10和Surface Laptop 6的消费者型号中使用高通的Snapdragon X Elite处理器,而不是英特尔的Core Ultra芯片。微软已经宣布了搭载Intel Core Ultra处理器的Surface Pro 10和Surface Laptop 6的面向商务的版本,但Arm型号将面向消费者市场。 微软内部将搭载高通Snapdragon X Elite处理器的设备称为“下一代AI副驾驶PC”,意在与运行AMD最新芯片甚至英特尔Core Ultra处理器的现有PC区别开来。这一新类别的PC将首先获得新的AI驱动的Windows功能,包括一个名为AI Explorer的应用,让你“检索你在设备上看过或做过的任何事情”。…
Meta 的 Llama 模型系列即将迎来第三次大更新
Meta 最近在他们的 Llama 模型家族上又搞大动作,准备迎来第三次大升级——Llama 3。他们的目标是让这些模型更大(高达1400亿参数),更开放,性能更棒。虽然最庞大的模型还得等上一阵,但下周我们可能就能见到些小一号的版本。 别慌,让我来细说: Meta 的这次升级,让 Llama 3 模型家族的小弟们可能下周就跑出来见人了。这从 Llama 2 的框架上改良过来的,主打开源策略,不同大小的模型基于它们的参数量来划分。去年 Meta 就开始推这种大规模的开源语言模型,参数从70亿到700亿不等。现在,就连70亿参数的模型也被看作小巫见大巫了。 但现在市场上其他公司,比如 Mistral,也在推出同级别的强力模型,Llama 2 的70亿版本已经不是领头羊了。Meta 此举,意在通过推出 Llama 3 系列的小型版本来重夺市场。这些模型到底有多小还是个谜。是会延续 Llama 7亿和130亿的老路线,还是像微软的 Phi 和谷歌的 Gemma 那样,试水20亿参数的新级别? 为何你要关注这件事? 开源模型可以在你的设备上本地运行,不需联网。这样一来,既快速又保私隐,有时候还能省下不少成本。虽然这类模型处理长篇生成任务时表现不佳,但别误会,随着这类模型近年来的进步,它们的表现已经大大超过了 GPT-3.5。 不过,它们主要还是在特定任务上经过微调后使用,比如执行简单的 API 调用,或是提供设备助手服务(像是 Siri、Alexa 等)。
Meta的新AI深度伪造策略:增加标签,减少下架
Meta 最近调整了其关于人工智能生成内容和经过操纵的媒体的规则,这是在其监督委员会的批评之后作出的决定。从下个月开始,Meta将对更广泛的此类内容进行标记,包括在深度伪造内容上加贴“由AI制作”的标签。当内容以其他可能对重要问题误导公众的方式被操纵时,还可能显示额外的上下文信息。 这一举措可能导致这家社交网络巨头标记更多可能具有误导性的内容——这在全球多地进行选举的一年里尤为重要。然而,对于深度伪造内容,Meta只会在内容具有“行业标准的AI图像指示”或上传者已声明内容是AI生成的情况下才加标签。 不符合这些条件的AI生成内容可能会未经标记地发布。 这一政策变动也可能导致更多的AI生成内容和操纵媒体留在Meta的平台上,因为Meta正转向更注重“提供透明度和额外上下文”的方法来处理这些内容,这被视为一种比移除操纵媒体(考虑到与之相关的言论自由风险)更好的处理方式。 因此,对于Meta平台如Facebook和Instagram上的AI生成或其他方式操纵的媒体,基本策略似乎是:增加标签,减少下架。 Meta表示,从七月开始,将不再仅仅因为当前的操纵视频政策就移除内容,在周五发布的博客文章中补充说:“这一时间表给人们时间了解自我披露过程,在我们停止移除少量操纵媒体之前。” 这种方法的改变可能是为了应对对Meta内容审核和系统风险的日益增长的法律要求,例如欧盟的数字服务法案。自去年八月以来,该法律已对其两个主要社交网络施加了一系列规则,要求Meta在清除非法内容、减少系统风险和保护言论自由之间找到平衡。欧盟还在增加对平台的压力,敦促科技巨头在技术上可行的情况下为深度伪造内容加水印,特别是在即将到来的六月的欧洲议会选举之前。 即将到来的美国总统选举在十一月也可能是Meta考虑的因素之一。 Meta的咨询委员会,这个由科技巨头资助但允许独立运作的机构,虽然只审查了极少数的内容审核决定,但也可以提出政策建议。Meta并不一定接受委员会的建议,但在这种情况下,它已同意修改其方法。 在周五发布的博客文章中,Meta内容政策副总裁Monika Bickert表示,公司根据委员会的反馈修改了关于AI生成内容和操纵媒体的政策。她写道:“我们同意监督委员会的观点,认为我们现有的方法过于狭窄,因为它只涵盖通过AI创建或修改的视频,使人似乎说了他们未曾说过的话。” 今年早些时候,Meta宣布正在与行业中的其他公司合作,开发用于识别AI内容的共同技术标准,包括视频和音频。它依靠这一努力现在扩大合成媒体的标记。 Bickert指出:“我们在AI生成的视频、音频和图像上的‘由AI制作’标签将基于我们对AI图像的行业共享信号的检测,或人们自我披露他们正在上传AI生成内容。” 这项扩展政策将覆盖“除了监督委员会建议标记的操纵内容之外的更广泛内容范围”,据Bickert说。 她写道:“如果我们确定数字创建或修改的图像、视频或音频在重要问题上具有特别高的误导公众的风险,我们可能会添加更显眼的标签,以便人们获得更多信息和上下文。” “这种总体方法为人们提供了更多关于内容的信息,以便他们能更好地评估内容,并在他们在其他地方看到相同内容时提供上下文。” Meta表示,除非操纵内容违反其他政策(如选民干预、欺凌和骚扰、暴力和煽动或其他社区标准问题),否则不会移除操纵内容——无论是基于AI的还是其他方式操纵的。如上所述,它可能会在某些公众高度关注的情景中添加“信息标签和上下文”。 Meta的博客文章强调了其所说的与近100个独立事实核查者的网络合作,这些核查者将帮助识别与操纵内容相关的风险。 这些外部实体将继续审查错误和误导性的AI生成内容,据Meta说。当他们将内容评为“虚假或修改”时,Meta表示将通过应用算法更改来回应,这些更改将减少内容的传播——意味着这些内容在Feed中的位置会更低,从而 减少人们看到它的机会,除此之外,Meta还会在那些最终看到内容的人的界面上添加额外信息的覆盖标签。 随着合成内容的激增,这些第三方事实核查者的工作量似乎将增加,这主要是由生成AI工具的繁荣驱动的。而且因为这种政策转变,更多这样的内容似乎将保留在Meta的平台上。
Anthropic 的 Claude 3 现能从数百个选项中可靠地挑选出合适的工具来完成任务
Anthropic公司最新升级了他们的AI模型Claude 3,这一次的大招是添加了对外部工具的支持。这意味着Claude 3可以自动访问文档或进行更复杂的计算。根据Anthropic的说法,Claude 3能从数百个选项中可靠地选择合适的工具来完成任务。 客户可以通过结构化的API,让Claude访问内部知识数据库、实时数据和复杂计算。此外,Claude还能指挥子代理来处理更细致的请求,这使得AI模型可以通过定制功能来处理更广泛的任务。 工具必须由API用户提供,因为Claude本身并不内置任何工具功能。每个工具都有一个名称、详细描述和一个JSON格式的输入模式。 Anthropic建议在工具描述中提供尽可能多的细节和上下文,以便Claude能学会正确使用它们。描述的重要性甚至超过了使用示例。每个工具的描述应该至少包括三到四句话,解答如下问题: 如果Claude识别出合适的工具,API会返回一个带有“tool_use”原因的响应。基于工具名称和输入,功能可以在客户端执行,并将结果返回给Claude。 根据任务的不同,Claude会展示一个“思考链”,逐步考虑如何使用哪些工具。这提供了对其决策过程的洞察,并有助于调试。对于更复杂的模型,如Sonnet,可以通过特殊的提示来激发思考链。 Anthropic表示,顶级模型Opus最能够结合多个复杂工具,并处理缺失的参数。如果需要,它会请求更多信息。 较小的Haiku模型即使没有明确的参数也尝试调用工具。总体而言,Anthropic表示,Claude可以可靠地从数百个选项中选择正确的工具。 随着设计精良的工具的引入,Claude的应用范围可以大大扩展。API文档中包含了许多例子,展示了如何将Claude用作客户服务助手、提取结构化数据或控制子代理。
Altman 与前苹果设计师 Ive 合作的 AI 设备:别期待它长得像手机哦!
据《The Information》报道,一家初创公司正在与多家大型风险投资公司进行融资谈判,包括与 Altman 和 Ive 是朋友的 Emerson Collective 和 Thrive Capital。软银CEO孙正义也参与了早期的讨论,但他目前的参与程度尚不清楚。 据悉,Ive 正在寻求高达10亿美元的融资。Thrive Capital 此前已经对 OpenAI 进行了投资,OpenAI 的语言模型有可能为所提议的设备的某些功能提供动力。 熟悉这些讨论的人士表示,这款AI设备将主要通过语音互动提供自然而直观的用户体验,并且它的外观不会像手机。 类似的面向消费者的概念性AI硬件,如 Rabbit R1 和 Humane pin,使用的是能执行任务的动作驱动语言模型,如个人助理,不仅可以回答问题,还可以进行详细的网页搜索和预订机票。 如果成功,这一项目可能会增强 OpenAI 在与 Meta、谷歌和苹果等竞争对手的竞争中的地位,后者都在争相开发配备语音助手的AI驱动设备。但该项目仍处于初期阶段。OpenAI 和微软的竞争对手已经在市场上推出了数亿台启用AI的硬件设备。 一些持怀疑态度的投资者警告,对于这一未经证实的产品类别,在早期阶段给予高估值是不明智的。目前尚不清楚 OpenAI 是否会在 Altman 和 Ive 的硬件公司中持有财务股份。 此外,作为 OpenAI 首席执行官,Altman 还在从事其他辅助项目,包括一个开发和制造 AI 训练和推理芯片的网络,这可能与 Nvidia 竞争。预计 OpenAI 将参与并成为该公司的客户。
牛顿:Archetype AI 的开创性模型,实时解读真实世界的新宠儿
新晋科技公司Archetype AI (Home)最近搞大动作,推出了他们首个“实体AI”模型——牛顿。这玩意儿不是普通的聊天机器人哦,它能够解读各种传感器数据,再加上自然语言处理技术,实时回答关于真实世界的各种问题。 别的AI只会对着文本和图片训练,牛顿却不同,它从加速度计、陀螺仪、雷达、相机、麦克风到温度计等各种传感器中汲取营养。它的使命是将这些传感器数据与自然语言结合起来,解读环境中发生的事,帮助人类捕捉那些复杂或者快速变化的信息。 Archetype AI的首席执行官Ivan Poupyrev信心满满,他表示,“世界上最大的问题是实体问题,不是数字问题。”牛顿可以监控包裹中的运动传感器,报告内容物是否已损坏,或者解析家庭或工厂中的数据,用平实的语言告诉你发生了什么。 此外,牛顿的首批客户包括Infineon、大众汽车以及其他一些在汽车、消费电子、建筑、物流和零售行业的公司。Archetype AI已经从Venrock这样的风险投资公司那里筹集到1300万美元的种子基金,亚马逊工业创新基金和日立创投也是投资者之一。 这笔新资金将用于扩大Archetype AI的团队并扩展平台,以适应多种行业的多种用途,为即将到来的“万亿传感器经济”做准备。这家公司的创始团队中有来自谷歌高级技术和项目(ATAP)组的前高管,还有从迪士尼、索尼、三星、NASA、斯坦福和麻省理工等公司和机构的资深人士。 总的来说,Archetype AI带着他们的超级模型牛顿,准备在真实世界和数字世界之间架起一座桥梁,让复杂的信息变得触手可及。
职场新变革:AI赋能ICT劳动力联盟的行动与展望
今天,思科和其他八家大公司宣布,他们将组建一个名为“AI赋能ICT劳动力联盟”的新组织。这个组织的主旨是啥呢?简单来说,就是想把生成式AI的玩法教给更多的工作人员,让他们掌握未来可能成为硬通货的AI技能。他们的第一个动作是搞一个大报告,看看现在人们对AI的了解有多深,顺便提供一些实用的建议,让公司和员工都能从中受益。 这些组织里不乏一些重量级的玩家,比如谷歌、IBM、英特尔和微软等。他们合作的一个重要原因,是之前美国和欧盟的贸易与技术理事会里面的一个小组,也在推动类似的事务。 思科的高级副总裁兼全球创新官Guy Diedrich说,这个联盟的成立,其实也是为了更好地整合这些公司丰富的经验。他透露,AI技术其实早在十多年前就已经被他们用在产品中了。只不过,现在整个行业都在经历一场变革。 Diedrich还提到,随着AI技术的不断进步,一些重复性高的工作可能会逐渐被AI取代。但同时,那些需要创造力和解决问题能力的职位,将变得越来越重要。他强调,理解企业中AI知识的现状,对于解决AI系统可能带来的偏见问题也至关重要。 他们还计划通过这个联盟,将AI的信息传播给更多不同背景的人,确保技术的多元化和公正性。如果做不到这一点,那么现有的偏见只会通过AI得到更高效的扩散。 SAP的副总裁Nicole Helmer也表示,尽管很多人担心AI会大量取代人类的工作,但技术的发展总体上是创造了更多的工作机会。她认为,未来的关键将是提升人们的AI素养,就像过去几十年提升数字素养一样。 这个组织的第一份报告计划在今年夏天发布。Diedrich透露,他们希望能将研究结果公之于众,帮助更多人理解AI对工作的影响,并做好相应的准备。
幽灵伙伴升级记:苹果Vision Pro的空间化人格新玩法
从今天开始,使用Vision Pro的小伙伴们不再只能在FaceTime通话中飘来飘去像个幽灵啦!现在,你们可以在支持SharePlay的应用里使用它们来协作、游戏或者和朋友们一起看视频了。 苹果将这一功能称为“空间化人格”。他们的想法是,让你感觉就像和其他用户处在同一个物理空间一样。这个功能去年开发者预览会上有展示,但直到现在才在实际的Persona测试版中推出。这听起来有点难以想象,不过你可以在下面的视频中看看实际效果。 据说,每个用户都可以控制自己看到的内容,并重新定位对象的位置,而不会影响到其他用户的视图。空间音频也将帮助你感知到对方在虚拟空间中的位置。 想要启用这个功能,你得确保自己的设备运行的是VisionOS 1.1或更高版本,并在FaceTime通话中选择空间化人格选项。一次最多可以有五个人参与到一个空间化人格会话中。 我们还得测试一下这个功能的实际表现如何,特别是它依赖于SharePlay,而Vision Pro的应用商店现在还比较空荡荡的。在我看电影时,能否通过邀请另一个幽灵伙伴来减少寂寞感,这还有待观察呢。
微软推出GPT-4 Turbo优先使用权:Copilot for Microsoft 365商业用户享受无限制对话及增强图像生成能力
微软为其AI驱动的Copilot助手的商业订阅者推出了GPT-4 Turbo的优先使用权。这使得用户能够在Copilot移动应用、网络、Windows和Edge中使用OpenAI最新的模型,作为每月每用户30美元的Copilot for Microsoft 365服务的一部分。 虽然Copilot Pro的消费者已经能够使用GPT-4 Turbo,但现在,使用Copilot for Microsoft 365的企业用户也能够访问这一服务,并且在每日的聊天次数和每次对话的轮次上没有限制。 GPT-4 Turbo将在Copilot for Microsoft 365中提供,用于网络查询最新的公开信息,以及跨工作数据的使用,比如查询邮件、文档、会议等。OpenAI的最新模型还支持在单个提示中处理多达300页文本,使其更加适用于分析文件。 此外,微软还在为Copilot for Microsoft 365的商业订阅者改进Microsoft Designer中的图像生成能力。本月晚些时候,用户将能够每天创建100张图像,而之前的限制是每天15张。这一功能使用的是OpenAI的DALL-E 3模型,微软表示图像生成请求将会“迅速”,以减少图像创建的等待时间。