什么是CodeGemma CodeGemma是谷歌开发的一系列专注于代码的大型语言模型(LLM)家族,基于先前训练好的2B和7B Gemma检查点。CodeGemma进一步在主要是英语的数据、数学和编程代码上训练了额外的5000亿标记,以增强逻辑和数学推理能力,适用于代码补全和生成。 CodeGemma 2B专门针对代码填充训练,适用于需要快速代码补全和生成的场景,特别是在延迟和/或隐私非常关键的环境中。CodeGemma 7B的训练数据包括80%的代码填充数据和20%的自然语言,可以用于代码补全以及代码和语言的理解和生成。CodeGemma 7B Instruct经过了针对指令跟随的微调,特别适用于围绕代码、编程或数学推理话题的对话使用。所有模型都维持与其前代相同的8000标记的上下文大小。 评估结果 在Python的HumanEval基准测试中,CodeGemma-7B在同等大小的7B模型中表现出色,除了DeepSeek-Coder-7B外。对Java、JavaScript和C++等其他编程语言的评估也显示出优秀的性能,这些语言的评估是通过MultiPL-E(HumanEval的翻译)进行的。技术报告显示,该模型在GSM8K上的表现在7B模型中最佳。指令版本CodeGemma-7B-it在HumanEval和MBPP上对最受欢迎的语言表现得更好。 使用CodeGemma 你可以在这个空间或下面嵌入的聊天机器人中轻松尝试CodeGemma模型(70亿参数): 这个空间展示了由谷歌开发的CodeGemma-7B-it模型。CodeGemma是基于Gemma之上构建的一系列轻量级开放代码模型。随意使用,或复制以私下运行!https://huggingface.co/spaces/ysharma/CodeGemma Prompt格式 对于CodeGemma 2B和CodeGemma 7B模型,它们使用填充(infilling)技术来进行代码补全,这包括代码、注释、文档字符串和导入语句。CodeGemma通过“填充中间”(FIM)目标进行训练,你需要提供前缀和后缀作为补全的上下文。使用以下标记来分隔输入的不同部分: 此外,还有提供多文件上下文的标记。具体使用示例将在“与Transformers一起使用”部分展示。 对于CodeGemma 7B Instruct模型,它使用与基础Gemma指令调优版本相同的提示格式,遵循以下对话结构: 像Gemma模型一样,复现这种格式最简单的方法是使用Transformers库中提供的聊天模板。这些模板通过预定义的标记来结构化输入和输出,从而简化了与模型的交互过程,并使其更易于集成和使用。使用这种结构化输入,模型能够更准确地解析和响应用户的查询,这对于构建交互式AI应用尤为重要。 使用Transformers 最新4.39版的变压器大放异彩,带来了CodeGemma这个新玩意儿,让你可以在Hugging Face生态系统中尽情挥洒,例如: – 训练和推断的脚本样例– 安全的文件格式(safetensors)– 配合比特小零件的4位量化工具,PEFT高效调参技术,还有闪电般的注意力机制2代– 各种小工具助你运行模型– 轻松部署模型的出口机制像Gemma模型一样,CodeGemma也能和torch.compile()完美配合,给推断速度来个大提升。 惊喜加码:我们还特地准备了一个Colab笔记本,让你一键试用这个模型哦。 想要加入CodeGemma的酷炫行列,先来个升级保持最新: 下面这段代码示范如何用transformers来实现codegemma-2b的代码补全。记得,这玩意儿大概要6GB的RAM,用float16精度就能在你的家用GPU上跑起来。 注意,光标位置的 token 会告诉你代码该从哪儿接着写。这段代码的结果可能如下: CodeGemma 7B通常会比较啰嗦,可能会在代码完结后还不自觉地多嘴几句。如果想要提前结束生成,可以设置一些终止符,像这样: 这样一来,一旦碰到任何一个终止符,生成就会立刻停止。 Google Cloud集成 你可以通过Vertex AI或Google Kubernetes Engine(GKE)在谷歌云上部署和训练Gemma,使用文本生成推理和Transformers。 推理端点集成 你还可以在Hugging Face的推理端点上部署CodeGemma,该端点使用文本生成推理作为后端。文本生成推理是Hugging Face开发的生产就绪的推理容器,使大型语言模型的部署变得简单。它具有连续批处理、令牌流处理、多GPU上的张量并行快速推理等特性,并在Apache 2许可下分发。 想要了解更多关于使用Hugging Face推理端点部署大型语言模型的信息,请查看之前的博客文章。注意,T4s不支持bfloat16格式,因此你将需要使用不同的GPU选项。 这就是关于CodeGemma及其在代码生成、补全和对话使用方面的潜力和应用的概述,以及如何将其与现有的云和推理服务集成的详细信息。…
Author: aitrendtrackers@rengongzhineng.io
双子座 Gemini1.5和谷歌的本质
昨天谷歌云端服务年度主题演讲的主要信息不容错过:谷歌拥有最佳的人工智能基础设施。这是首席执行官桑达尔·皮查伊在视频问候中的言论: 我想强调谷歌云显示如此进步的几个原因。其中之一是我们对人工智能的深度投资。我们早已知道人工智能将改变每一个行业和公司,包括我们自己。这就是为什么我们在过去十年中一直在构建人工智能基础设施,包括现已进入第五代的TPU。这些进步帮助客户训练并运行前沿的语言模型。这些投资使我们站在了人工智能平台转变的最前沿。 谷歌云CEO托马斯·库里安也明确表示了优先事项: 今天我们将专注于谷歌如何帮助领先公司转型,成为数字和人工智能领导者,这是通向云端的新方式。我们有许多重要的进展,从我们的基础设施开始。 然而,关于主题演讲最有趣的部分是该基础设施所能实现的事物,以及这关于谷歌竞争能力的表述。 落地 关于大型语言模型(LLM)最令人惊讶的事情之一是它们所知道的内容;从一开始,幻觉就是一个问题。当然,幻觉是LLM如此令人印象深刻的部分原因:计算机实际上在创造!这也是一个对于这次主题演讲的企业客户来说并不特别令人印象深刻的特征。为此,库里安在讨论谷歌基础设施优势后不久,谈到了“落地”,不仅是在谷歌的双子座模型广泛应用中,也特别是在企业用例中,通过谷歌的Vertex AI模型管理服务实现:为了增强模型,Vertex AI提供了管理工具,将您的模型与企业应用程序和数据库连接起来,使用扩展和函数调用。Vertex还提供了检索增强生成(RAG),结合检索和生成模型的优势,提供高质量的个性化答案和建议。Vertex可以通过将生成的人工智能与您的企业真实数据相结合,用来自网络和您的组织的最新知识来增强模型。今天我们有一个非常重要的公告:您现在可以通过谷歌搜索进行落地,这可能是世界上最值得信赖的事实信息源,深入了解全球知识。通过谷歌搜索进行双子座回应的落地提高了回应质量,并显著减少了幻觉。 其次,我们还使得用您的企业数据库和应用程序中的数据,以及任何数据库中的数据进行落地变得容易。一旦您选择了合适的模型,调整好并与您的企业真实数据连接后,Vertex的MLOps可以帮助您管理和监控模型。 使用谷歌搜索的RAG实现是一个明显的胜利,与ChatGPT集成Bing(或Microsoft Copilot in Bing)相呼应:LLM在可能的情况下提供答案,并在网络上搜索它不知道的事物,这一功能特别有用,如果您正在寻找更多最新信息的话。然而,在将双子座与谷歌的BigQuery数据仓库和Looker商业智能平台集成的背景中,更令人印象深刻的落地展示如下: 在此演示中,工作人员收到特定产品即将售罄的警报;使用生成人工智能,工作人员可以查看销售趋势,找到类似型号,并为处理存货下降制定行动计划,以便交付给她的团队。 值得注意的不是演示的具体内容(这是专门为Cymbal,谷歌的演示品牌,虚构的);而是LLM的角色:它不提供信息或采取特定行动,而是作为一个更易于访问的自然语言界面来呈现和收集数据,这些数据否则将需要更多的专业知识和时间。换句话说,它是可靠的,因为它通过谷歌承诺与其其他企业数据服务的集成进行了落地。 双子座1.5 与此同时,最后一部分实际上并没有从导言中继续下去:是的,那些利用谷歌或BigQuery的LLM在谷歌的基础设施上运行,但其他公司或创业公司也可以构建类似的东西。这是皮查伊导言的其余部分的来源: 我们还在继续构建能够让搜索、地图和Android等产品更加有用的强大人工智能模型。12月,我们迈出了下一个重大步骤,推出了我们迄今为止最大、最强大的模型——双子座。我们一直在通过我们的API将其引入我们的产品以及企业和开发者中。我们已经推出了下一代双子座1.5 Pro。它已在Vertex AI中进行了私密预览。1.5 Pro表现出戏剧性的性能提升,并包含了长文本理解的突破。这意味着它可以一致地处理100万个信息标记,为企业开辟了使用人工智能创造、发现和构建的新可能性。双子座还具有多模态能力,可以处理音频、视频、文本、代码等更多内容。借助这两项进步,企业今天能够做到之前使用人工智能无法实现的事情。 谷歌尚未透露双子座1.5是如何制造的,但显然该公司已经克服了传统变压器的主要局限性:随着上下文长度的增加,内存要求会呈二次方增长。一种有前景的方法是环形注意力与块状变压器,它将长上下文分解为可以单独计算的片段,即使这些设备在计算这些片段的同时进行通信,也能使上下文整体有意义;在这种情况下,内存要求与上下文长度线性扩展,只需在环形拓扑中简单增加更多设备即可。 这就是谷歌基础设施的用武之地:该公司不仅拥有庞大的TPU车队,还一直在开发这些TPU在从芯片到集群甚至数据中心的每个层面上并行运行(后者对于训练比推断更为重要);如果有需要规模的解决方案,谷歌 是提供这种解决方案的最佳选手,似乎公司正是通过双子座1.5做到了这一点。 演示 为此,根据皮查伊的结束语,主题演讲中的几乎所有其他演示都在暗中利用双子座1.5的上下文窗口。在一个双子座工作区演示中,工作人员评估了两份工作声明,并与公司的合规文档进行了比较: 这里是关键引述: 谷歌驱动器准备就绪,无需任何额外的人工智能预处理工作… 这些文档每份超过70页。我本来需要花几个小时来审查这些文件,但双子座将帮助我找到一个清晰的答案,为我节省大量时间… 在我继续与这个供应商合作之前,我需要确保不存在合规问题,我将坦率地说,我并没有记住我们合规规则书中的每一条规则,因为它有超过100页。我将不得不仔细查看这个提议的80页并手动与100页的规则书进行比较。所以,我在侧边栏中问:“这个报价是否符合以下条件”,然后我只需@提及我们的合规规则书,按Enter键,看看双子座有什么要说的。挺有趣的:双子座发现了一个问题,因为供应商没有列出他们的安全认证。因为双子座在我公司的数据中进行了落地,有对特定文件的来源引用,我可以信任这个回应并在选择供应商之前开始解决问题。这个演示与上一个演示的关键区别在于开头的引述:一个大的上下文窗口在更多的使用场景中起作用,而不需要任何繁琐的RAG实现或特别连接到外部数据存储;只需上传您需要分析的文件,然后开始。在一个创意代理与Imagen演示中,工作人员正在寻求为一个户外产品创建营销图片和故事板: 这里是关键引述: 创意代理可以分析我们之前的活动,了解我们独特的品牌风格,并将其应用到新的创意中。在这种情况下,创意代理分析了我们目录中的超过3,000张品牌图片、描述、视频和其他产品的文档,这些都包含在谷歌驱动器中,以创建这个摘要…创意代理能够使用双子座Pro的100万标记上下文窗口及其跨文本、图片和视频的推理能力来生成这个摘要。 公平地说,这是一个较弱的演示:品牌摘要和营销活动并不那么令人印象深刻,而且使用合成声音创建播客的想法技术上令人印象深刻,但也是从未有人会去听的东西。然而,这本身就是令人印象深刻的:正如我在双子座1.5首次宣布时的更新中所说,“一个大得多的上下文窗口使做傻事成为可能”,而傻事往往会转变为严肃的能力。 在一个双子座代码助手演示中(以前称为开发者的Duet AI),一位新工作的开发者被安排修改网站主页: 对于那些在外面的开发者,你们知道这意味着我们需要在主页中添加填充,修改一些视图,确保我们的微服务配置已更改,通常,即使只是熟悉我们公司拥有超过100,000行代码的11个服务的代码库也需要我一两周的时间。但现在,有了双子座代码助手,作为团队中的新工程师,我可以比以往任何时候都更高效,并可以在几分钟内完成所有这些工作。这是因为双子座的代码转换具有完整的代码库意识,使我们能够轻松地推理整个代码库,而其他模型则无法处理超过12,000到15,000行代码。双子座与代码助手如此智能,我们只需给它我们的业务要求,包括视觉设计…双子座代码助手不仅建议代码编辑;它提供清晰的建议,并确保所有这些建议与[公司的]安全和合规要求保持一致… 结论 让我们回顾一下:在幕后,双子座已分析了我整个代码库在GitLab中;它已实现了一个新功能;并确保生成的所有代码都与我公司的标准和要求兼容。再次说明,撇开这个演示的不切实际性不谈:关键的收获是当模型能够在处理问题时拥有围绕问题的所有上下文时解锁的能力;这只能通过——在这里名称是恰当的——一个长上下文窗口来实现,而这最终是由谷歌的基础设施使能的。 谷歌的本质 如果还不清楚,我认为这次主题演讲是谷歌在人工智能时代迄今为止最令人印象深刻的表现,尤其是因为该公司清楚地知道自己的优势在哪里。几年前我写了一篇名为《微软的垄断宿醉》的文章,讨论了该公司当时正在从Windows作为其战略中心的过渡;核心论点是与路·格斯特纳在1990年代转变IBM的比较。 垄断的好处是公司可以做任何事情,因为没有竞争;坏处是当垄断结束时,公司仍能以平庸的水平做任何事情,但不能在任何一项上做到最好,因为它已变得庞大而懒惰。换句话说,对于一个前垄断者来说,“大”是唯一真正有区别的资产。 我的论点是,商业模型可以改变:IBM做到了,当我写这篇文章时,微软也在这样做。此外,格斯特纳已经表明文化也可以改变,纳德拉在微软也正是这样做的。但是不能改变的是本质:IBM是一个依赖广度而非专业化的公司;这就是为什么格斯特纳正确地没有拆分公司,而是选择向企业提供互联网解决方案。同样,微软是一个围绕Windows集成的公司;公司转向以Teams为中心的云服务也忠实于公司的本质。 谷歌面临许多相同的挑战,经过其长期统治开放网络的几十年:昨天展示的所有产品都依赖于与广告不同的商业模型,要正确执行并交付这些产品将需要文化上的转变,以支持而不是容忍客户。但是没有改变的—— 因为这是公司的本质,因此不能改变——是依赖规模和压倒性基础设施优势。这比任何事情都更定义了谷歌,看到公司如此明确地将这作为一个优势是令人鼓舞的。
谷歌全新发布:Gemini 1.5 Pro,AI领域的一次跨界革新
最近,谷歌推出了Gemini 1.5 Pro (Gemini – Google DeepMind),这是一款功能强大的AI工具,具备了先进的音频理解能力、几乎无限的文件处理能力,以及扩展到100万的上下文窗口。 这次更新中值得注意的是,Gemini 1.5 Pro新增了原生音频理解功能和一个新的文件API,极大地简化了文件管理。此外,更新还引入了系统指令和JSON模式,允许用户对模型输出进行更精确的控制,并推出了一种新的文本嵌入模型,其性能优于现有模型。 Gemini 1.5 Pro现在支持音频和视频输入,使得它可以应用于例如将讲座录音转换成带答案的测验(如下面的示例所示)。 只需上传一段讲座录音,比如Jeff Dean的超过117,000个令牌的讲座,Gemini 1.5 Pro就可以将其转换成一份带答案的测验。 此次更新还满足了开发者的顶级请求,包括用于指导模型响应的系统指令、用于结构化数据提取的JSON模式,以及用于提高输出可靠性的增强功能调用模式。 开发者现在可以访问新的文本嵌入模型,即text-embedding-004,该模型在MTEB基准测试中的表现超过了可比模型,提供了更强的检索性能。这些增强功能是谷歌持续努力的一部分,旨在使Google AI Studio和Gemini API成为使用Gemini构建应用的最佳工具。谷歌鼓励开发者访问Google AI Studio,探索Gemini API Cookbook,并在Discord上加入社区讨论。
谷歌AI新玩意:一场名为Gemini Code Assist的编程辅助革命
最近,谷歌在其Cloud Next大会上大放异彩,推出了针对企业级的AI代码完成和辅助工具——Gemini Code Assist。这个工具其实是老牌Duet AI的换新标和大升级混搭版,它原本在2023年末向大众开放,那时谷歌就已经在暗示,将会从Codey模型过渡到Gemini。 在拉斯维加斯举办的3万人大会上,谷歌展示了Code Assist,这款工具将通过VS Code和JetBrains等流行编辑器插件提供。比起以往的Duet AI,Code Assist不仅仅是个名字上的变化,更是功能和性能上的飞跃,直接向GitHub的Copilot Enterprise发起挑战,而不仅仅是针对普通版的Copilot。 Code Assist的一大卖点是支持Gemini 1.5 Pro,这个版本拥有高达一百万令牌的上下文窗口,这意味着谷歌的这个工具能够整合并利用比竞争对手更多的上下文信息。这不仅能提高代码建议的准确性,还能支持对大块代码的推理和修改。 谷歌的云平台及技术基础设施副总裁Brad Calder在发布会前的新闻发布会上表示:“这次升级带来了业界最大的一百万令牌上下文窗口,这使得客户可以在整个代码库中进行大规模的修改,实现以前不可能的AI辅助代码转换。” 像GitHub Enterprise一样,Code Assist也可以根据公司内部的代码库进行微调。这种定制功能目前还在预览阶段。 另一个让Code Assist脱颖而出的特点是它能够支持部署在本地、GitLab、GitHub以及Atlassian的BitBucket等的代码库,还能支持分布在不同服务之间的代码库。这是谷歌在这一领域最受欢迎的竞争对手目前还不提供的功能。 谷歌还与多家以开发者为中心的公司合作,将他们的知识库整合到Gemini中。Stack Overflow就在今年早些时候宣布了与谷歌云的合作。Datadog、Datastax、Elastic、HashiCorp、Neo4j、Pinecone、Redis、Singlestore和Snyk现在也通过类似的合作伙伴关系加入了谷歌。 当然,真正的考验是开发者如何反应以及这些建议对他们的帮助有多大。谷歌通过支持各种代码仓库和提供巨大的上下文窗口正朝着正确的方向迈进,但如果延迟太高或者结果并不理想,这些功能都显得无足轻重。如果它的表现不能显著超过已经领先一步的Copilot,它可能会步AWS的CodeWhisperer的后尘,后者似乎几乎没有任何动力。 除了Code Assist,谷歌今天还发布了CodeGemma,这是其Gemma系列中的一个新的开放模型,专为代码生成和辅助进行了调优,现已通过Vertex AI提供。 此外,谷歌今天还宣布了Gemini Cloud Assist,以帮助“云团队设计、操作和优化他们的应用生命周期”。这个工具可以生成符合公司需求的架构配置,例如,根据所需设计成果的描述。它还可以帮助诊断问题并 找到其根源,以及优化公司的云使用,以降低成本或提高性能。 Cloud Assist将通过聊天界面直接嵌入到多个谷歌云产品中。
微软对其基于Arm的Windows系统终将超越苹果充满信心
下个月在西雅图的一场活动上,微软即将全面展示其“AI PC”愿景。知情人士向 The Verge 透露,微软对其新一轮的Windows笔记本电脑充满信心,这些笔记本搭载的Arm处理器将在CPU性能和AI加速任务上超越苹果搭载M3处理器的MacBook Air。 经过多年的等待和高通的一些未兑现的承诺,微软现在认为即将推出的Snapdragon X Elite处理器将为Windows on Arm带来期待已久的性能飞跃,促使微软更加积极地推动Windows on Arm的发展。微软现在押注于高通即将推出的Snapdragon X Elite处理器,这些处理器将被用于今年推出的多款Windows笔记本电脑以及微软最新的面向消费者的Surface硬件。 微软对这些新的高通芯片非常有信心,计划展示多个演示,展示这些处理器在CPU任务、AI加速乃至应用仿真方面的速度将超过M3 MacBook Air。微软在内部文件中声称,这些新的Windows AI PC将拥有“比苹果Rosetta 2更快的应用仿真速度” —— Rosetta 2是苹果在其Apple Silicon Mac上用来将为64位Intel处理器编译的应用转换为苹果自家处理器的应用兼容层。 应用仿真在过去十年中一直是Windows on Arm的一个大问题,但微软在两年多前为Windows 11提供了x64应用仿真支持。这有助于确保在没有原生ARM64版本的情况下,应用程序可以在Windows on Arm设备上运行。对于即将推出的Windows on Arm笔记本电脑而言,原生Arm应用是提升性能的关键,而谷歌最近也刚刚发布了适用于这些即将推出的设备的ARM64版Chrome。 微软已经宣布了搭载Intel处理器的Surface Pro 10。我还被告知,微软计划在即将推出的Surface Pro 10和Surface Laptop 6的消费者型号中使用高通的Snapdragon X Elite处理器,而不是英特尔的Core Ultra芯片。微软已经宣布了搭载Intel Core Ultra处理器的Surface Pro 10和Surface Laptop 6的面向商务的版本,但Arm型号将面向消费者市场。 微软内部将搭载高通Snapdragon X Elite处理器的设备称为“下一代AI副驾驶PC”,意在与运行AMD最新芯片甚至英特尔Core Ultra处理器的现有PC区别开来。这一新类别的PC将首先获得新的AI驱动的Windows功能,包括一个名为AI Explorer的应用,让你“检索你在设备上看过或做过的任何事情”。…
Meta 的 Llama 模型系列即将迎来第三次大更新
Meta 最近在他们的 Llama 模型家族上又搞大动作,准备迎来第三次大升级——Llama 3。他们的目标是让这些模型更大(高达1400亿参数),更开放,性能更棒。虽然最庞大的模型还得等上一阵,但下周我们可能就能见到些小一号的版本。 别慌,让我来细说: Meta 的这次升级,让 Llama 3 模型家族的小弟们可能下周就跑出来见人了。这从 Llama 2 的框架上改良过来的,主打开源策略,不同大小的模型基于它们的参数量来划分。去年 Meta 就开始推这种大规模的开源语言模型,参数从70亿到700亿不等。现在,就连70亿参数的模型也被看作小巫见大巫了。 但现在市场上其他公司,比如 Mistral,也在推出同级别的强力模型,Llama 2 的70亿版本已经不是领头羊了。Meta 此举,意在通过推出 Llama 3 系列的小型版本来重夺市场。这些模型到底有多小还是个谜。是会延续 Llama 7亿和130亿的老路线,还是像微软的 Phi 和谷歌的 Gemma 那样,试水20亿参数的新级别? 为何你要关注这件事? 开源模型可以在你的设备上本地运行,不需联网。这样一来,既快速又保私隐,有时候还能省下不少成本。虽然这类模型处理长篇生成任务时表现不佳,但别误会,随着这类模型近年来的进步,它们的表现已经大大超过了 GPT-3.5。 不过,它们主要还是在特定任务上经过微调后使用,比如执行简单的 API 调用,或是提供设备助手服务(像是 Siri、Alexa 等)。
Meta的新AI深度伪造策略:增加标签,减少下架
Meta 最近调整了其关于人工智能生成内容和经过操纵的媒体的规则,这是在其监督委员会的批评之后作出的决定。从下个月开始,Meta将对更广泛的此类内容进行标记,包括在深度伪造内容上加贴“由AI制作”的标签。当内容以其他可能对重要问题误导公众的方式被操纵时,还可能显示额外的上下文信息。 这一举措可能导致这家社交网络巨头标记更多可能具有误导性的内容——这在全球多地进行选举的一年里尤为重要。然而,对于深度伪造内容,Meta只会在内容具有“行业标准的AI图像指示”或上传者已声明内容是AI生成的情况下才加标签。 不符合这些条件的AI生成内容可能会未经标记地发布。 这一政策变动也可能导致更多的AI生成内容和操纵媒体留在Meta的平台上,因为Meta正转向更注重“提供透明度和额外上下文”的方法来处理这些内容,这被视为一种比移除操纵媒体(考虑到与之相关的言论自由风险)更好的处理方式。 因此,对于Meta平台如Facebook和Instagram上的AI生成或其他方式操纵的媒体,基本策略似乎是:增加标签,减少下架。 Meta表示,从七月开始,将不再仅仅因为当前的操纵视频政策就移除内容,在周五发布的博客文章中补充说:“这一时间表给人们时间了解自我披露过程,在我们停止移除少量操纵媒体之前。” 这种方法的改变可能是为了应对对Meta内容审核和系统风险的日益增长的法律要求,例如欧盟的数字服务法案。自去年八月以来,该法律已对其两个主要社交网络施加了一系列规则,要求Meta在清除非法内容、减少系统风险和保护言论自由之间找到平衡。欧盟还在增加对平台的压力,敦促科技巨头在技术上可行的情况下为深度伪造内容加水印,特别是在即将到来的六月的欧洲议会选举之前。 即将到来的美国总统选举在十一月也可能是Meta考虑的因素之一。 Meta的咨询委员会,这个由科技巨头资助但允许独立运作的机构,虽然只审查了极少数的内容审核决定,但也可以提出政策建议。Meta并不一定接受委员会的建议,但在这种情况下,它已同意修改其方法。 在周五发布的博客文章中,Meta内容政策副总裁Monika Bickert表示,公司根据委员会的反馈修改了关于AI生成内容和操纵媒体的政策。她写道:“我们同意监督委员会的观点,认为我们现有的方法过于狭窄,因为它只涵盖通过AI创建或修改的视频,使人似乎说了他们未曾说过的话。” 今年早些时候,Meta宣布正在与行业中的其他公司合作,开发用于识别AI内容的共同技术标准,包括视频和音频。它依靠这一努力现在扩大合成媒体的标记。 Bickert指出:“我们在AI生成的视频、音频和图像上的‘由AI制作’标签将基于我们对AI图像的行业共享信号的检测,或人们自我披露他们正在上传AI生成内容。” 这项扩展政策将覆盖“除了监督委员会建议标记的操纵内容之外的更广泛内容范围”,据Bickert说。 她写道:“如果我们确定数字创建或修改的图像、视频或音频在重要问题上具有特别高的误导公众的风险,我们可能会添加更显眼的标签,以便人们获得更多信息和上下文。” “这种总体方法为人们提供了更多关于内容的信息,以便他们能更好地评估内容,并在他们在其他地方看到相同内容时提供上下文。” Meta表示,除非操纵内容违反其他政策(如选民干预、欺凌和骚扰、暴力和煽动或其他社区标准问题),否则不会移除操纵内容——无论是基于AI的还是其他方式操纵的。如上所述,它可能会在某些公众高度关注的情景中添加“信息标签和上下文”。 Meta的博客文章强调了其所说的与近100个独立事实核查者的网络合作,这些核查者将帮助识别与操纵内容相关的风险。 这些外部实体将继续审查错误和误导性的AI生成内容,据Meta说。当他们将内容评为“虚假或修改”时,Meta表示将通过应用算法更改来回应,这些更改将减少内容的传播——意味着这些内容在Feed中的位置会更低,从而 减少人们看到它的机会,除此之外,Meta还会在那些最终看到内容的人的界面上添加额外信息的覆盖标签。 随着合成内容的激增,这些第三方事实核查者的工作量似乎将增加,这主要是由生成AI工具的繁荣驱动的。而且因为这种政策转变,更多这样的内容似乎将保留在Meta的平台上。
Anthropic 的 Claude 3 现能从数百个选项中可靠地挑选出合适的工具来完成任务
Anthropic公司最新升级了他们的AI模型Claude 3,这一次的大招是添加了对外部工具的支持。这意味着Claude 3可以自动访问文档或进行更复杂的计算。根据Anthropic的说法,Claude 3能从数百个选项中可靠地选择合适的工具来完成任务。 客户可以通过结构化的API,让Claude访问内部知识数据库、实时数据和复杂计算。此外,Claude还能指挥子代理来处理更细致的请求,这使得AI模型可以通过定制功能来处理更广泛的任务。 工具必须由API用户提供,因为Claude本身并不内置任何工具功能。每个工具都有一个名称、详细描述和一个JSON格式的输入模式。 Anthropic建议在工具描述中提供尽可能多的细节和上下文,以便Claude能学会正确使用它们。描述的重要性甚至超过了使用示例。每个工具的描述应该至少包括三到四句话,解答如下问题: 如果Claude识别出合适的工具,API会返回一个带有“tool_use”原因的响应。基于工具名称和输入,功能可以在客户端执行,并将结果返回给Claude。 根据任务的不同,Claude会展示一个“思考链”,逐步考虑如何使用哪些工具。这提供了对其决策过程的洞察,并有助于调试。对于更复杂的模型,如Sonnet,可以通过特殊的提示来激发思考链。 Anthropic表示,顶级模型Opus最能够结合多个复杂工具,并处理缺失的参数。如果需要,它会请求更多信息。 较小的Haiku模型即使没有明确的参数也尝试调用工具。总体而言,Anthropic表示,Claude可以可靠地从数百个选项中选择正确的工具。 随着设计精良的工具的引入,Claude的应用范围可以大大扩展。API文档中包含了许多例子,展示了如何将Claude用作客户服务助手、提取结构化数据或控制子代理。
Altman 与前苹果设计师 Ive 合作的 AI 设备:别期待它长得像手机哦!
据《The Information》报道,一家初创公司正在与多家大型风险投资公司进行融资谈判,包括与 Altman 和 Ive 是朋友的 Emerson Collective 和 Thrive Capital。软银CEO孙正义也参与了早期的讨论,但他目前的参与程度尚不清楚。 据悉,Ive 正在寻求高达10亿美元的融资。Thrive Capital 此前已经对 OpenAI 进行了投资,OpenAI 的语言模型有可能为所提议的设备的某些功能提供动力。 熟悉这些讨论的人士表示,这款AI设备将主要通过语音互动提供自然而直观的用户体验,并且它的外观不会像手机。 类似的面向消费者的概念性AI硬件,如 Rabbit R1 和 Humane pin,使用的是能执行任务的动作驱动语言模型,如个人助理,不仅可以回答问题,还可以进行详细的网页搜索和预订机票。 如果成功,这一项目可能会增强 OpenAI 在与 Meta、谷歌和苹果等竞争对手的竞争中的地位,后者都在争相开发配备语音助手的AI驱动设备。但该项目仍处于初期阶段。OpenAI 和微软的竞争对手已经在市场上推出了数亿台启用AI的硬件设备。 一些持怀疑态度的投资者警告,对于这一未经证实的产品类别,在早期阶段给予高估值是不明智的。目前尚不清楚 OpenAI 是否会在 Altman 和 Ive 的硬件公司中持有财务股份。 此外,作为 OpenAI 首席执行官,Altman 还在从事其他辅助项目,包括一个开发和制造 AI 训练和推理芯片的网络,这可能与 Nvidia 竞争。预计 OpenAI 将参与并成为该公司的客户。
牛顿:Archetype AI 的开创性模型,实时解读真实世界的新宠儿
新晋科技公司Archetype AI (Home)最近搞大动作,推出了他们首个“实体AI”模型——牛顿。这玩意儿不是普通的聊天机器人哦,它能够解读各种传感器数据,再加上自然语言处理技术,实时回答关于真实世界的各种问题。 别的AI只会对着文本和图片训练,牛顿却不同,它从加速度计、陀螺仪、雷达、相机、麦克风到温度计等各种传感器中汲取营养。它的使命是将这些传感器数据与自然语言结合起来,解读环境中发生的事,帮助人类捕捉那些复杂或者快速变化的信息。 Archetype AI的首席执行官Ivan Poupyrev信心满满,他表示,“世界上最大的问题是实体问题,不是数字问题。”牛顿可以监控包裹中的运动传感器,报告内容物是否已损坏,或者解析家庭或工厂中的数据,用平实的语言告诉你发生了什么。 此外,牛顿的首批客户包括Infineon、大众汽车以及其他一些在汽车、消费电子、建筑、物流和零售行业的公司。Archetype AI已经从Venrock这样的风险投资公司那里筹集到1300万美元的种子基金,亚马逊工业创新基金和日立创投也是投资者之一。 这笔新资金将用于扩大Archetype AI的团队并扩展平台,以适应多种行业的多种用途,为即将到来的“万亿传感器经济”做准备。这家公司的创始团队中有来自谷歌高级技术和项目(ATAP)组的前高管,还有从迪士尼、索尼、三星、NASA、斯坦福和麻省理工等公司和机构的资深人士。 总的来说,Archetype AI带着他们的超级模型牛顿,准备在真实世界和数字世界之间架起一座桥梁,让复杂的信息变得触手可及。