Meta AI最近推出的新模型,Searchformer,成功地将强大的Transformer模型和传统的规划方法桥接了起来。虽然Transformer在通用任务上表现出色,但传统的规划方法在复杂决策制定中提供了结构化的优势。通过在模拟数据上训练,并进一步通过专家输入进行精炼,Searchformer学会了模仿高效的搜索策略。这使得它能够在比传统方法更少的步骤中找到最优解,展示了在解决复杂谜题上27%的效率提升。这一突破为AI系统在更高效、更准确地导航复杂决策制定过程中铺平了道路。 此项工作展示了如何训练Transformer来解决复杂的规划任务,并介绍了Searchformer,这是一种Transformer模型,能够在93.7%的情况下优化解决以前未见过的推箱子(Sokoban)谜题,同时使用的搜索步骤比标准A搜索少达26.8%。Searchformer是一个经过训练,用以预测A搜索动态的编码器-解码器Transformer模型。然后,通过专家迭代对这个模型进行微调,以执行比A搜索更少的搜索步骤,同时仍然生成最优计划。在训练方法中,A的搜索动态被表达为一个代币序列,概述了在符号规划期间任务状态何时被添加到搜索树中并移除。 在对迷宫导航进行的消融研究中,发现Searchformer显著优于直接预测最优计划的基线,其模型大小小5-10倍,训练数据集小10倍。我们还展示了Searchformer如何扩展到更大、更复杂的决策任务如推箱子,其解决任务的百分比和缩短的搜索动态有所改进。
苹果因在iOS音乐流媒体市场上的反向引导行为,在欧盟被罚款18.4亿欧元
欧盟对苹果公司开出了18.4亿欧元(接近20亿美元)的罚单,原因是在其移动平台iOS上的音乐流媒体服务市场违反了反垄断规则。 这次的处罚重点在于苹果实施的反引导条款,限制了音乐流媒体应用向消费者透露苹果应用商店外更便宜报价的能力。 身为iPhone制造商的苹果自己也运营着音乐流媒体服务——苹果音乐,而竞争对手,如Spotify,认为这些限制使他们相比平台运营商处于不利地位。 今天,委员会表示这种限制阻止了欧洲消费者进行自由选择。 “苹果的规则最终损害了消费者,”欧盟竞争事务负责人,玛格丽特·维斯塔格在宣布决定的新闻发布会上说。“关键信息被隐瞒,以至于消费者无法有效使用或做出明智选择。 “一些消费者可能因为不知道他们可以通过应用外订阅来支付更少的费用而支付了更多。而其他消费者可能根本就没能订阅他们偏好的音乐流媒体提供商,因为他们根本找不到它。” “委员会发现,苹果的规则导致对消费者价格和服务特性的关键信息被隐瞒。因此,它们既不是必要的,也不是适当的,以提供苹果移动设备上的应用商店服务,”她补充说。“因此,我们认为它们是不公平的交易条件,因为它们是由一家占主导地位的公司单方面强加的。” 这次处罚是在Spotify于2019年3月提出的一项反垄断投诉之后作出的——Spotify认为苹果的应用商店规则“故意限制选择并扼杀创新,以牺牲用户体验为代价”,并指责iPhone制造商故意让其他应用开发者处于不利地位,因为它既是“参与者”又是“裁判”。 2020年6月,欧盟宣布对应用商店进行正式的反垄断调查——当时表示,担心科技巨头应用的条件和限制,如防止开发者通知用户通过苹果商店以外的方式支付内容的更便宜方式的反引导条款,可能会扭曲竞争。 随后在2021年4月,欧盟发表了正式的反对声明,指责苹果以一种扭曲音乐流媒体服务市场竞争的方式运营其应用商店。 然而,在近两年后的今天,欧盟对案件进行了细化——发布了修订后的反对声明,取消了之前关于苹果要求音乐流媒体应用使用其自有支付处理技术的指控,完全聚焦于反引导条款。 上个月,《金融时报》报道称,苹果面临着因音乐流媒体而被处以5亿欧元的反垄断罚款。但今天委员会宣布的罚款显然更高。这项罚款包括对苹果违反欧盟规则的罚款——大约4000万欧元——但除此之外,维斯塔格表示还加上了一个“一次性金额”(即18亿欧元),以“弥补对消费者造成的非货币损害并达到威慑效果”。 “我们今天强加的罚款反映了苹果的财力和苹果的行为对数百万欧洲用户造成的伤害,”她说,指出总罚款(18.4亿欧元)占苹果全球营业额的0.5%。 从今天起,委员会还命令苹果不得在音乐流媒体应用上应用反引导条款。“从现在开始,苹果将不得不允许音乐流媒体开发者自由地与他们自己的用户沟通——无论是在应用内、通过电子邮件还是任何其他沟通方式,”维斯塔格说。 从周四起,苹果还将被禁止在任何iOS应用上应用反引导条款,根据该集团的前瞻性竞争改革法案——数字市场法(DMA),因为它已被指定为一家关卡运营商,iOS和应用商店被规定为核心平台服务,根据这一(单独的)全欧盟法律。 根据DMA,处罚可高达年营业额的10%(对于重复违规者则更高)。委员会是DMA对关卡运营商的唯一执行者。 苹果对音乐流媒体罚款的回应苹果今天对委员会的反垄断决定发表了一篇激烈的博客文章,攻击欧盟——声称执法者未能发现“任何消费者受害的可信证据,并忽略了一个蓬勃发展、竞争激烈且增长迅速的市场的现实”。 博客文章指责Spotify希望重写适合其商业利益的应用商店规则。苹果认为,这家音乐流媒体平台花了将近十年的时间,试图以“几乎没有根据的现实”来塑造竞争投诉。其博客文章暗示,欧盟执法者被来自本土科技创业公司的投诉不当影响。 “很明显,这个决定并不基于现有的竞争法,”苹果写道。“这是委员会在数字市场法成为法律之前强制执行的一次努力。事实是,欧洲消费者拥有的选择比以往任何时候都要多。讽刺的是,以竞争的名义,今天的决定只是巩固了一家成功的欧洲公司的主导地位,这家公司是数字音乐市场的绝对领导者。” 尽管委员会的反垄断干预是基于Spotify的(私下)投诉,该投诉伴随着一场由欧洲音乐流媒体巨头发起的公开游说活动,抨击苹果对开发者收取的30%的“税”,但维斯塔格在近年来试图将干预框定为不仅仅是关于Spotify的案例。2021年4月,她认为,由于苹果对音乐流媒体竞争对手收取费用并应用阻止它们向用户通报更便宜报价的反引导条款,苹果的行为更普遍地剥夺了用户更便宜的音乐流媒体选择,并扭曲了这个市场的竞争。这基本上是委员会今天案件结果的核心。 上个月,随着欧盟对该案件的执行决定据报道即将作出,苹果积极反击——试图聚焦于Spotify及其iOS业务的成功。“Spotify没有为帮助他们在全球160个国家的苹果用户之间构建、更新和分享他们的应用所提供的服务向苹果支付任何费用,”苹果在2月下旬发布的一份声明中写道。“从根本上说,他们的投诉是试图获取苹果所有工具的无限使用权,而不为苹果提供的价值支付任何费用。” 苹果还公布了一些关于Spotify应用和iOS开发者工具使用的数据点——表示这家音乐流媒体巨头的应用已在苹果设备上被下载、重新下载或更新超过1190亿次。它还透露,Spotify已使用了数千个API,涉及60个框架;已向App Review提交了超过420个版本的应用并获得了批准;以及使用了苹果的beta测试平台TestFlight。根据苹果的说法,其自己的工程师还帮助Spotify解决了各种挑战,如影响硬件加速媒体播放和电池优化的问题。
EMO
EMO的超酷炫框架出现了,它能根据一张参考照片和声音输入,比如说话或唱歌,生成带有丰富表情和各种头部姿势的人物视频。而且还有个牛逼闪闪的点,那就是无论你给它的音频有多长,它都能根据音频的长度生成对应时长的视频。这意味着啥?意味着你现在可以创造一个动起来、会说会笑的数字化的自己或者是你喜欢的人物,而且可以让它持续唠叨或者唱歌,直到你说停。这技术简直不要太酷,让人想到了未来可能人人都有自己的虚拟代言人,搞个个人音乐会啥的,都不是问题了!
StarCoder2模型,释放你的大模型编码潜能
在数字时代,编程已成为一项必不可少的技能,但有时候编程也会显得枯燥乏味且耗时。因此,很多开发者开始寻找方法,借助大型语言模型(LLMs)来自动化和简化他们的编码任务。这些模型通过训练大量来自GitHub的开源代码库,能够在几乎不需要人类干预的情况下生成、分析和记录代码。 本文将探索使用StarCoder2,一种全新的社区模型,对代码LLMs的最新进展。StarCoder2支持数百种编程语言,并提供业界领先的准确性。接下来,我们将利用NVIDIA AI基础模型和终端尝试该模型,通过逐步指导进行定制,并将其部署到生产中。 StarCoder2是BigCode与NVIDIA合作构建的最先进的代码LLM。你可以利用该模型的能力,包括代码补全、自动填充、高级代码总结和使用自然语言检索相关代码片段,快速构建应用程序。 StarCoder2系列包括3B、7B和15B参数模型,为你提供选择适合自己使用场景并满足计算资源需求的灵活性。本文将重点介绍15B模型。 15B模型在流行的编程基准测试中超越了领先的开放代码LLMs,提供了同类产品中最优秀的性能。例如,Starcoder2 15B模型在HumanEval基准测试中显示,无论是Pass@1还是Pass@10,模型都展现出46%和65%的高性能。 模型训练得体,对所有人开放,使用了来自GitHub的超过1万亿令牌的、经过负责任筛选的数据。这包括600多种编程语言、Git提交、GitHub问题和Jupyter笔记本。模型在整个过程中完全透明,包括数据来源、处理和翻译。此外,个人可以选择不让自己的代码被模型使用。 StarCoder2模型根据BigCode开放RAIL-M许可证公开可用,确保免版税分发并简化了公司将模型集成到他们的用例和产品中的过程。 StarCoder2作为NVIDIA AI基础模型和终端的一部分提供,提供了一套经过策划的社区和NVIDIA构建的生成性AI模型,供你体验、定制和部署在企业应用中。 NVIDIA已经使用TensorRT-LLM优化了模型,这是一个用于定义、优化和执行大型语言模型推理的开源库。这使你在推理过程中能够实现更高的吞吐量和更低的延迟,同时在生产中降低计算成本。 现在,你可以直接通过浏览器使用简单的游乐场用户界面体验StarCoder2,查看运行在完全加速堆栈上的模型生成的结果。 如果你更喜欢使用API测试模型,我们也为你提供了便利。注册NGC目录后,你将获得NVIDIA云积分。这些积分让你能够将应用程序连接到API端点,并在大规模上体验模型。 # Will be used to issue requests to the endpoint API_KEY = “nvapi-xxxx“ 大多数企业不会直接使用模型。你需要使用你的领域和公司特定的专业语言训练它们,以便模型能提供高精度的结果。NVIDIA使得通过NeMo定制它们变得简单。 NVIDIA Triton推理服务器是一个开源的AI模型服务平台,它简化并加速了AI推理工作负载在生产中的部署。它帮助企业减少模型服务基础设施的复杂性,缩短新AI模型在生产中部署所需的时间,并增加AI推理和预测能力。 现在就试试StarCoder2模型吧,通过用户界面或API体验它,如果这是适合你的应用程序的,那么就使用TensorRT-LLM进行优化,并使用NVIDIA NeMo进行定制吧。
微软为金融界带来革命性突破——推出Microsoft 365中的下一代AI助手:Microsoft Copilot for Finance
金融部门,这个组织的心脏,每天都在应对一系列既关键又复杂的任务——从报价到收款的全过程,如信贷和收款,到风险管理和合规性检查。财务团队不仅要负责这些必要的、劳动密集型的操作,而且还要实时洞察业务表现,并为未来的增长计划提供建议。事实上,有80%的财务领导和团队面临挑战,需要承担超出日常操作范畴的更多战略性工作。一方面,团队准备好在推动业务增长策略中发挥更大的作用,另一方面,他们也不能放弃维护一系列关键且必须的责任。 微软推出的解决方案旨在帮助财务团队重获时间,保持对可能影响业务绩效的关键决策的掌控。Microsoft Copilot for Finance是Microsoft 365中的新Copilot体验,为财务专业人士解锁了AI辅助能力,直接在他们每天使用的生产力应用程序中。现在已经公开预览,Copilot for Finance能够连接到组织的财务系统,包括Dynamics 365和SAP,提供针对特定角色的工作流自动化、引导式操作和建议,在Microsoft Outlook、Excel、Microsoft Teams和其他Microsoft 365应用程序中——帮助节省时间,专注于真正重要的事情:引导公司走向成功。 Copilot for Finance利用AI自动执行耗时任务,让你可以专注于真正重要的事情。立即报名体验,利用创新加速财务管理。财务团队在改进组织效率方面发挥着关键作用。随着团队寻求发展并改善如何花费时间支持更多战略性工作,显然有一些操作任务更加平凡、重复且手工密集。而62%的财务专业人士仍然陷在数据录入和审核循环的苦差事中。尽管一些任务是关键的,不能自动化——如合规性和税务报告——我们也从大多数财务领导那里听说,他们缺乏自动化工具和技术来转变这些过程并释放时间。 随着业务的加速发展,成为颠覆者需要投资于将推动创新并支持底线的技术。在接下来的三到五年中,68%的CFO预计通过生成式AI(GenAI)实现收入增长。通过实施下一代AI来提供洞察力和自动化成本高昂且耗时的操作任务,团队可以重新投入这些时间,加速其作为财务监管者和战略家的影响力。 Microsoft Copilot for Finance:用更少的努力完成更多的工作 Copilot for Finance在Microsoft 365应用程序中提供AI驱动的协助,使财务流程更加流畅和自动化。Copilot for Finance可以通过简单的提示来简化审计,通过自动化沟通和付款计划来简化收款,通过轻松检测差异来加速财务报告。潜在的时间和成本节省是巨大的,不仅转变了财务专业人员的工作方式,而且还改变了他们在组织内驱动影响的方式。 用户可以通过多种方式与Copilot for Finance互动。它既在工作流中建议操作,也允许用户通过输入自然语言提示来提问。例如,用户可以提示Copilot“帮助我理解预测与实际差异数据”。瞬间,Copilot for Finance将生成洞察力并直接从ERP和财务系统中拉取数据,建议采取的行动,并通过生成上下文化的文本和附加相关文件来提供一个开端。像其他copilot体验一样,用户可以轻松检查源数据,以确保在使用Copilot采取任何行动之前的透明度。 Copilot for Finance连接到现有的财务系统,包括Dynamics 365和SAP,以及通过Microsoft Copilot Studio连接到数千个更多系统。通过能够从现有来源中提取洞察力并更新回这些来源的操作,Copilot for Finance使用户能够保持在工作流中,并更高效地完成任务。 准备好迈出下一步了吗?Microsoft Copilot for Finance今天就为公开预览提供 https://aka.ms/CopilotforFinancePreview 。探索公开预览演示 https://aka.ms/CopilotforFinanceDemo,并通过社交媒体关注我们以获取更多公告。
马斯克怒告OpenAI与山姆·奥特曼,控诉他们背叛了非营利人工智能的宗旨哦
当年,火星探险队队长马斯克和他的梦想小伙伴们,山姆·奥特曼、格雷格·布罗克曼一起创立了OpenAI,誓要开发出能造福人类的AI技术,抵抗来自谷歌的竞争威胁。他们承诺,这将是一个专注于人类福祉的非营利组织,开发出来的技术将免费供大家使用。 然而,风云突变,OpenAI似乎忘记了当初的誓言,变成了一个追求利润的公司,和微软携手走上了商业化之路。这下可好,火星队长一怒之下,决定将OpenAI、奥特曼、布罗克曼还有一众相关实体告上法庭,控诉他们背叛了最初的协议,摇身一变成了微软的“密友”,忙着为微软赚钱去了。 看着OpenAI从一个梦想满满的非营利组织,变成了一个价值连城、密切与微软合作的商业巨头,马斯克心里那叫一个不是滋味。他指出,OpenAI现在不仅仅是开发,更是在精炼AI技术,目的是为了最大化微软的利润,这简直是对最初创立协议的公然背叛。 马斯克在2018年离开了OpenAI的董事会,虽然后来被提供了参与盈利部门的机会,但他因为原则问题拒绝了。去年,马斯克旗下的社交网络X推出了Grok,成为ChatGPT的竞争对手。 奥特曼对马斯克的这些担忧做出了回应,包括与微软的紧密联系。他在去年的一个会议上说:“我喜欢这个家伙。我认为他在这些事情上完全错了。他可以随便说什么,但我为我们正在做的事情感到自豪,我认为我们将对世界作出积极的贡献,我试图保持冷静。” 然而,马斯克并不买账,他提起的这场诉讼,不仅仅是为了钱,更是为了一个原则——AI技术的发展,应该是为了人类的利益,而不是少数公司的私利。在这场技术与原则的较量中,马斯克究竟能否让OpenAI回归初心,还是个未知数。但有一点可以肯定,这场官司的结果,无疑将对整个AI行业产生深远的影响。
Adobe 最近搞大动作,推出了一个新玩意——一个用于音乐创作的人工智能工具
今天在布鲁克林的热门播客峰会上,Adobe大展拳脚,推出了他们的新宠——Project Music GenAI Control。这不是你平常见的那种音乐编辑工具,它能根据你给的文字描述(比如“快乐的舞曲”、“忧伤的爵士”)或者一段旋律参考,生成音频。更酷的是,用户还能在同一个工作流程里调整节奏、强度、重复模式和结构,甚至能把一段曲子延长到任意长度,重新混音或创造一个无尽循环。 这个项目是Adobe联手加州大学和卡内基梅隆大学的研究人员开发的,虽然目前还处于研究阶段,甚至连用户界面(UI)都没弄好,但Adobe的音频和视频AI研究负责人Gautham Mysore在一次小组讨论中透露,这个平台将来可能会对公众开放。Gautham Mysore说:“这真的让人感觉到,AI在音乐创作中的角色就像你是导演,而且你可以做很多事情。”他强调,这个工具不仅仅是生成音乐,还提供了各种控制形式,让人们可以尝试不同的创意,即使你不是作曲家,也能把你的音乐想法变成现实。 随着AI创造的音乐、艺术作品和文本的激增,基于GenAI的音乐工具以及广泛的GenAI工具正在引发伦理和法律上的担忧。 利用GenAI制作的家庭音轨,能够复现熟悉的声音、歌词和人声,足以让人认为是正版,或至少接近正版,已经在网络上疯传。音乐厂牌迅速采取措施要求删除这些内容,引用版权法。但关于“深度伪造”音乐是否侵犯了艺术家、厂牌和其他权利持有者的知识产权,目前还缺乏明确的界定——尤其是在那些受版权保护内容训练的GenAI音乐工具的情况下。 尽管一位联邦法官在八月裁定AI生成的艺术作品不能获得版权,美国版权局对此还没有采取非常坚定的立场,只是最近开始寻求公众对于AI相关版权问题的意见。目前还不清楚,如果用户试图商业化以另一位艺术家风格生成的音乐,是否会因违反版权法而被追究责任。 Mysore表示,Adobe通常开发GenAI工具时会使用已授权或公共领域的数据,以避免潜在的知识产权问题。(至于Project Music GenAI Control是否也会这样做还是个未知数。)他还提到,Adobe正在开发水印技术,以帮助识别由Project Music GenAI Control产生的音频,但承认这还在进行中。 “Adobe对这些事情采取了特别负责任的态度,”Mysore补充说。“有很多优秀的音乐家创作了这些内容……我认为[他们和像Project Music GenAI Control这样的工具]将会共存。将会有新的音乐创意诞生。”
美国证监会正式调查OpenAI的Sam Altman
美国证券交易委员会正在调查OpenAI的投资者是否在该公司去年一场关于领导层的激烈争论中被误导,据《华尔街日报》报道,引述知情人士的话说。 看来,这个调查的火花是从OpenAI的CEO山姆·奥特曼在去年11月被撤职开始的。证监会在12月向公司发出了传票,并要求OpenAI的高级官员保留内部文件。 为了重回CEO的位置,奥特曼同意了进行内部调查等条件。他的突然被解职,加上董事会的一份声明说奥特曼在沟通上“并不总是坦率”,这让外界期待会有什么大瓜爆出。虽然没有出现任何重大的证据,但确实有关于他为一个外部芯片项目筹资的紧张关系被揭露,包括在中东寻求资金,以及与前董事会成员海伦·托纳因为一篇批评公司的研究论文而产生的争执。 根据一位直接了解董事会想法的人士(要求匿名讨论私人业务事项)的说法,是奥特曼的行为模式,而不是某个单一的严重行为,导致董事会对他失去了信任。 OpenAI的ChatGPT引发了目前跨越各种行业和服务采用人工智能的热潮,微软公司投资了超过100亿美元,与这家密切持有的初创公司合作。 证监会的调查可能不会导致对涉事方的任何不当行为的发现。OpenAI选定了来自WilmerHale律师事务所的两名律师来进行对事件的调查。 “在审查进行中,董事会将继续采取措施加强OpenAI的公司治理,建立一个由卓越个体组成的合格和多元化的董事会,并监督OpenAI的重要使命,确保人工智能的普遍利益。”OpenAI董事会主席布雷特·泰勒在12月份说。
纽约时报和OpenAI之间的故事最近上了热搜,无间道
最近,OpenAI向一位联邦法官提出请求,希望驳回纽约时报(NYT.N)针对其版权诉讼的部分指控。OpenAI的理由相当戏剧化——他们称纽约时报通过”黑客”手段操纵了其聊天机器人ChatGPT及其他人工智能系统,以制造误导性证据。在曼哈顿联邦法院的一份文件中,OpenAI声称纽约时报通过”欺骗性提示”违反了OpenAI的使用条款,导致技术重现了其材料。 OpenAI在文件中直言不讳地指出,纽约时报的投诉没有达到其一贯严格的新闻标准。OpenAI透露,真相将在案件审理过程中揭露,即纽约时报支付了某人来”黑”OpenAI的产品。值得注意的是,OpenAI没有具体指出这位所谓的”雇佣枪手”是谁,也没有指控纽约时报违反任何反黑客法律。 纽约时报的律师Ian Crosby回应称,OpenAI所谓的”黑客”行为不过是使用OpenAI产品寻找证据,证明他们盗用并复制了纽约时报的版权作品。去年12月,纽约时报起诉了OpenAI及其最大的金融支持者微软(MSFT.O),指控他们未经许可使用了数百万篇文章来训练聊天机器人,以向用户提供信息。 纽约时报是众多起诉科技公司因AI训练中涉嫌滥用其作品的版权所有者之一,包括作者、视觉艺术家和音乐出版商等群体。科技公司则辩称,他们的AI系统对版权材料的使用是公平使用,且这些诉讼威胁到了潜在价值数万亿美元的行业的成长。 目前,法院尚未就AI训练是否属于版权法下的公平使用问题作出裁决。迄今为止,基于AI创造的内容与版权作品相似性缺乏证据,法官已驳回了一些侵权索赔。 纽约时报的投诉中引用了几个例子,这些例子中OpenAI和微软的聊天机器人在被提示时提供了与其文章几乎逐字逐句相同的摘录。纽约时报指责OpenAI和微软试图”免费搭便车,利用纽约时报在新闻业中的巨大投资”,并创建一个替代纽约时报的产品。 OpenAI在其文件中称,纽约时报需要数万次尝试才能生成这些高度异常的结果。在正常情况下,人们不能随意使用ChatGPT来获取纽约时报的文章。OpenAI还表示,基于公平使用的问题,它和其他AI公司最终将赢得这些案件。他们认为,纽约时报无法阻止AI模型获取关于事实的知识,就像其他新闻组织无法阻止纽约时报重新报道它们没有参与调查的故事一样。
实测Gemini Pro在编程测验上栽了大跟头,反观ChatGPT却轻松过关
在莎士比亚的双关语爱好者沉浸在悲伤之中时,谷歌将Bard更名为Gemini。谷歌还推出了更高级、更强大、更昂贵的Gemini版本,称为Gemini Advanced。Gemini和Gemini Advanced大致相当于ChatGPT的基础模型和额外收费的ChatGPT Plus服务。 此外,我请求ChatGPT编写了我需要的WordPress插件。它在不到5分钟内就完成了。事实上,谷歌和OpenAI都收取20美元/月的费用,以提供访问他们更智能、更强大的服务。 在过去的一年中,作为我的测试过程的一部分,我让生成式AI接受了各种编程挑战。ChatGPT屡屡表现出色,而谷歌的Bard在两次测试中都失败了。我还对Meta的Code Llama AI进行了相同的一组测试,Meta声称它在编程方面非常棒(然而并非如此)。需要明确的是,这些测试并不特别困难。一项是编写一个简单的WordPress插件的请求。另一项是重写一个字符串函数。还有一项是帮助找到我最初难以发现的错误。 上周,使用这些相同的测试对Code Llama进行测试后,一位读者联系我,询问我为什么一直使用相同的测试。他认为,如果给AI提供不同的挑战,它们可能会成功。这是一个公平的问题,但我的回答也是公平的。这些是超级简单的测试。我使用的是PHP,这并不是一个特别有挑战性的语言。我通过AI运行了一些脚本查询。通过使用完全相同的测试,我们能够直接比较性能。但这也像教某人开车。如果他们连从车道出来都做不到,你不会让他们在拥挤的高速公路上开快车。 ChatGPT在我向它抛出的几乎所有东西上都表现得相当好,所以我对它提出了更多要求。我最终用ChatGPT进行了22种不同编程语言的测试,包括12种现代语言和10种晦涩语言。除了截图界面中一些混淆的标题外,ChatGPT通过了所有测试。但由于Bard至少在五月份还不能安全地驶出车道,我不打算在它能够处理基础知识之前对其进行更多测试。 但现在我们又回来了。Bard变成了Gemini,我有了Gemini Advanced。让我们看看所有那些谷歌的计算能力能为几个简单的测试做些什么。 测试1:编写一个简单的WordPress插件这是我与ChatGPT进行的第一次测试,Bard两次都失败了。挑战是编写一个提供简单用户界面的简单WordPress插件。它应该对提交的一系列行进行排序和去重。 这是提示: 编写一个与PHP 8兼容的WordPress插件,提供一个文本输入字段,可以在其中粘贴行列表,以及一个按钮,按下时,随机化列表中的行并在第二个文本输入字段中显示结果,没有空白行,并确保没有两个相同的条目相邻(除非别无选择)……提交的行数和结果中的行数彼此相同。在第一个字段下面,显示文本“要随机化的行:”和源字段中的非空行数。在第二个字段下面,显示文本“已随机化的行:”和目的字段中的非空行数。 需要记住的一点是,我故意没有指定这个工具是在前端(对网站访问者)还是在后端(对网站管理员)可用。ChatGPT将其编写为后端功能,但Gemini Advanced将其编写为前端功能。此外,Gemini Advanced还选择编写PHP代码和JavaScript。要初始化插件,需要在样本页面的正文中放置一个短代码,如下所示: 一旦我保存了页面,我就像网站访问者一样查看了它。这是Gemini Advanced展示的内容。 它与ChatGPT展示的同一功能相去甚远,但ChatGPT为后端编写了它。 另一点注意:一旦我粘贴了名称并点击使用Gemini生成的前端版本代码的随机化按钮,什么也没发生。 我决定给Gemini Advanced第二次机会。我将第一行更改为: 编写一个与PHP 8兼容的WordPress插件,为仪表盘界面提供以下功能 这是一个失败,因为Gemini Advanced再次坚持给我一个短代码。它甚至建议我将短代码粘贴在“一个合适的仪表盘区域”。这不是WordPress仪表盘的工作方式。 公平地说,AI可能如何解释我的指示还有一点回旋余地。所以我再次澄清,将提示的开头改为: 编写一个与PHP 8兼容的WordPress插件,提供一个新的管理菜单和一个具有以下功能的管理界面: 这一次,Gemini Advanced创建了一个可行的界面。不幸的是,它仍然不起作用。当将一组名称粘贴到顶部字段并点击随机化按钮时,什么也没发生。 与ChatGPT的第一次尝试相比,这仍然是一个失败。 它实际上比我原来的Bard测试结果还要糟糕,但并不像我的第二次Bard测试那么糟糕。 测试2:重写一个字符串函数在以下代码中,我请求ChatGPT重写一些处理美元和分的字符串处理代码。我的初始测试代码只允许整数(因此,只有美元),但目标是允许美元和分。这是ChatGPT正确完成的测试。Bard最初失败了,但最终成功了。 这是提示: 并且这是生成的代码: 这也是一个失败,但它既微妙又危险。生成的Gemini Advanced代码不允许非小数输入。换句话说,允许1.00,但不允许1。20也不行。更糟糕的是,它决定将数字限制在小数点前的两位数字,而不是小数点后,显示它不理解美元和分的概念。如果你输入100.50,它会失败,但允许99.50。 结论:哎呀。这是一个非常简单的问题,是你给一年级编程学生的那种问题。而且它失败了。更糟糕的是,这种失败可能不容易被人类程序员发现,所以如果你信任Gemini Advanced给你这段代码并假设它有效,你可能会稍后收到一大堆错误报告。 测试3:找到一个错误去年晚些时候,我在处理一个错误时遇到了困难。我的代码本应该工作的,但它没有。问题远非一目了然,但当我询问ChatGPT时,它指出我在错误的地方寻找。 我当时正在查看传递的参数数量,这似乎是我得到的错误的正确答案。但我实际上需要改变的是称为钩子的东西中的代码。 两个Bard和Meta都沿着我当时那样错误且徒劳的路径走下去,错过了系统真正工作方式的细节。正如我所说,ChatGPT做到了。所以,现在是时候看看——当提供完全相同的信息时——Gemini Advanced是否能够救赎自己。 Gemini Advanced确实查看了代码。它确实确定存在一个参数问题。但它的建议是查看“插件中或WordPress中的其他地方”以找到错误。 相比之下,这是ChatGPT的回答。 查看第二段提供的细节。ChatGPT正确地确定了错误发生的确切位置以及如何纠正它。这比推荐我查看插件中的其他地方要有用得多。 结论:Gemini Advanced并没有那么有帮助。它告诉我的没有我不知道的。它告诉我的没有帮助解决问题。 这真是令人沮丧….