生成式AI模型,如OpenAI的ChatGPT和Google的Gemini,已经存在一段时间,并逐渐渗透到各种产品中。最新的例子是Opera浏览器,它正在引入由Gemini驱动的AI功能。 Opera昨日正式宣布,它正在与Google Cloud合作,以增强其浏览器AI Aria的功能,包括文本转语音和图像生成能力。Opera通过其多LLM(大型语言模型)Composer AI引擎为Aria提供动力。 Opera认为,Aria使其浏览器独具特色,因为Composer AI引擎不仅使用一个AI或一个LLM提供商。该引擎根据用户在使用浏览器时的需求选择最佳模型进行任务处理,而Gemini现在成为Opera可利用的选项之一。 作为一款非默认或预装应用的浏览器,Opera在市场上颇受欢迎。Opera在过去一年多时间里一直在将新颖的生成式AI技术整合到浏览器中。 Opera与Gemini的整合 Opera与Gemini的整合使其AI功能更加强大,但目前,增强版的Aria AI仅在Opera One Developer版本的浏览器中可用,该版本允许用户测试最新的AI功能和新增特性(包括利用Google的Imagen 2模型在Vertex AI平台上进行图像生成)。 你可以从Opera官网下载Opera One Developer版本,但我们建议你等待Gemini整合到正式版Opera再进行尝试。如果你想尝试替代一些更流行的浏览器如Google Chrome,Opera是一个不错的选择,尤其是它基于Chromium。Chromium是Google的开源引擎,包括Chrome和Edge在内的几款流行浏览器都是基于它,因此你可以轻松导入你的历史记录和书签。 即使你不打算试用新版的Aria AI,标准版的Opera和Opera GX(游戏版)已经具备AI驱动的功能。而且,新的Aria AI最终也会进入标准版浏览器(除非被放弃,但这似乎不太可能)。Opera还提供了其他一些使其浏览器拥有忠实用户的功能,包括文件管理的工作区、侧边栏功能和内置VPN。 如何亲自体验新版Aria AI 如果你对新功能感兴趣,可以下载Opera One Developer版本进行尝试。这个版本提供了最新的AI功能,包括Google的Imagen 2模型支持的图像生成能力。不过,如果你更喜欢稳定性,等待Gemini整合到正式版可能是更好的选择。 Opera正在努力通过与Google Cloud的合作,将其AI功能提升到新的高度,使用户在使用浏览器时获得更好的体验。无论你是现有的Opera用户还是正在寻找新的浏览器选项,Opera都值得一试。
PwC成为OpenAI企业产品的最大客户和首个转售商
在企业争相采用和利用生成式人工智能之际,会计巨头普华永道(PwC)宣布将成为OpenAI企业产品的最大客户和首个转售商。根据5月29日的报道,PwC将推出针对大型企业的ChatGPT Enterprise,这是微软支持的AI初创公司OpenAI的聊天机器人版本。 普华永道将为其在美国的75,000名员工和在英国的26,000名员工提供ChatGPT Enterprise服务。据《华尔街日报》首次报道了这一协议。 “我们正在与超过95%的英国和美国咨询客户账户积极参与genAI,同时与许多审计客户讨论AI的使用和影响,”普华永道表示。 然而,普华永道并未披露这笔交易的财务条款或其转售AI产品的计划细节。OpenAI没有立即回应路透社的置评请求。 开发定制GPT以提高工作效率 普华永道表示,公司一直在开发定制的GPT,以帮助员工完成审查纳税申报、生成仪表板和报告等任务。这一与OpenAI的协议建立在普华永道之前宣布的投资10亿美元用于生成式AI技术的计划之上。 OpenAI一直在努力吸引微软之外的企业客户。据路透社4月报道,OpenAI首席执行官萨姆·奥特曼在旧金山、纽约和伦敦接待了数百位《财富》500强公司的高管,他和其他高管在会上推介了企业使用的AI服务,在某些情况下直接与微软竞争。
Codestral: Hello, World! 赋能开发者,普及编程,尽在Mistral AI
介绍Codestral (https://huggingface.co/mistralai/Codestral-22B-v0.1),这是首个专为代码生成任务设计的开源权重生成AI模型。Codestral通过共享的指令和完成API端点,帮助开发人员编写和交互代码。由于它精通代码和英语,开发人员可以利用其设计高级AI应用。 精通80多种编程语言的模型 Codestral在多达80多种编程语言的数据集上进行了训练,包括Python、Java、C、C++、JavaScript和Bash等流行语言,还包括Swift和Fortran等特定语言。广泛的语言基础确保了Codestral能在各种编码环境和项目中帮助开发人员。 Codestral节省了开发人员的时间和精力:它可以完成编码功能、编写测试,并通过填补机制完成任何部分代码。与Codestral的交互将帮助开发人员提升编码水平,减少错误和bug的风险。 设定代码生成性能的新标准 作为一个22B模型,Codestral在性能/延迟方面相对于之前的编码模型设立了新标准。 详细基准测试 图1: 由于具有更大的32k上下文窗口(相比竞争对手的4k、8k或16k),Codestral在RepoBench上表现优于所有其他模型,这是一个长范围的代码生成评估。 Codestral与现有代码特定模型进行了对比,这些模型具有更高的硬件要求。 Python:使用四个基准测试:HumanEval pass@1、MBPP sanitised pass@1评估Codestral的Python代码生成能力,CruxEval评估Python输出预测,以及RepoBench EM评估Codestral的长范围代码库级别代码完成。 SQL:使用Spider基准测试评估Codestral在SQL中的性能。 其他语言:此外,还在六种不同语言(除了Python之外)中进行HumanEval pass@1评估,包括C++、Bash、Java、PHP、Typescript和C#,并计算这些评估的平均值。 填补中间基准测试:使用HumanEval pass@1在Python、JavaScript和Java中评估Codestral的填补中间性能,并与DeepSeek Coder 33B进行比较,后者的填补中间能力立即可用。 开始使用Codestral 下载并测试Codestral。Codestral是一个22B开源权重模型,按照新的Mistral AI非生产许可证进行许可,可以用于研究和测试目的。Codestral可以在HuggingFace上下载。https://huggingface.co/mistralai/Codestral-22B-v0.1 通过专用端点使用Codestral。新发布的端点:codestral.mistral.ai,适用于在IDE中使用我们的指令或填补中间路线的用户。此端点的API密钥在个人层面管理,不受常规组织速率限制。在8周的测试期内免费使用此端点,并通过等待名单确保服务质量。适用于实施IDE插件或应用程序的开发人员。 在La Plateforme上使用Codestral。Codestral也可以通过常规API端点:api.mistral.ai,按查询收费。该端点和集成更适合研究、批量查询或第三方应用程序开发,直接向用户展示结果而无需他们提供API密钥。 开发人员可以在La Plateforme上创建账户,按照指南开始使用Codestral构建应用程序。与其他模型一样,Codestral从今天起可以通过自部署提供:联系销售。 在Le Chat中与Codestral对话。今天通过Le Chat提供一个指令版本的Codestral,这是一个免费对话界面。开发人员可以自然直观地与Codestral互动,利用模型的能力。Codestral被视为实现代码生成和理解的又一新台阶。 在常用的编码和构建环境中使用Codestral。Codestral已与社区合作伙伴一起引入流行的开发工具,以提高生产力和AI应用制作。 应用框架 从今天起,Codestral已集成到LlamaIndex和LangChain中,用户可以轻松构建代理应用程序。 VSCode/JetBrains集成:Continue.dev和Tabnine使开发人员能够在VSCode和JetBrains环境中使用Codestral,现在可以使用Codestral生成和交互代码。 以下是如何使用Continue.dev VSCode插件进行代码生成、交互对话和内联编辑的教程,以及如何使用Tabnine VSCode插件与Codestral对话的教程。 有关如何与Codestral集成的详细信息,请查看文档,了解设置说明和示例。 开发者社区反馈
前OpenAI董事会成员详解CEO萨姆·阿尔特曼被解雇再回归的原因
前OpenAI董事会成员海伦·托纳(Helen Toner)在帮助罢免CEO萨姆·阿尔特曼(Sam Altman)后,于本周二在一档播客节目中首次公开谈及公司内部的动荡情况。 托纳举了一个例子:2022年11月,当OpenAI发布ChatGPT时,董事会事先并未被告知,他们是在推特上才知道这个消息的。托纳还提到,阿尔特曼并没有告诉董事会他拥有OpenAI初创基金的股份。 尽管阿尔特曼在被解雇不到一周后重新担任CEO,但托纳的言论首次揭示了当时决策的内情。 “董事会是一个非营利性组织,设立的明确目的是确保公司的公共利益使命优先于利润、投资者利益和其他事项,”托纳在《TED AI Show》播客中表示。 “但是多年来,萨姆通过隐瞒信息、歪曲公司内部情况,有时甚至直接对董事会撒谎,使得董事会无法真正履行其职责,”她说。 托纳提到,阿尔特曼多次向董事会提供关于公司安全流程的不准确信息。 “对于任何个别案例,萨姆总能给出一些听起来无害的解释,说这不是大问题,或者是误解之类的,但最终结果是,经过多年的这种情况,我们四个解雇他的人得出了结论:我们不能再相信萨姆说的话了,这对于一个应该提供独立监督的董事会来说,是完全不可行的,”托纳说。“尤其是一个不仅仅是帮助CEO筹集更多资金的董事会。” 托纳解释说,董事会一直在努力改进这些问题。她提到,在罢免事件前的10月,董事会与两位高管进行了对话,这两位高管分享了他们之前不敢公开的经历,包括有问题的互动和虚假信息的截图和文件。 “他们突然开始告诉我们……他们无法信任他,关于他制造的有毒氛围,”托纳说。“他们用了‘心理虐待’这个词,告诉我们他们不认为他是引领公司走向AGI的合适人选,告诉我们他们不相信他能或者愿意改变。” 人工通用智能(AGI)是指在各种认知任务上超越人类能力的人工智能类型。 OpenAI的发言人暂未对此发表评论。 本月早些时候,OpenAI解散了专注于AI长期风险的团队,而就在一年前,公司刚刚宣布成立该团队。这一消息发布的几天前,该团队的两位领导人——OpenAI联合创始人伊利亚·苏茨克维尔(Ilya Sutskever)和简·莱克(Jan Leike)宣布离开这家由微软支持的初创公司。莱克随后宣布加入AI竞争对手Anthropic,他在上周五写道,OpenAI的“安全文化和流程已被光鲜亮丽的产品所取代。” 托纳的言论以及高调的离职事件,都发生在去年的领导危机之后。 去年11月,OpenAI董事会罢免了阿尔特曼,称其进行了“深思熟虑的审查过程”,并指出阿尔特曼“在与董事会的沟通中不够坦诚,妨碍了董事会履行职责的能力。” “董事会不再相信他能继续领导OpenAI,”他们表示。 《华尔街日报》和其他媒体报道称,虽然苏茨克维尔专注于确保人工智能不会对人类造成伤害,但包括阿尔特曼在内的其他人则更急于推动新技术的推出。 阿尔特曼被免职后,员工们纷纷辞职或威胁辞职,包括几乎所有OpenAI员工签署的一封公开信,以及投资者(包括微软)的强烈反对。在不到一周内,阿尔特曼重新上任,而投票罢免阿尔特曼的董事会成员托纳和塔莎·麦考利(Tasha McCauley)则离开了董事会。苏茨克维尔放弃了董事会席位,但仍留在公司,直到他在5月14日宣布离职。投票罢免阿尔特曼的亚当·德安杰洛(Adam D’Angelo)仍然在董事会。 今年3月,OpenAI宣布了其新董事会,其中包括阿尔特曼,并结束了由律师事务所WilmerHale对导致阿尔特曼被罢免事件的内部调查。 OpenAI没有公布WilmerHale的调查报告,但总结了其调查结果。 “审查结果表明,前董事会与萨姆和格雷格之间存在严重的信任危机,”OpenAI董事会主席布雷特·泰勒(Bret Taylor)当时表示,指的是公司总裁兼联合创始人格雷格·布罗克曼(Greg Brockman)。审查还“得出结论,董事会是出于善意行事……[并且]没有预见到之后出现的一些不稳定因素,”泰勒补充道。
AI职业教练的兴起:能否取代人类?
人工智能工具已经可以生成基本代码、构建法律论据,甚至绘制儿童书籍插图。而现在,一批新的聊天机器人正在进军另一个传统上由人类处理的领域:职业教练。 在人们担心自己可能会被AI取代工作的同时,有些人正在使用同样的技术来帮助他们在工作中导航。人们已经转向生成式AI来获得专业人士提供的建议——如约会技巧、旅行规划以及如何应对有毒的人际关系。那么,为什么不把这些技术应用到工作上呢? 我们测试了六款机器人,看看它们与真正的职业教练相比表现如何,从如何处理性骚扰到何时换工作。我们发现,虽然AI工具提供了一些基础建议,但它们也可能复杂化问题或提供有偏见的解决方案。 测试结果如何 尽管生成式AI不像人类教练那样强大,但作为帮助职场困境中的另一个工具,它们显示出一定的前景。关键是将其作为创意生成器或获取额外视角的工具,最终依靠自己的判断。 “比如,可以说‘这是我的计划。我还应该考虑什么?’” 西北大学凯洛格管理学院研究AI对工作的影响的助理教授Hatim Rahman说道。“我认为这是最有前景的地方。” 各大AI工具表现如何 专为职业教练设计的AI工具会逐步引导我们解决问题,通常会提出有针对性的跟进问题。这些应用程序通常引导我们自己解决问题,而不是强行将我们引向某个路径。像ChatGPT这样的通用应用程序则更可能一次性提供大量信息。 Google SGE: 公司的生成式AI搜索通常会在许多Google搜索的顶部自动显示,通常会给我们一份要点列表,并附上更多信息的链接。这些链接指向工作网站、职业服务提供商以及公司和大学博客。 Copilot: 微软的AI机器人类似,但它允许你进行更多对话。当我们问它如何与老板谈论其微观管理倾向时,我们可以进一步要求它提供如何设定边界的建议。它会提供更多步骤,包括可能的措辞:“我很感激反馈,但我更希望在我们每周的检查中收到,而不是在整个工作日中。” ChatGPT: OpenAI的免费应用程序版本通常会在一个响应中加载所有内容,给出一份提示列表、一个困难对话的样本脚本,并以最终的想法结束。类似于Copilot,你可以继续提出额外的问题或进行调整。 AIMY: 当我们问AIMY(由OpenAI、Anthropic和公司自己的模型提供技术支持)是否应该辞职时,AI并没有立即回答。首先,它会提出关于为什么我们要问、我们对工作的感受以及是否有步骤可以解决问题的问题。该应用程序由连接人类职业教练的公司CoachHub拥有。 “如果你今天需要处理一个复杂的情况,你不需要等待你的教练。” CoachHub的数据和洞察高级副总裁Pedro Cabrera说道。 Wisq: 该应用程序允许你从“发展领导技能”等主题中选择,或与机器人自由聊天。它同样保持中立,建议职业转换可能具有挑战性但也可能有回报。它使用专有算法和来自OpenAI、Meta和Anthropic的大型语言模型的结合。 “只有很小一部分员工可以访问人类教练,” Wisq的CEO Jim Barnett说道。“我们的重点是为另外98%的员工提供教练。” Rocky.ai: 该工具专注于具体目标,有时过于专注。这可能是因为系统只从精选内容中提取,而不是整个互联网,或公司为企业账户上传的数据。它使用Google的Gemini和OpenAI的GPT等主要模型来增强特定对话请求。 CoachHub的AIMY、Wisq和Rocky.ai都可以作为移动应用程序或在网络上使用。CoachHub和Rocky.ai提供免费版本,三者都有付费选项。 需要注意的是,如果你使用的是消费者工具,你的数据可能会被用于培训目的。企业账户通常有更多保护,但在使用公司提供的软件询问敏感问题时要谨慎。 为什么它们无法取代人类 AI无法取代人类职业教练,部分原因在于技术往往会编造内容。 OpenAI的使用政策警告构建者不要使用ChatGPT来促进“可能显著影响他人安全、福祉或权利的活动”,尽管它没有具体说明任何关于职业建议的内容。它警告说答案可能听起来正确但实际上是错误的,并提醒用户它并不了解所有事情。微软表示同意,Copilot并不是为了成为职业顾问而构建的。 AI在回答中也存在性别和种族偏见的问题。例如,当我们分别为女性和男性寻求工作推荐时,ChatGPT提供了性别化的答案,比如为男性推荐更多的科学和技术相关工作。 这些机器人有时太过笼统而不具有帮助性,或者太奇怪而无法理解。Copilot不知道如何为可能怀疑自己在工作场所受到无意识偏见的人提供建议,而是提供了关于无意识偏见的通用建议,如“自我教育”。有一次,Rocky.ai问道:“今天你会优先考虑哪项任务,并利用你最深层次的纪律?” 在其他情况下,跟进问题变得令人困惑和循环,几乎是在引诱我们通过反问来回答原始问题。在这些情况下,我们用简单的“我不知道。你能帮忙吗?”来结束循环,这促使机器人开始与我们一起头脑风暴。 “Korn Ferry全球人工智能实践负责人Vinay Menon说道:“AI生活在互联网上,而你我生活在现实世界中——这一点我们不应忘记。AI旨在支持决策,而不是完全接管决策。” AI教练未来的就业前景 专家和软件制造商一致认为,AI无法像人类教练那样提供情感共鸣、人类情感线索和对你个人经历的了解。 “导师了解你的职业轨迹和经验,而[AI]不会。” Rahman说道。 在寻求建议之前,你应该具备基本的AI素养和怀疑态度,并熟悉数据隐私政策。 软件制造商和AI专家一致认为,这项技术只会变得更好。OpenAI已经推出了可以识别某些视觉线索的技术。也就是说,AI像科学一样对待决策,而不是通过洞察力。如果你使用它,不要忘记依靠你自己的智慧。 “人类需要放在首位,AI其次。” Menon说道。
Google的Gemini 1.5 Pro性能如何?与OpenAI的GPT-4o一较高下
Google的Gemini 1.5 Pro发布已有一段时间,支持多达100万个token。最近,这家位于山景城的科技巨头在2024年Google I/O大会上宣布,开发者很快就能尝试一个2M token版本。 那么,Gemini 1.5 Pro的实际表现如何?通常,基准测试数据是一个好的起点,尽管它不一定能完全描绘出全貌。事实证明,无论是Gemini 1.5 Pro,还是其“高级版”在某些类别中都与OpenAI最新的GPT-4o不相上下。 表现对比 正如上图所示,根据LMSYS Org的整体排行榜对比,Gemini-1.5-Pro-API-0514和Gemini-Advanced-0514在Arena Elo系统测量下接近GPT-4o。这两个模型在中文领域也极受欢迎,且在“难题”类别中表现突出。 Arena Elo系统通过让用户匿名投票选择哪个模型在随机对决中表现更好,来衡量大型语言模型(LLM)的技能,并像国际象棋的Elo系统一样更新其评级。这个非营利性AI组织专注于对比模型的表现。 Gemini 1.5 Flash现已在Google AI Studio和Vertex AI上可供试用。对于一个小型轻量级模型,它的表现确实与微软Phi-3系列最新成员Phi-3-vision和Phi Silica相媲美。 与OpenAI的比较 OpenAI不久前推出了新的GPT-4o模型和ChatGPT桌面应用,预期非常高。最新的模型使AI聊天机器人在与用户对话时听起来极具人性化。 总的来说,Google的Gemini 1.5 Pro在多个方面表现出色,尤其是在某些特定类别中能与OpenAI的最新模型一较高下。这使得它在AI技术竞赛中占据了一席之地,并展示了其强大的竞争力和创新能力。
苹果与OpenAI合作在即:iOS 18中的ChatGPT引发期待与担忧
OpenAI即将与苹果合作:iOS 18中的ChatGPT引发期待与担忧 当iOS 18在下个月的WWDC 2024预览中亮相时,ChatGPT可能也会随之而来。据报道,苹果与OpenAI正在进行高级谈判,计划在今年的iPhone软件更新中使用OpenAI的技术,这是苹果将更多AI功能引入其产品的一次重要举措。 AI功能的前景与担忧 对于希望在iPhone上体验生成式AI功能的用户来说,这是一个令人兴奋的前景,可能还会看到Siri个人助理的全新版本。然而,对于最近关注新闻并发现OpenAI因为错误原因而登上头条的人来说,这一发展也令人担忧。 在Bloomberg报道苹果与OpenAI的谈判的同时,OpenAI正在举行其春季更新活动,展示新的GPT-4o模型,其中亮点是一个能够进行实时对话的新语音助手——Sky。这个语音助手被比作电影《她》中的虚拟助手工具,OpenAI CEO Sam Altman在Sky亮相时似乎强调了这种比较,在推特上发布了“her”。 演员斯嘉丽·约翰逊也注意到了这种相似之处,她在一份强烈声明中表示,Altman曾接洽她为Sky提供声音,但她拒绝了这一提议。鉴于两者声音的相似性,约翰逊认为OpenAI在未经许可的情况下使用了她的声音。 事实的复杂性 据《华盛顿邮报》和《华尔街日报》报道,现实情况可能更加复杂。提供Sky声音的女演员显然在Altman接洽约翰逊之前就已被聘用。而且,Altman向约翰逊的提议也是向AI项目中许多其他人提出的。 我并不打算在这里解开这场“他说,她说”的纠葛——或者更准确地说,“他说,‘她’说”。无论是OpenAI被抓到试图搞小动作,还是公司因沟通不畅和缺乏透明度而陷入公关困境,任何一种解释都不太令人鼓舞,特别是如果OpenAI的模型即将进入你的iPhone。 OpenAI的担忧 这就是为什么斯嘉丽·约翰逊声音的争议不仅仅是一个附带事件,至少对于使用iPhone的人来说是如此。那些在公众面前与不怕起诉迪士尼公司的演员争吵的OpenAI人员,可能会在Tim Cook的邀请下影响你的iPhone功能。 苹果与OpenAI的合作范围尚不清楚——如果它真的实现的话。正如我的同事Ryan Morrison所指出的,这项协议最终可能涵盖从OpenAI将ChatGPT元素整合到iOS 18,到苹果用ChatGPT驱动的助手取代Siri的任何内容。无论最终结果如何,请原谅我对一家有ChatGPT记录的公司参与我的iPhone软件内在工作的担忧。 在iPhone上引入AI功能相对较新,至少在我们谈论的iOS 18的一些传闻功能的能力和集成方面是如此。每当新功能出现在你的手机上时,你都会有所信任,你依赖实施强大新功能的人以安全、道德的方式进行操作。多年来,苹果赢得了这种信任;同样的话却不能用在OpenAI身上。 安全与隐私问题 关于其语音助手的争议并不是OpenAI第一次陷入争议。一名顶级研究人员刚刚辞职,声称“安全文化和流程已经被闪亮的产品所取代”。(这次辞职是在OpenAI解散公司内部一个考虑AI长期风险的团队之后发生的。)去年,OpenAI的董事会短暂解除了Altman的CEO职务,理由是对他处理AI安全问题的方式表示担忧。这些都不是令人鼓舞的头条新闻。 没有什么设备比你的手机更私人化。你要小心让谁进入你的手机。 没有什么设备比你的手机更私人化。它包含你的联系人、通讯记录,甚至越来越多的敏感数据,如健康和银行信息。你需要小心让谁进入你的手机,把这种权限留给那些理解你的手机是你的一部分,而不是另一个可以被收集的数据点的公司。 冒着看起来像只看过《老板宝宝》的那个表情包一样的风险,我从这件事上感受到了很多Facebook的影子。Facebook,这个现在只有你的父母在用的社交网络,大约十年前因为严重的隐私侵犯问题登上头条,随后真诚地为这些侵犯行为道歉,然后在认为大家都不再关注后又进行了更多的隐私侵犯。Facebook现在以Meta的名义运营,主要是因为它将重点转向了虚拟现实,但部分原因是Facebook的名字已经成了“即使我们不应该看你的数据,我们也会一直看”的代名词。 OpenAI还没有到那个地步,至少目前还没有。但就第一印象而言,在据称即将与苹果达成协议之际,这并不是一个好的开始。 iOS 18的AI前景 关于iOS 18及其将为iPhone带来的AI功能,有很多令人兴奋的地方。尽管许多细节仍然保密,但一些已经透露出的潜在功能表明,苹果正在添加一些加速日常任务的功能,使我们能够更自由地发挥创造力并在iPhone上完成更多工作。 这无疑是令人鼓舞的,即使AI功能也有其陷阱。我对苹果意识到这些陷阱相当有信心;我只希望它意识到任何潜在的合作伙伴也需要对此保持警惕。
Niantic利用Meta Llama让数字生物栩栩如生
自90年代以来,虚拟宠物从简单的数字玩具发展到能够进行逼真互动的复杂伴侣。而Niantic凭借其开创性的增强现实(AR)游戏如《精灵宝可梦GO》,通过其最新的移动AR冒险游戏《Peridot》将虚拟宠物提升到了一个新的高度。 Peridot:首款使用生成式AI的AR游戏 《Peridot》是一款首创的AR游戏,利用生成式AI创建了一个充满逼真宠物的虚拟世界。为了驱动Peridot的虚拟世界,Niantic集成了Meta Llama 2,将其可爱的生物“Dots”变成了具有智能行为的AR宠物,这些宠物现在能够模拟真实动物的不可预测性。Llama 2实时生成每个Dot的反应,使每次互动都充满动态和独特性。 “利用像Llama这样的LLMs(大型语言模型),我们可以让生成式AI以有意义和现实的方式驱动Peridot的游戏玩法,”Niantic的全球市场负责人Asim Ahmed说道。“而不是手动编程一系列有限的反应,我们使用Llama 2来帮助确定生物可能的反应,并从我们庞大的动画库中选择适当的回应。” 通过开源增强沉浸式体验 Niantic致力于打造成为玩家日常生活一部分的游戏。Peridot团队意识到玩家希望与他们的Dots有更沉浸的体验,这促使他们探索能够促进更深连接并增强陪伴感的新技术。Niantic选择利用LLMs,因为它们能够从当前环境中“学习”并一致地响应提示。通过使用像Llama 2这样的开源模型,Niantic显著加快了开发过程,使Peridot团队可以跳过繁琐的审批流程,立即开始创建。 随着Peridot变得越来越复杂和互动性增强,Niantic的工程师们需要一个系统来处理生物和玩家之间的动态互动,以加深参与度并增强游戏与环境的互动。Llama的开源方法让Niantic团队能够快速在自己的环境中进行原型设计和迭代,优先考虑数据隐私。Llama的框架还提供了更多的灵活性,使Niantic能够增强其生成式AI能力,并在不到三个月的时间内为玩家加快推出新的沉浸式功能。 “我们期待看到更多的模型开源,使像我们这样的团队能够自由探索它们的能力,而不必在探索初期陷入关于成本、隐私和云依赖的讨论中,”Ahmed说道。 让Peridot变得更智能 Niantic最初在2023年11月将Llama 2集成到Peridot中,使Dots能够适当地对其环境做出反应。Peridot团队希望探索在其AR识别系统和庞大的生物动画库的同时使用通用对话LLM,而无需对LLM本身进行微调。在实施Llama时,团队优先考虑创意和响应时间,而不过分复杂化他们的一次性提示。他们在创建一个具有足够表现力和创意的提示以适应选定生物的反应时遇到了挑战,并确保这些反应保持一致格式。由于这些生物充满独特的个性特征,他们有可能在一次性提示中向Llama提供过多信息,从而减慢响应时间。 在获得游戏社区的广泛成功和积极反馈后,这项技术的应用也随之演变。Niantic团队进一步利用Llama 2的能力,让玩家能够与他们的Dots进行“对话”,创造更个性化的游戏体验。 Llama的最新集成使每个Dot能够表现出不可预测和令人惊讶的行为,而不是依赖于一组预定的动作。无论Dot表现出喜悦、好奇还是恶作剧,每个由AI驱动的回应都带来一种有机的真实感,使玩家在与虚拟生物互动时更为兴奋。 Niantic使用先进的计算机视觉算法将玩家摄像头的物理世界图像转换为准确的3D模型。这项技术让Dots能够与周围环境互动。利用Niantic的Lightship ARDK,Dots能够识别诸如花朵、食物和宠物等物体。这些观察结果随后由定制版Llama 2处理,考虑每个Dot的独特特征,如个性和历史,以确定这些虚拟生物可能对其发现做出的反应。 由于玩家现在可以通过语音识别或文本输入任何命令,除了Llama的提示响应之外,还需要考虑增加的延迟。Peridot团队需要与Llama合作,以创建能够理解玩家输入和附加信息(包括生物的饥饿状态、注意力状态和场景中检测到的物体)的持续反应。他们通过在JSON中定义预期响应格式来解决这个问题,从而立即提高了LLM响应的质量。 “我们惊讶地发现,通过提示Llama,我们可以创造出不可预测的行为,”Ahmed补充道。“对于虚拟宠物来说,这确实为我们的角色注入了生命。我们看到了一系列广泛的机会,可以以不同的方式利用Llama来更程序化地推动新的游戏领域。” 更加可爱的未来 通过摆脱静态算法并拥抱AI驱动的自发性,Peridot的虚拟宠物现在可以提供以前无法想象的体验。例如,如果玩家问他们的Dot是否想去散步,生物可能会通过兴奋地旋转来表示他们准备好了。 “Peridot在生成式AI方面的成功让我们看到了未来的可能性,我们计划提升玩家在不同设备上与Peridot互动的方式,”Ahmed说道。“我们很高兴能继续突破Peridot和Llama的边界,真正让这些生物在我们的世界中以新的有趣的方式栩栩如生。”
OpenAI风波不断:关键安全团队崩溃与离职风波引发信任危机
OpenAI最近经历了一个艰难的星期。 随着关键安全研究人员的离职、严格保密协议压制前员工发声的报道,以及对新版ChatGPT的强烈反对,该公司一直处于防御状态。 上周,Jan Leike和Ilya Sutskever的戏剧性离职甚至迫使OpenAI领导层,包括CEO Sam Altman,公开声明为他们控制AI风险的努力辩护。 当Vox报道了OpenAI严格的离职协议后,Altman表示这是他“经营OpenAI以来少数几次真正感到尴尬”的时候之一。他补充说,他不知道这些条款被强加给离职员工,并表示公司正在努力修改这些协议。 对于Altman来说,这种承认是罕见的,他一直努力营造一种在OpenAI的持续混乱中相对冷静的形象。去年一次未遂的罢免行动最终增强了这位CEO的声誉,但似乎OpenAI的裂缝再次显现。 安全团队的崩溃 关键从事AI安全工作的员工离职后,OpenAI一直在全面进行危机管理。 上周,负责确保通用人工智能不会失控并危害人类的团队领导者Leike和Sutskever双双辞职。 Leike在辞职后发表了一篇长文,指责前雇主将“闪亮的产品”置于安全之上。他表示,安全团队“在计算资源上挣扎”,而“完成这项关键研究变得越来越困难”。 快速扮演危机管理者角色的Altman分享了Leike的帖子,说:“他说得对,我们还有很多工作要做;我们致力于完成它。” 这些高调的离职事件只是最近离职潮的一部分。 据《The Information》报道,两名安全研究人员Leopold Aschenbrenner和Pavel Izmailov因泄露信息的指控被解雇。 安全与治理研究员Daniel Kokotajlo和William Saunders最近也离开了公司,而政策前沿的研究负责人Cullen O’Keefe在四月离职,据其LinkedIn资料显示。 Kokotajlo告诉Vox,他“逐渐失去了对OpenAI领导层及其负责处理AGI的能力的信任”。 由Leike和Sutskever领导的超级对齐团队去年约有20名成员,现在已经解散。OpenAI的一位代表告诉《The Information》,公司已将剩余员工与其更广泛的研究团队合并,以实现其超级对齐目标。 被沉默的员工 安全团队的崩溃对Altman是一个打击,他一直希望展示自己在开发超级智能AI时是注重安全的。 他去年在Joe Rogan的播客中说:“我们中的许多人非常担心,而且仍然担心安全和对齐问题。关于‘不摧毁人类’的版本,我们有很多工作要做,但我认为我们终于有了更多可能有效的想法。” 一些人认为Leike的指控削弱了Altman在这一问题上的权威,并在更广泛的范围内引起了关注。 负责谷歌DeepMind机械解释团队的Neel Nanda回应了Leike的帖子:“关于OpenAI内部发生的事情,这些故事令人非常担忧。” 星期五,Vox报道说,严格的离职协议实际上让OpenAI员工沉默。 据报道,这些协议包括保密和不贬损条款,如果员工批评前雇主或甚至承认存在保密协议,他们可能会失去已获归属的股权。 Altman在一篇X帖子中回应道:“这是我的责任,这是我经营OpenAI以来少数几次真正感到尴尬的时刻之一;我不知道这件事正在发生,我应该知道。” 他补充说:“过去一个月左右,团队已经在着手修订标准离职文件。” “她”的声音暂停 尽管OpenAI努力控制混乱,但审查似乎并未结束。 周一,公司表示将暂停ChatGPT的“Sky”语音,最近这种语音被比作斯嘉丽·约翰逊的声音。 公司在一篇帖子中表示:“我们认为AI语音不应故意模仿某个名人的独特声音——Sky的声音不是斯嘉丽·约翰逊的模仿,而是属于另一位职业女演员,使用她自己的自然说话声音。” 这种声音是公司GPT-4o演示的重要部分,被广泛比作约翰逊在电影《她》中饰演的虚拟助手角色。Altman甚至在演示中在X上简单地发布了“她”来承认这种相似性。 一些用户抱怨聊天机器人的新语音,称其在网上流传的演示视频中显得过于性感和调情。 似乎对批评置若罔闻,OpenAI在发布后表现出胜利的姿态。通常沉稳的Altman甚至似乎在影射谷歌,后者在次日演示了新AI产品。 Altman在X上写道:“我尽量不去想竞争对手,但我无法停止思考OpenAI和谷歌之间的美学差异”,并附上了竞争对手演示的图片。 OpenAI没有立即回应Business Insider在正常工作时间外的评论请求。
Elon Musk 的xAI初创公司融资60亿美元,加速AI技术发展
埃隆·马斯克的AI初创公司xAI在最新一轮融资中筹集了60亿美元,正如今天宣布的那样,这标志着马斯克在与OpenAI、微软和Alphabet等竞争对手激烈竞争中巩固资本的一步。 在博客文章中,xAI透露,其B轮融资获得了Valor Equity Partners、Vy Capital、Andreessen Horowitz、红杉资本、富达、阿尔瓦利德王子和Kingdom Holding等投资者的支持。 这笔融资证实了TechCrunch在4月的报道,当时xAI计划以180亿美元的投前估值筹集60亿美元。TechCrunch还报道,马斯克确保他现在拥有并控制的社交网络X也持有xAI的股份,因此将从AI公司的任何收益中受益。 马斯克在推特上证实了18亿美元的投前估值。 马斯克是AI领域最早也是最引人注目的企业家之一。他领导的汽车公司特斯拉是顶级电动车制造商,拥有自动驾驶技术。他还是OpenAI的联合创始人,曾向该公司投资数千万美元。但自那以后,马斯克对OpenAI的热情逐渐冷淡。今年3月,他起诉了OpenAI及其联合创始人Sam Altman,指控他们背离了公司的使命声明,成为了微软的“封闭源码事实上的子公司”。他还指责谷歌在其AI产品中编码偏见。 去年成立xAI后,马斯克于11月发布了其与ChatGPT竞争的Grok 1.0模型。随后,公司通过X上的聊天机器人向每月支付16美元的Premium+用户开放了该模型。今年4月,公司发布了新的Grok 1.5模型,并允许X上的高级用户访问该聊天机器人。此外,马斯克拥有的公司在4月预览了Grok的多模态能力。今年早些时候,公司开源了Grok模型,但没有提供任何训练代码。 xAI计划利用新一轮融资的资金,将其第一批产品推向市场,构建先进的基础设施,并加速未来技术的研发。公司表示,可能会寻找合作伙伴,将Grok引入X之外的用户。 此外,公司新支持者还包括与马斯克关系密切的个人,如PayPal和Founders Fund的联合创始人Ken Howery。xAI声称其目标是开发“真实”的AI系统。然而,与其他AI聊天机器人一样,Grok在X上的新闻摘要功能也被报道存在幻觉并生成误导性信息。