Canva收购Leonardo.ai,扩展其生成式AI技术堆栈 Canva宣布收购生成式AI内容和研究初创公司Leonardo.ai,以扩大其AI技术堆栈的范围。尽管交易的财务条款未公开,但Canva联合创始人兼首席产品官Cameron Adams表示,这是一笔现金和股票混合的交易。Leonardo.ai的120名员工,包括高管团队,都会加入Canva。 “Leonardo将继续独立于Canva运营,专注于快速创新、研究和开发,现在有了Canva的资源支持,”Adams告诉TechCrunch。“我们将继续提供Leonardo的所有现有工具和解决方案。此次收购旨在帮助Leonardo开发其平台,并通过我们的投资,包括扩展其API业务和投资基础模型研发,深化其用户增长。” 总部位于悉尼的Leonardo.ai成立于2022年,最初专注于视频游戏资产创建——该初创公司的创始人是在一家视频游戏公司工作时相识的。后来,Leonardo.ai的团队决定扩展平台以满足更多场景需求,如为时尚、广告和建筑等行业创建和训练AI模型。 目前,Leonardo.ai提供协作工具和模型的私有云,包括视频生成器,以及访问API,让客户能够在Leonardo.ai的平台上构建自己的技术基础设施。 Leonardo.ai的创新特点 Leonardo.ai的团队表示,该平台通过为用户提供大量控制来与其他生成式AI艺术平台区分开来。例如,Leonardo.ai的Live Canvas功能允许用户输入文本提示,然后快速绘制他们想要的最终结果的草图。用户绘制时,Leonardo.ai会根据文本和草图提示实时生成一个逼真的图像。 虽然不清楚Leonardo.ai如何训练其内部生成模型,如其旗舰模型Phoenix,但这对于任何生成式AI服务来说都是一个重要问题,考虑到在未经许可的情况下训练模型会带来法律后果。Leonardo.ai的公关对此含糊其辞,仅表示模型是在“许可的、合成的和公开可用/开源数据”上训练的。 Canva本身在支持创作者采用生成式AI方面相对积极,承诺在未来几年内投入2亿美元,以支付那些同意使用其内容训练公司AI模型的创作者。 加大对AI的投资以推动增长 Leonardo.ai拥有超过1900万注册用户,其工具已用于创建超过十亿张图片。Adams表示,Leonardo.ai将帮助Canva的Magic Studio生成式AI套件做出贡献。该公司在被收购前已从包括Smash Capital、Blackbird、Side Stage Ventures、TIRTA Ventures、Gaorong Capital和Samsung Next在内的支持者那里筹集了超过3880万美元的资金。 “我们将寻求将Leonardo的技术整合到Magic Studio中,这让我们非常兴奋,”Adams说。“这可能包括使现有的Magic Studio工具更强大,或者在Canva中直接引入由Leonardo的模型提供支持的新生成式AI功能。目前还在早期阶段,我们将立即合作确定具体的实施方式,但我们非常期待扩展用户在Canva上使用AI的能力。” 自2022年12月以来,Canva一直在投资生成式AI工具,首先推出了写作助手Magic Write。为了准备IPO,Canva在最近几个月通过内部项目和收购加快了开发力度。2021年2月,Canva收购了Kaleido,该公司为图像和视频提供拖放背景移除服务。Adams表示,Kaleido为Canva最近的许多生成式AI努力奠定了基础。 其他收购 Leonardo.ai是Canva的第八次收购,也是今年的第二次收购,此次收购距离其以约3.8亿美元收购英国设计公司Affinity仅三个月。Canva还拥有演示初创公司Zeetings、免费图库网站Pixabay和Pexels以及捷克的产品模拟应用Smartmockups。 成立于2012年的Canva已经筹集了超过5.6亿美元(最近一次估值为260亿美元),年收入接近20亿美元。其全球每月活跃用户超过1.8亿。 “这是我们努力构建最强大的全功能视觉AI产品的一个重要但自然的下一步,”Adams说。“我们一直专注于构建一个包括生成式解决方案(如图像和设计生成)的AI驱动工作流。将这种Canva工作流与新的生成能力结合起来,将帮助我们继续将我们的AI产品与众不同,并为越来越多使用Canva的团队和企业提供新的可能性。”
Author: aitrendtrackers@rengongzhineng.io
苹果公司宣布推迟AI功能发布,延后至10月
苹果公司宣布其即将推出的人工智能(AI)功能将推迟发布,不会在新款iPhone和iPad软件更新的初期版本中包含这些功能。原计划与iOS 18和iPadOS 18在9月发布的Apple Intelligence功能,现在预计将于10月向客户推出。然而,苹果将通过iOS 18.1和iPadOS 18.1测试版向软件开发者提前提供这些AI功能。 据彭博社报道,推迟AI功能的决定是为了确保消费者发布的顺利进行,并解决技术稳定性方面的担忧。通过给予开发者更多时间进行测试和解决问题,苹果希望避免出现重大漏洞或故障。公司还计划在未来几年内通过多次更新iOS 18,逐步推出完整的Apple Intelligence功能。 Apple Intelligence包括多种功能,如通知优先级排序、网页和语音笔记摘要、写作工具、改进版的Siri以及与OpenAI的ChatGPT集成。然而,即使AI功能随iOS 18.1和iPadOS 18.1发布,部分功能(包括Siri的重大变化)仍将缺失。 推迟Apple Intelligence功能的发布,正值苹果公司努力在快速增长的AI领域中竞争之际。公司认为,新功能可能有助于推动即将推出的iPhone 16型号的销售,这些型号预计在设计上只有细微变化。通过软件相关的增强和更快的芯片,苹果希望借助新设备的AI功能吸引顾客。 PYMNTS报道称,科技巨头和初创公司在AI领域的重大进展和竞争正在加剧。微软的Bing正在推出生成式搜索功能,以与谷歌的AI驱动产品竞争。OpenAI也推出了名为SearchGPT的原型,旨在增强信息检索能力。AI驱动的配送机器人,如Vayu Robotics,正在通过承诺降低配送成本来重塑电商物流。此外,由AI先驱李飞飞创立的初创公司World Labs,在短短四个月内达到了10亿美元的独角兽估值,公司专注于教计算机理解3D世界。AI与边缘计算的整合也在加速发展,具有在零售和制造业中的潜在应用。 随着AI热潮的持续,监管机构也在迅速适应并解决潜在的反垄断问题。美国、欧盟和英国的竞争监管机构联手应对市场集中和反竞争行为的担忧,特别关注控制关键AI资源和审查科技巨头的投资。然而,Meta对欧盟严格的AI监管表示担忧,警告欧洲与世界其他地区之间可能出现“技术差距”。
AI工作流程设计的自动化优化:微软与斯坦福的新成果 – Trace
设计AI应用(如聊天机器人和编码助手)的计算工作流程非常复杂,因为需要管理许多异构参数,如提示和机器学习超参数。部署后的错误需要手动更新,增加了挑战性。该研究探讨了旨在自动化设计和更新这些工作流程的优化问题。由于其复杂性,涉及相互依赖的步骤和半黑盒操作,传统的优化技术(如贝叶斯优化和强化学习)往往效率不足。虽然提出了基于LLM的优化器以提高效率,但大多数仍依赖标量反馈,并处理仅包含单一组件的工作流程。 微软研究院和斯坦福大学的研究人员提出了一个名为Trace的框架,用于自动化设计和更新AI系统(如编码助手和机器人)。Trace将计算工作流程视为类似于神经网络的图结构,并使用Trace Oracle优化(OPTO)优化异构参数。Trace高效地将工作流程转换为OPTO实例,使通用优化器OptoPrime能够基于执行轨迹和反馈迭代更新参数。这种方法提高了跨多个领域的优化效率,在提示优化、超参数调整和机器人控制器设计等任务中表现优异,超过了专门优化器。 现有框架如LangChain、Semantic Kernels、AutoGen和DSPy主要通过标量反馈和黑盒搜索技术来组合和优化计算工作流程。而Trace不同的是,它使用执行追踪进行自动优化,将计算图泛化以适应各种工作流程。Trace的OPTO框架支持提示、超参数和代码的联合优化,提供丰富的反馈,并动态适应工作流程结构的变化。它将自动微分原则扩展到不可微工作流程,实现高效的自适应代理和通用优化,且在多个任务中超越了专门优化器。 OPTO构成了Trace的基础,定义了一个用于迭代优化的基于图的抽象。计算图是一个DAG,其中节点表示对象,边表示输入输出关系。在OPTO中,优化器选择参数,Trace Oracle返回包含计算图和输出输入的轨迹反馈。此反馈可以包括分数、梯度或自然语言提示。优化器使用这些反馈来迭代更新参数。与黑盒设置不同,执行轨迹提供了到输出的清晰路径,使参数更新更加高效。Trace利用OPTO通过抽象设计和领域特定组件来优化各种工作流程。 基于LLM的优化算法OptoPrime是为OPTO问题设计的。它利用LLM的编码和调试能力来处理执行轨迹子图。Trace反馈是一种伪算法,允许LLM建议参数更新。OptoPrime包括一个内存模块,用于跟踪过去的参数反馈对,增强鲁棒性。实验表明,OptoPrime在数值优化、交通控制、提示优化和长时间跨度机器人控制任务中的有效性。OptoPrime在利用执行轨迹信息和记忆方面表现出优异性能,优于其他优化器。 Trace将计算工作流程优化问题转化为OPTO问题,并通过OPTO优化器OptoPrime有效地展示了这一点。这标志着向新优化范式迈出了初步步骤,并具有多种未来方向。LLM推理的改进,如链式思维、少样本提示、工具使用和多代理工作流程,可能会改善或启发新的OPTO优化器。结合LLM和搜索算法与专用工具的混合工作流程可能会产生一个通用的OPTO优化器。特别是针对大规模图的计算传播器的专门化,以及开发能够进行反事实推理的优化器,可能会提高效率。非文本上下文和反馈也可能扩展Trace的适用性。 https://github.com/microsoft/Trace
探索10个流行嵌入库:AI文本嵌入的优势与局限
生成式AI的快速进步凸显了文本嵌入的重要性 文本嵌入将文本数据转化为密集向量表示,使模型能够高效处理文本、图像、音频等数据类型。各种嵌入库在这一领域中脱颖而出,每个都有其独特的优势和局限。以下是10个流行嵌入库的比较及其链接。 1. OpenAI Embeddings 优势: 局限: 2. HuggingFace Embeddings 优势: 局限: 3. Gensim Word Embeddings 优势: 局限: 4. Facebook Embeddings 优势: 局限: 5. AllenNLP Embeddings 优势: 局限: 6. MultiLingual BERT 适用于多语言数据集,嵌入维度为768,模型大小为1.04GB。 7. RoBERTa (2022) 适用于通用文本处理,嵌入维度为768,模型大小为476MB。 8. MPNet V2 使用Siamese架构,专为文本相似性任务设计,嵌入维度为768,模型大小为420MB。 9. Scibert Science-Vocabulary Uncased 专为科学文本预训练,嵌入维度为768,模型大小为442MB。 10. DistilBERT Base Uncased BERT的小型快速版本,嵌入维度为768,模型大小为268MB。 比较分析 选择嵌入库主要取决于具体的用例、计算需求和定制需求。OpenAI嵌入适合高级NLP任务和零样本学习场景,但需要大量计算能力,训练后灵活性有限。HuggingFace嵌入提供多功能且定期更新的模型,适用于文本、图像和多模态数据,易于集成和定制,但某些功能可能需要用户身份验证。Gensim Word Embeddings专注于文本,是NLP任务中需要定制训练的良好选择,但不支持非文本数据,模型选择较少。Facebook Embeddings提供强大的多语言文本嵌入和定制训练支持,适合大规模NLP应用,但设置和集成复杂。AllenNLP…
极客时间:使用开源RouteLLM 集成多模型Nvidia NIM的经济高效方案?
在过去的几次极客时间中,探讨了Nvidia NIMS和Microsoft Autogen。MS Autogen能够利用各种本地和在线模型的能力令人着迷。而降低推理成本的挑战也同样引人入胜。今天,将玩一个名为RouteLLM的开源库,它承诺通过高效管理和集成不同的AI模型来解决这些问题。 安装RouteLLM首先,需要在机器上安装RouteLLM:(https://github.com/lm-sys/RouteLLM) 设置环境然后,必须使用Nvidia NIM和OpenAI的API密钥来设置环境。在“examples”文件夹下创建一个文件run_route_llm.py。 代码片段如下: 需要分别登录NIM和OpenAI账户生成API密钥并复制过来。 初始化控制器接下来,从RouteLLM包中初始化控制器。控制器负责管理不同AI模型之间的通信并处理路由逻辑。将NIM上的llama-3.1设置为弱模型,而gpt-4则为强模型。初始化控制器的代码如下: 创建聊天完成控制器初始化后,可以创建聊天完成。发送用户消息并接收模型的响应。代码片段如下: 观察RouteLLM有效地管理了Nvidia NIM和OpenAI模型之间的路由。通过将较不复杂的查询路由到较弱的模型(llama 3.1),而将较复杂的查询路由到较强的模型(gpt-4),RouteLLM提供了一种潜在的成本优化策略。 阈值校准RouteLLM中的阈值校准涉及设置阈值以管理路由查询的成本质量权衡。校准过程使用查询样本来确定适当的阈值,以将特定百分比的查询路由到较强的模型。默认情况下,校准使用公共的Chatbot Arena数据集,例如,要使用mf路由器将50%的查询路由到较强的模型,可以使用以下命令: 对于mf的50.0%强模型调用,阈值=0.11593。这表示为mf路由器设置的阈值,以便大约50%的调用路由到较强的模型router-mf-0.11593。可以根据路由器和权衡设置不同的阈值。 结论RouteLLM为管理多个AI模型提供了一种解决方案,优化了性能和成本。将RouteLLM集成到工作流程中可以显著增强AI能力。有很多用例,其中之一是添加校准阈值和在资源受限设备(如物联网设备)上将查询路由到本地或在线模型的能力。这增加了灵活性,特别有用。 请随意探索RouteLLM GitHub仓库,并尝试使用自己的模型。如果有任何问题或想分享经验,请在下方留言。 玩得开心!
Nvidia推出AI Foundry服务:助力企业定制大语言模型,抢占企业AI市场
Nvidia悄然推出AI Foundry服务:助力企业打造定制化大语言模型 周二,Nvidia低调发布了其新的AI Foundry服务,旨在帮助企业创建和部署适应其特定需求的定制化大语言模型。这一举措表明Nvidia正努力在迅速增长的企业AI市场中占据更大的份额。 AI Foundry服务:Nvidia硬件、软件工具和专业知识的结合AI Foundry结合了Nvidia的硬件、软件工具和专业知识,使公司能够开发定制版本的热门开源模型,如Meta最近发布的Llama 3.1。随着企业越来越希望利用生成式AI的力量,同时保持对其数据和应用的控制,这项服务应运而生。 生成式AI的力量:AI如何改变工作和生活Nvidia的AI软件副总裁Kari Briski在接受VentureBeat电话采访时表示:“这是我们一直期待的时刻。企业争先恐后地了解生成式AI。但同样重要的是:开源模型的可用性。” 定制化推动精度提升:Nvidia的AI Foundry如何提高模型性能Nvidia的新产品旨在简化为特定业务用例调整这些开源模型的复杂过程。公司声称,通过定制化,模型性能显著提高。“我们发现,通过简单地定制模型,准确性几乎提高了十个百分点,”Briski解释道。 AI Foundry服务提供访问大量预训练模型、高性能计算资源(通过Nvidia的DGX Cloud)以及用于模型定制和评估的NeMo工具包。Nvidia的AI专家指导也是服务的一部分。 Briski说:“我们提供基础设施和工具,帮助其他公司开发和定制AI模型。企业带来他们的数据,我们有与许多云合作伙伴共同提供容量的DGX Cloud。” NIM:Nvidia独特的AI模型部署方法除了AI Foundry,Nvidia还推出了NIM(Nvidia推理微服务),将定制化模型打包成容器化、API可访问的格式,便于部署。这一发展标志着公司的重要里程碑。“NIM是一个模型,一个定制化模型和一个通过标准API访问的容器,”Briski说。“这是我们多年工作和研究的成果。” 行业分析师认为,此举是Nvidia扩展AI产品组合的战略性扩展,有可能开辟除其核心GPU业务以外的新收入来源。公司正将自己定位为全栈AI解决方案提供商,而不仅仅是硬件制造商。 企业AI采用:Nvidia对定制模型的战略赌注Nvidia的公告时机尤为重要,正值Meta发布Llama 3.1之际,并在AI安全和治理日益受到关注的背景下。通过提供一项允许公司创建和控制自己的AI模型的服务,Nvidia可能正在利用那些希望享受先进AI带来的好处但又不愿承担使用公共通用模型风险的企业市场。 然而,广泛定制AI模型部署的长期影响尚不清楚。潜在挑战包括各行业间AI能力的碎片化以及维持AI安全和伦理一致性标准的难度。 随着AI领域的竞争加剧,Nvidia的AI Foundry代表了对企业AI采用未来的重大赌注。这场赌博的成功将在很大程度上取决于企业如何有效利用这些定制模型,在各自行业中推动现实世界的价值和创新。
谷歌DeepMind的AlphaProof和AlphaGeometry 2:AI系统在国际数学奥林匹克竞赛中取得突破
周四,谷歌DeepMind宣布其AI系统AlphaProof和AlphaGeometry 2在今年的国际数学奥林匹克竞赛(IMO)中解决了六个问题中的四个,获得了相当于银牌的分数。谷歌称,这是AI首次在这一著名数学竞赛中达到这样的水平——但和AI领域的其他声明一样,这一成就也并非完全没有争议。 深入了解 谷歌表示,AlphaProof使用强化学习来在一种叫做Lean的形式化语言中证明数学命题。该系统通过生成和验证数百万个证明来训练自己,逐步解决更复杂的问题。与此同时,AlphaGeometry 2被描述为谷歌之前几何求解AI模型的升级版,现在由基于Gemini的语言模型提供支持,并在大量数据上进行训练。 据谷歌称,著名数学家蒂莫西·高尔斯爵士和约瑟夫·迈尔斯博士使用IMO的官方规则对AI模型的解答进行评分。公司报告称,其综合系统在42个可能得分中获得了28分,距离29分的金牌门槛仅差一点。这包括在比赛中最难的一个问题上取得的满分,谷歌声称今年只有五名人类选手解决了这个问题。 一场与众不同的数学竞赛 自1959年以来,每年举办的IMO让顶尖的高中数学家们面对代数、组合学、几何和数论中极其困难的问题。IMO问题的表现已成为评估AI系统数学推理能力的公认基准。 谷歌声称,AlphaProof解决了两个代数问题和一个数论问题,而AlphaGeometry 2则解决了几何问题。AI模型未能解决两个组合学问题。公司声称其系统在几分钟内解决了一个问题,而其他问题则花费了长达三天的时间。 谷歌表示,他们首先将IMO问题翻译成AI模型可以处理的形式化数学语言。这一步与正式比赛不同,后者要求人类选手在两次4.5小时的比赛中直接处理问题陈述。 谷歌报告称,在今年的比赛之前,AlphaGeometry 2能够解决过去25年历史IMO几何问题的83%,高于其前身的53%的成功率。公司称,新系统在收到形式化版本后,在19秒内解决了今年的几何问题。 局限性 尽管谷歌声称取得了突破,但蒂莫西·高尔斯爵士在X上的一个帖子中提供了更为细致的看法。虽然他承认这一成就“远超以往的自动定理证明器所能达到的水平”,但也指出了几个重要的限制条件。 “主要的限制是程序需要比人类选手更长的时间——有些问题超过60小时——当然处理速度也比人类大脑快得多,”高尔斯写道。“如果人类选手被允许每个问题有这么长的时间,他们的得分无疑会更高。” 高尔斯还指出,在AI模型开始工作之前,问题是由人类手动翻译成Lean的形式化语言的。他强调,尽管AI执行了核心的数学推理,但这一“自动形式化”步骤是由人类完成的。 关于对数学研究的更广泛影响,高尔斯表示不确定。“我们是否接近数学家变得多余的地步?很难说。我猜我们还需要一个或两个突破,”他写道。他认为系统的长处理时间表明它尚未“解决数学问题”,但也承认“当它运行时显然有些有趣的事情在发生。” 即便有这些限制,高尔斯推测这样的AI系统可能会成为有价值的研究工具。“我们可能接近拥有一个程序,它可以让数学家回答一系列广泛的问题,只要这些问题不是太难——类似于人类在几小时内可以解决的问题。即使它本身不能解决开放问题,这也将是一个非常有用的研究工具。”
Gemini重大升级:1.5 Flash带来更快响应,扩大使用范围及更多功能
每天,大家都在发现如何利用Gemini提高生产力、创意和好奇心。今天的更新让Gemini在帮助完成任务方面更加出色,以最适合用户的方式助力。 现在,Gemini的免费版本已经可以使用1.5 Flash功能,响应更快更有用。此外,还推出了一个新功能来进一步解决幻觉问题,并扩展了适用于青少年的Gemini体验和移动应用。 更快更智能的1.5 Flash响应许多人喜欢使用Gemini是因为它节省时间。无论是写一封吸引人的邮件还是调试复杂的代码,快速且高质量的响应都非常重要。 今天,免费体验升级为Gemini 1.5 Flash。新版本显著提升了质量和延迟,尤其在推理和图像理解方面表现突出。与之前在高级版本中大幅扩展上下文窗口一样,免费版的上下文窗口也扩展至32K tokens。这意味着可以进行更长时间的对话和提出更复杂的问题,且无需额外费用。 为了充分利用这个更大的上下文窗口,用户很快可以通过Google Drive或设备直接上传文件,这项功能在高级版本中已经可用。这样一来,可以上传经济学学习指南并要求Gemini创建练习题,Gemini还能够分析数据文件,为用户揭示见解并通过图表进行可视化展示。 Gemini 1.5 Flash现已在网络和移动端向所有用户开放,支持40多种语言,覆盖230多个国家和地区。 Gemini响应中的相关内容用户还喜欢将Gemini作为研究伙伴来探索新话题。为此,现在在Gemini中展示与寻求事实相关的提示链接,继续致力于减少幻觉,并更容易探索有助于学习的网站。 从今天起,在某些国家使用英语提示时,可以直接在Gemini响应中访问这些额外的信息。点击段落末尾的芯片即可查看相关主题的网站链接。这不仅限于网站:如果Gemini的响应引用了通过Gmail扩展找到的信息,也会看到相关邮件的内嵌链接。 这项功能建立在减少幻觉的基础上。除了相关内容链接外,Gemini的双重检查功能通过Google搜索验证响应内容,突出显示哪些陈述在网络上得到支持或反驳。对于被反驳的信息,用户可以更深入地验证其真实性。 更多地方的Gemini功能今年早些时候,部分Android设备用户可以在Google Messages中直接与Gemini聊天。今天开始,Gemini将在欧洲经济区(EEA)、英国和瑞士逐步推出,新增法语、波兰语和西班牙语等语言。点击Messages中的“开始聊天”按钮并选择Gemini,即可在不离开Google Messages应用的情况下开始头脑风暴、规划行程等。 此外,Gemini移动应用将在更多国家推出,让世界各地更多人可以随时随地获得Gemini的帮助。 扩展青少年使用的Gemini下周,Gemini将面向全球青少年扩展使用,支持40多种语言。符合管理自己Google账号最低年龄要求的青少年可以使用Gemini更好地理解学校课程、准备大学或完成创意项目。 希望为青少年提供利用生成式AI的机会,帮助他们为未来的AI中心角色做好准备,同时优先考虑安全并满足他们的发展需求。为了帮助青少年自信、安全地使用Gemini,推出了额外的政策和保障措施,制定了针对青少年的入门流程,并包括AI素养指南,帮助他们负责任地使用AI。此外,还与包括MediaSmarts(加拿大)、Miudos Seguros na Net(葡萄牙)和Fad Juventud(西班牙)在内的儿童安全和发展专家合作,继续提供满足青少年和家庭独特需求的专业知识。 Gemini的责任设计Gemini的开发始终以责任和用户安全为指导。随着Gemini的不断发展,分享更多关于其设计和响应方式的信息。现在可以阅读有关Gemini设计的方法及其政策指南的更多细节,以更好地理解如何处理复杂和敏感的话题,包括涉及公共利益问题、政治、宗教或道德信仰的回应。这些指南以AI原则为基础,反映了开发该技术的责任和透明承诺。
OpenAI 宣布推出SearchGPT:一款具实时信息访问能力的AI搜索引擎
OpenAI 宣布其备受期待的搜索市场新产品——SearchGPT,这是一款具备实时访问互联网信息能力的AI驱动搜索引擎。(https://chatgpt.com/search) SearchGPT的搜索框从一个大文本框开始,提示用户输入“您在寻找什么?”与传统的链接列表不同,SearchGPT尝试组织并解读信息。在OpenAI提供的一个示例中,搜索引擎总结了有关音乐节的信息,并呈现简短的活动描述,后面附上来源链接。 另一个示例中,它解释了番茄的种植时间,然后详细介绍了不同品种的番茄。在结果出现后,用户可以提出后续问题或点击侧边栏打开其他相关链接。此外,还有一个称为“视觉答案”的功能,但在截稿前,OpenAI尚未向The Verge详细说明该功能的具体工作方式。 一个SearchGPT查询示例,用户搜索“2024年8月在北卡罗来纳州布恩的音乐节”。模型提供了从网络上实时抓取的信息,包括链接到来源的内容。 目前,SearchGPT只是一个“原型”。该服务由GPT-4家族模型提供支持,启动时仅向10,000名测试用户开放,OpenAI发言人凯拉·伍德告诉The Verge。伍德表示,OpenAI正在与第三方合作伙伴合作,并使用直接内容源来构建其搜索结果。最终目标是将这些搜索功能直接集成到ChatGPT中。 这可能会对Google构成重大威胁。Google急于在其搜索引擎中加入AI功能,担心用户会涌向更早提供这些工具的竞争产品。这也让OpenAI更直接地与创业公司Perplexity竞争,后者自称为AI“答案”引擎。Perplexity最近因其AI摘要功能受到批评,出版商声称其直接抄袭他们的作品。 SearchGPT的“视觉答案”功能展示了OpenAI的Sora在YouTube上的AI生成视频。它还包括一行企鹅及其家庭的单个图像。顶部有一家公司股票的截图,右侧是一个被云遮住的太阳。SearchGPT的“视觉答案”功能展示了OpenAI的Sora在YouTube上的AI生成视频。图片来源:OpenAIOpenAI似乎注意到了这些反对声音,并表示它采取了显著不同的方法。在一篇博客文章中,该公司强调SearchGPT是在与包括《华尔街日报》、美联社和Vox Media等新闻合作伙伴合作开发的。“新闻合作伙伴提供了宝贵的反馈,我们继续寻求他们的意见,”伍德说。 出版商将有一种方式来“管理他们在OpenAI搜索功能中的出现方式,”公司写道。他们可以选择不将其内容用于训练OpenAI的模型,同时仍能在搜索中显示。 “回答有明确的、内联的命名归因和链接,以便用户知道信息来自哪里,并能快速与更多结果互动,这些结果在带有来源链接的侧边栏中。” 以原型形式发布搜索引擎对OpenAI有多重好处。首先,如果SearchGPT的结果严重错误——比如Google推出AI概览时告诉我们把胶水涂在披萨上——可以更容易地解释为“它只是个原型!”也有可能会出错归因或完全抄袭文章,正如Perplexity被指控的那样。 关于这个新产品的传闻已经流传数月,《信息》在2月份报道了其开发情况,随后彭博社在5月份报道了更多消息。我们也报道了OpenAI曾积极挖掘Google员工组建搜索团队。一些X用户还注意到OpenAI正在开发的新网站暗示了这一举动。 OpenAI一直在逐步让ChatGPT与实时网络联系更紧密。GPT-3.5发布时,AI模型已经过时数月。去年9月,OpenAI推出了一种让ChatGPT浏览互联网的方式,称为Browse with Bing,但与SearchGPT相比显得非常初步。 OpenAI的快速进展赢得了ChatGPT数百万用户,但公司的成本也在增加。据《信息》本周报道,OpenAI的AI训练和推理成本今年可能达到70亿美元,免费版本的ChatGPT用户数量不断增加,进一步推高了计算成本。SearchGPT将在初期推出时免费,当前似乎没有广告,这意味着公司需要尽快找到变现方式。
“够大,够强” | Mistral Large 2重磅发布
最新一代继续在成本效益、速度和性能方面突破极限。Mistral Large 2在la Plateforme平台上发布,新增了许多功能,方便构建创新的AI应用。 Mistral Large 2 Mistral Large 2拥有128k的上下文窗口,支持包括法语、德语、西班牙语、意大利语、葡萄牙语、阿拉伯语、印地语、俄语、中文、日语和韩语在内的多种语言,还支持超过80种编程语言,包括Python、Java、C、C++、JavaScript和Bash。 Mistral Large 2专为单节点推理和长上下文应用设计,具备1230亿参数,能够在单节点上实现大吞吐量。Mistral Large 2在Mistral Research License下发布,允许研究和非商业用途的使用和修改。商业用途需获取Mistral Commercial License,通过联系我们获取。 综合性能 Mistral Large 2在性能和成本方面设立了新的标准。特别是在MMLU评估中,预训练版本达到了84.0%的准确率,刷新了开源模型在性能/成本比上的记录。 代码和推理能力 借鉴Codestral 22B和Codestral Mamba的经验,Mistral Large 2在大量代码数据上进行训练,表现远超之前的Mistral Large,并且与领先的模型如GPT-4o、Claude 3 Opus和Llama 3 405B表现相当。 详细基准测试 大量精力也用于提升模型的推理能力,重点减少模型“幻觉”生成错误信息的倾向,通过细致的调整使模型在回应时更加谨慎和可靠。此外,Mistral Large 2能够在无法找到解决方案或没有足够信息时,主动承认这一点。这种对准确性的承诺在数学基准测试中表现得尤为明显,展示了其增强的推理和解决问题的能力。 指令执行和对齐 Mistral Large 2的大幅改进在于其指令执行和对话能力,尤其在精确指令的遵循和长对话处理上表现优异。下图展示了MT-Bench、Wild Bench和Arena Hard基准测试中的表现: 语言多样性 如今,许多商业用例涉及多语言文档处理。虽然大多数模型以英语为主,新版Mistral Large 2在多语言数据上进行了大量训练,特别擅长处理英语、法语、德语、西班牙语、意大利语、葡萄牙语、荷兰语、俄语、中文、日语、韩语、阿拉伯语和印地语。下图展示了Mistral Large 2在多语言MMLU基准测试中的表现,与之前的Mistral Large、Llama 3.1模型和Cohere’s Command R+进行了对比。 工具使用和函数调用…