aitrendtrackers@rengongzhineng.io, Author at AI TrendTrackers

TikTok每月2千万美元的AI支出：微软的风险

Posted on August 1, 2024August 1, 2024 by aitrendtrackers@rengongzhineng.io

据匿名消息来源透露，TikTok通过微软购买OpenAI模型，每月花费2000万美元，截至今年三月。这个数字占微软AI收入的约25%。这对微软来说是个风险。TikTok的母公司字节跳动正努力开发自己的AI模型。据《The Verge》去年12月报道，字节跳动甚至在利用OpenAI的技术实现这一目标。如果成功，TikTok将不再需要OpenAI，也不再需要微软。这种困境在快速发展的人工智能领域并不新鲜。Nvidia也面临类似风险。这家AI芯片制造商的业务高度集中在巨头科技公司中，但这些客户，包括微软在内，已经在使用Nvidia的硬件开发自己的AI芯片。这让投资者和分析师担心，最终，Nvidia的一些客户将不再需要其产品。希望对微软来说，字节跳动开发AI模型的过程会比较慢。就在昨天，微软在第四季度财报中公布的AI云销售未能达到分析师的高预期。周三收盘后，微软股价下跌了6%。周四早盘，股价略有回升，约为418美元。其他被报道通过微软购买OpenAI模型的大客户包括AT&T、可口可乐、富达、沃尔沃和沃尔玛。其他OpenAI企业客户，如Zoom、Klarna和Salesforce，则直接从这家AI初创公司购买软件。

更小、更安全、更透明：Google发布的Gemma推动负责任AI的进步

Posted on August 1, 2024August 1, 2024 by aitrendtrackers@rengongzhineng.io

在六月，Google推出了全新的Gemma 2，这款顶级的开源模型拥有270亿（27B）和90亿（9B）参数。自发布以来，27B模型迅速成为LMSYS Chatbot Arena排行榜上的高分选手，甚至在真实对话中超越了许多比它大两倍的流行模型。但Gemma不仅仅是为了性能。它的基础是负责任的AI，优先考虑安全性和可访问性。为了支持这一承诺，Google隆重宣布三个新的Gemma 2系列成员：有了这些新增功能，研究人员和开发人员现在可以创建更安全的客户体验，深入了解模型，并自信地在设备上负责任地部署强大的AI，开启创新的新可能性。 Gemma 2 2B: 下一代性能体验，现已上线 Google很高兴介绍备受期待的Gemma 2家族新成员——Gemma 2 2B模型。这个轻量级模型通过从更大模型中学习，产生了出色的效果。实际上，Gemma 2 2B在Chatbot Arena上超越了所有GPT-3.5模型，展示了其卓越的对话AI能力。图表：LMSYS Chatbot Arena排行榜得分LMSYS Chatbot Arena排行榜得分捕捉于2024年7月30日。Gemma 2 2B得分正负10。 Gemma 2 2B提供了：从今天起，可以从Kaggle、Hugging Face、Vertex AI Model Garden下载Gemma 2的模型权重，也可以在Google AI Studio中体验其功能。 ShieldGemma：用最先进的安全分类器保护用户为了确保开放模型能够负责任地部署，确保AI输出具有吸引力、安全和包容性，开发者和研究人员需要付出大量努力。为了帮助开发者实现这一目标，Google推出了ShieldGemma，这是一系列最先进的安全分类器，旨在检测和减轻AI模型输入和输出中的有害内容。ShieldGemma特别针对四个关键领域的危害：这些开放分类器补充了现有的负责任AI工具包中的安全分类器套件，其中包括使用有限数据点构建特定政策分类器的方法，以及通过API提供的现有Google Cloud现成分类器。 ShieldGemma能够帮助开发更安全、更优质的AI应用： “随着AI的不断成熟，整个行业将需要投资于开发高性能的安全评估器。很高兴看到Google做出了这一投资，并期待他们继续参与我们的AI安全工作组。”~ ML Commons执行董事Rebecca Weiss Gemma Scope：用开放稀疏自编码器揭示AI决策 Gemma Scope为研究人员和开发人员提供了前所未有的透明度，让他们能够深入了解Gemma 2模型的决策过程。像一个强大的显微镜，Gemma Scope使用稀疏自编码器（SAEs）放大模型内的特定点，使其内部工作原理更加可解释。这些SAEs是专门的神经网络，帮助解读Gemma 2处理的密集复杂信息，将其扩展为更易于分析和理解的形式。通过研究这些扩展视图，研究人员可以获得宝贵的见解，了解Gemma 2如何识别模式、处理信息并最终做出预测。通过Gemma Scope，Google旨在帮助AI研究社区发现如何构建更可理解、负责和可靠的AI系统。…

OpenAI开始为ChatGPT Plus用户进行新AI语音功能的Alpha测试

Posted on July 31, 2024July 31, 2024 by aitrendtrackers@rengongzhineng.io

OpenAI已经开始为ChatGPT Plus用户进行“高级语音模式”的Alpha测试。这个功能旨在促进更流畅和自然的对话，允许用户随时打断AI。此次推出将逐步进行，最初通过电子邮件和应用内通知向部分用户开放，计划在秋季进行更广泛的发布。该语音功能由GPT-4o提供支持，并已在45种语言中进行了测试，参与测试的外部团队超过100个。为了确保隐私，该模式使用了四种预设语音，并设有安全措施以防止偏离和不当内容的产生。这个功能的引入经历了一些延迟，原计划于六月发布，但由于安全问题和其语音与女演员斯嘉丽·约翰逊相似而引发争议。此次测试阶段获得的见解将有助于优化语音功能，并解决初次宣布时出现的各种问题。

OpenAI发布实验性GPT-4o Long Output模型，输出容量提升16倍

Posted on July 31, 2024July 31, 2024 by aitrendtrackers@rengongzhineng.io

OpenAI正面临资金短缺的传闻，但这并未阻止这家领先的生成式人工智能公司继续发布一系列新模型和更新。昨天，OpenAI悄悄地发布了一个网页，宣布推出一款新的大语言模型（LLM）：GPT-4o Long Output。这是五月推出的GPT-4o模型的变体，但输出大小大幅增加：从最初的4,000个tokens扩展到64,000个tokens，增加了16倍。为了回应客户对更长输出上下文的需求，OpenAI决定引入这种扩展的输出功能。一位OpenAI发言人向VentureBeat解释说：“我们听到了客户希望有更长输出上下文的反馈。我们一直在测试如何最好地服务于客户的需求。”Alpha测试阶段预计将持续几周，OpenAI将收集数据以评估扩展输出是否有效满足用户需求。 GPT-4o Long Output模型在处理要求详细和广泛输出的应用中具有特别的优势，如代码编辑和写作改进。通过提供更长的输出，GPT-4o模型可以提供更全面和细致的响应，从而显著提升这些用例的效果。 GPT-4o模型自发布以来，已经提供了最大128,000的上下文窗口——即模型在一次交互中可以处理的tokens总量，包括输入和输出tokens。对于GPT-4o Long Output，这一最大上下文窗口保持在128,000。但是，OpenAI能够将输出tokens从4,000增加到64,000，而总的上下文窗口仍保持在128,000。这种扩展输出的能力让用户或开发者可以选择：是优先更长的LLM响应，还是保持更多的输入tokens。在所有情况下，用户或开发者都必须做出选择或权衡：他们是否愿意牺牲一些输入tokens来换取更长的输出？对于希望获得更长答案的用户，GPT-4o Long Output现在提供了这一选项。新的GPT-4o Long Output模型的定价如下：相比之下，常规GPT-4o的定价为每100万个输入tokens 5美元和每100万个输出tokens 15美元，而新的GPT-4o mini为每100万个输入tokens 0.15美元和每100万个输出tokens 0.60美元。可以看出，GPT-4o Long Output的定价相当激进，继续了OpenAI最近的主张，即希望使强大的AI对广大开发者用户群体变得负担得起且易于访问。目前，这一实验性模型的访问权限仅限于少数可信的合作伙伴。发言人补充道：“我们正在与少量可信的合作伙伴进行几周的alpha测试，以查看更长的输出是否有助于他们的用例。”根据这一测试阶段的结果，OpenAI可能会考虑向更广泛的客户群体开放这一功能。正在进行的alpha测试将提供有关扩展输出模型的实际应用和潜在好处的宝贵见解。如果初始合作伙伴的反馈积极，OpenAI可能会考虑更广泛地开放这一功能，使更多用户能够受益于增强的输出能力。显然，OpenAI希望通过GPT-4o Long Output模型，解决更多客户需求，并支持需要详细响应的应用。

发布Meta Segment Anything Model 2 (SAM 2)：开启图像和视频分割的新时代

Posted on July 31, 2024July 31, 2024 by aitrendtrackers@rengongzhineng.io

下载模型：https://github.com/facebookresearch/segment-anything-2 下载数据：https://ai.meta.com/datasets/segment-anything-video/ 试试：https://sam2.metademolab.com/ 下载文章：https://ai.meta.com/research/publications/sam-2-segment-anything-in-images-and-videos/ 继Meta Segment Anything Model (SAM) 在图像分割领域取得成功之后，Meta发布了SAM 2，这是一款用于图像和视频的实时可提示对象分割的统一模型，达到了业界最先进的性能。为了促进开放科学，Meta分享了SAM 2的代码和模型权重，并采用了宽松的Apache 2.0许可证。此外，Meta还发布了SA-V数据集，该数据集包含大约51,000个真实世界的视频和超过600,000个空间时间掩码。 SAM 2具备在任何视频或图像中分割任何对象的能力，即使是以前未见过的对象和视觉域，这使得其能够应用于各种无需定制适应的用例。SAM 2在图像分割精度上超过了之前的能力，并在视频分割性能上优于现有的工作，同时需要的交互时间减少了三倍。SAM 2的多种潜在应用包括与生成视频模型结合以创建新的视频效果，帮助建立更好的计算机视觉系统的快速注释工具，以及在科学研究中追踪显微镜拍摄的视频中的移动细胞。为了保持开放科学的理念，Meta将SAM 2的研究与社区分享，使他们能够探索新的能力和用例。Meta分享的资源包括采用Apache 2.0许可证开源的SAM 2代码和权重，采用BSD-3许可证开源的SAM 2评估代码，以及SA-V数据集。SA-V数据集比现有最大的在线视频分割数据集大4.5倍，包含约51,000个真实世界视频和超过600,000个掩码。Meta还发布了一个基于网页的演示，允许实时交互分割短视频并应用视频效果。在视频分割任务中，SAM 2能够在视频的任何帧中选择和细化对象。SAM 2的架构可以看作是SAM从图像领域到视频领域的推广，通过存储和使用以前处理过的视频信息，实现对对象的准确分割。SAM 2的流式架构使其能够实时处理任意长度的视频，对于数据注释和实际应用如机器人技术具有重要意义。 Meta通过SAM 2在循环中的交互式模型设置与人类注释员合作，收集了一个大而多样的视频分割数据集。注释员使用SAM 2互动注释视频中的掩码，然后用新注释的数据更新SAM 2。这个循环反复进行，多次迭代后，模型和数据集都得到了改进。与SAM相比，使用SAM 2进行注释的速度快了8.4倍，并显著快于将SAM与现成的跟踪器结合使用。在研究中，SAM 2在17个零样本视频数据集上的互动视频分割表现显著优于以前的方法，同时需要的人工交互减少了约三倍。SAM 2在其23个数据集的零样本基准套件上优于SAM，同时速度快了六倍。在现有视频对象分割基准（如DAVIS、MOSE、LVOS、YouTube-VOS）上，SAM 2相较于之前的最先进模型表现更佳。SAM 2在循环中的视频分割注释速度比使用SAM逐帧注释快了8.4倍。尽管SAM 2在分割图像和短视频中的对象表现出色，但在一些挑战性场景下仍有改进空间。比如，在剧烈的相机视角变化、长时间遮挡、拥挤场景或长视频中，SAM 2可能会失去对对象的跟踪。Meta通过设计交互式模型并允许在任何帧上进行手动干预，部分缓解了这一问题。总之，Meta希望通过发布SAM 2和相关资源，推动开放科学的发展，促使AI社区共同探索新能力和应用场景，从而创造更多有益于社会和人类的技术。

苹果宣布其AI模型使用谷歌处理器进行预训练

Posted on July 30, 2024July 30, 2024 by aitrendtrackers@rengongzhineng.io

苹果公司周一宣布，其AI系统Apple Intelligence的基础模型是在谷歌设计的处理器上进行预训练的，这表明科技巨头们正在寻找Nvidia之外的替代方案来训练最前沿的AI技术。苹果在一篇刚刚发布的技术论文中详细描述了选择谷歌自主研发的张量处理单元（TPU）进行训练的过程。此外，苹果还在周一为部分设备发布了Apple Intelligence的预览版。 Nvidia昂贵的图形处理单元（GPU）主导了高端AI训练芯片市场，过去几年需求量非常大，难以在所需数量上采购。OpenAI、微软和Anthropic都在使用Nvidia的GPU进行模型训练，而包括谷歌、Meta、甲骨文和特斯拉在内的其他科技公司也在抢购这些GPU来构建其AI系统和产品。 Meta首席执行官马克·扎克伯格和Alphabet首席执行官桑达尔·皮查伊上周都表示，他们的公司以及行业内的其他公司可能在AI基础设施上投入过多，但承认不这样做的商业风险太高。扎克伯格在与彭博社记者Emily Chang的播客中说：“落后的后果是你将错过未来10到15年内最重要的技术。” 苹果在其47页的论文中没有提到谷歌或Nvidia，但指出其Apple Foundation Model（AFM）和AFM服务器是在“云TPU集群”上训练的。这意味着苹果租用了云提供商的服务器来进行计算。 “该系统使我们能够高效且可扩展地训练AFM模型，包括AFM-on-device、AFM-server和更大的模型，”苹果在论文中表示。苹果和谷歌的代表未回应置评请求。苹果比许多同行更晚公开其AI计划，这些同行在OpenAI于2022年底推出ChatGPT后不久就大力拥抱生成式AI。周一，苹果推出了Apple Intelligence。该系统包括几个新功能，如Siri的全新外观、更好的自然语言处理和文本字段中的AI生成摘要。在接下来的一年中，苹果计划推出基于生成式AI的功能，包括图像生成、表情符号生成以及能够访问用户个人信息并在应用内执行操作的增强版Siri。在周一的论文中，苹果表示，AFM on-device是在一片由2048个TPU v5p芯片共同工作的“切片”上训练的。这是最先进的TPU，首次发布于去年12月。AFM-server是在8192个TPU v4芯片上训练的，这些芯片通过数据中心网络配置为八片共同工作。谷歌官网显示，最新的TPU在提前预订三年时，每小时使用成本不到2美元。谷歌于2015年首次推出其TPU用于内部工作负载，并于2017年向公众开放使用。现在它们已成为最成熟的人工智能定制芯片之一。尽管如此，谷歌仍是Nvidia的最大客户之一。它在训练AI系统时使用Nvidia的GPU和自己的TPU，还在其云平台上出售Nvidia技术的访问权限。苹果此前表示，推理，即使用预训练的AI模型生成内容或进行预测，将部分在其数据中心的苹果自有芯片上进行。这是苹果关于其AI系统的第二篇技术论文，第一篇较为通用的版本于今年6月发布。苹果当时表示，在开发AI模型时使用了TPU。苹果定于周四收盘后公布季度财报。

Canva收购Leonardo.ai，增强生成式AI技术能力

Posted on July 30, 2024July 30, 2024 by aitrendtrackers@rengongzhineng.io

Canva收购Leonardo.ai，扩展其生成式AI技术堆栈 Canva宣布收购生成式AI内容和研究初创公司Leonardo.ai，以扩大其AI技术堆栈的范围。尽管交易的财务条款未公开，但Canva联合创始人兼首席产品官Cameron Adams表示，这是一笔现金和股票混合的交易。Leonardo.ai的120名员工，包括高管团队，都会加入Canva。 “Leonardo将继续独立于Canva运营，专注于快速创新、研究和开发，现在有了Canva的资源支持，”Adams告诉TechCrunch。“我们将继续提供Leonardo的所有现有工具和解决方案。此次收购旨在帮助Leonardo开发其平台，并通过我们的投资，包括扩展其API业务和投资基础模型研发，深化其用户增长。” 总部位于悉尼的Leonardo.ai成立于2022年，最初专注于视频游戏资产创建——该初创公司的创始人是在一家视频游戏公司工作时相识的。后来，Leonardo.ai的团队决定扩展平台以满足更多场景需求，如为时尚、广告和建筑等行业创建和训练AI模型。目前，Leonardo.ai提供协作工具和模型的私有云，包括视频生成器，以及访问API，让客户能够在Leonardo.ai的平台上构建自己的技术基础设施。 Leonardo.ai的创新特点 Leonardo.ai的团队表示，该平台通过为用户提供大量控制来与其他生成式AI艺术平台区分开来。例如，Leonardo.ai的Live Canvas功能允许用户输入文本提示，然后快速绘制他们想要的最终结果的草图。用户绘制时，Leonardo.ai会根据文本和草图提示实时生成一个逼真的图像。虽然不清楚Leonardo.ai如何训练其内部生成模型，如其旗舰模型Phoenix，但这对于任何生成式AI服务来说都是一个重要问题，考虑到在未经许可的情况下训练模型会带来法律后果。Leonardo.ai的公关对此含糊其辞，仅表示模型是在“许可的、合成的和公开可用/开源数据”上训练的。 Canva本身在支持创作者采用生成式AI方面相对积极，承诺在未来几年内投入2亿美元，以支付那些同意使用其内容训练公司AI模型的创作者。加大对AI的投资以推动增长 Leonardo.ai拥有超过1900万注册用户，其工具已用于创建超过十亿张图片。Adams表示，Leonardo.ai将帮助Canva的Magic Studio生成式AI套件做出贡献。该公司在被收购前已从包括Smash Capital、Blackbird、Side Stage Ventures、TIRTA Ventures、Gaorong Capital和Samsung Next在内的支持者那里筹集了超过3880万美元的资金。 “我们将寻求将Leonardo的技术整合到Magic Studio中，这让我们非常兴奋，”Adams说。“这可能包括使现有的Magic Studio工具更强大，或者在Canva中直接引入由Leonardo的模型提供支持的新生成式AI功能。目前还在早期阶段，我们将立即合作确定具体的实施方式，但我们非常期待扩展用户在Canva上使用AI的能力。” 自2022年12月以来，Canva一直在投资生成式AI工具，首先推出了写作助手Magic Write。为了准备IPO，Canva在最近几个月通过内部项目和收购加快了开发力度。2021年2月，Canva收购了Kaleido，该公司为图像和视频提供拖放背景移除服务。Adams表示，Kaleido为Canva最近的许多生成式AI努力奠定了基础。其他收购 Leonardo.ai是Canva的第八次收购，也是今年的第二次收购，此次收购距离其以约3.8亿美元收购英国设计公司Affinity仅三个月。Canva还拥有演示初创公司Zeetings、免费图库网站Pixabay和Pexels以及捷克的产品模拟应用Smartmockups。成立于2012年的Canva已经筹集了超过5.6亿美元（最近一次估值为260亿美元），年收入接近20亿美元。其全球每月活跃用户超过1.8亿。 “这是我们努力构建最强大的全功能视觉AI产品的一个重要但自然的下一步，”Adams说。“我们一直专注于构建一个包括生成式解决方案（如图像和设计生成）的AI驱动工作流。将这种Canva工作流与新的生成能力结合起来，将帮助我们继续将我们的AI产品与众不同，并为越来越多使用Canva的团队和企业提供新的可能性。”

苹果公司宣布推迟AI功能发布，延后至10月

Posted on July 29, 2024July 29, 2024 by aitrendtrackers@rengongzhineng.io

苹果公司宣布其即将推出的人工智能（AI）功能将推迟发布，不会在新款iPhone和iPad软件更新的初期版本中包含这些功能。原计划与iOS 18和iPadOS 18在9月发布的Apple Intelligence功能，现在预计将于10月向客户推出。然而，苹果将通过iOS 18.1和iPadOS 18.1测试版向软件开发者提前提供这些AI功能。据彭博社报道，推迟AI功能的决定是为了确保消费者发布的顺利进行，并解决技术稳定性方面的担忧。通过给予开发者更多时间进行测试和解决问题，苹果希望避免出现重大漏洞或故障。公司还计划在未来几年内通过多次更新iOS 18，逐步推出完整的Apple Intelligence功能。 Apple Intelligence包括多种功能，如通知优先级排序、网页和语音笔记摘要、写作工具、改进版的Siri以及与OpenAI的ChatGPT集成。然而，即使AI功能随iOS 18.1和iPadOS 18.1发布，部分功能（包括Siri的重大变化）仍将缺失。推迟Apple Intelligence功能的发布，正值苹果公司努力在快速增长的AI领域中竞争之际。公司认为，新功能可能有助于推动即将推出的iPhone 16型号的销售，这些型号预计在设计上只有细微变化。通过软件相关的增强和更快的芯片，苹果希望借助新设备的AI功能吸引顾客。 PYMNTS报道称，科技巨头和初创公司在AI领域的重大进展和竞争正在加剧。微软的Bing正在推出生成式搜索功能，以与谷歌的AI驱动产品竞争。OpenAI也推出了名为SearchGPT的原型，旨在增强信息检索能力。AI驱动的配送机器人，如Vayu Robotics，正在通过承诺降低配送成本来重塑电商物流。此外，由AI先驱李飞飞创立的初创公司World Labs，在短短四个月内达到了10亿美元的独角兽估值，公司专注于教计算机理解3D世界。AI与边缘计算的整合也在加速发展，具有在零售和制造业中的潜在应用。随着AI热潮的持续，监管机构也在迅速适应并解决潜在的反垄断问题。美国、欧盟和英国的竞争监管机构联手应对市场集中和反竞争行为的担忧，特别关注控制关键AI资源和审查科技巨头的投资。然而，Meta对欧盟严格的AI监管表示担忧，警告欧洲与世界其他地区之间可能出现“技术差距”。

AI工作流程设计的自动化优化：微软与斯坦福的新成果 – Trace

Posted on July 29, 2024July 29, 2024 by aitrendtrackers@rengongzhineng.io

设计AI应用（如聊天机器人和编码助手）的计算工作流程非常复杂，因为需要管理许多异构参数，如提示和机器学习超参数。部署后的错误需要手动更新，增加了挑战性。该研究探讨了旨在自动化设计和更新这些工作流程的优化问题。由于其复杂性，涉及相互依赖的步骤和半黑盒操作，传统的优化技术（如贝叶斯优化和强化学习）往往效率不足。虽然提出了基于LLM的优化器以提高效率，但大多数仍依赖标量反馈，并处理仅包含单一组件的工作流程。微软研究院和斯坦福大学的研究人员提出了一个名为Trace的框架，用于自动化设计和更新AI系统（如编码助手和机器人）。Trace将计算工作流程视为类似于神经网络的图结构，并使用Trace Oracle优化（OPTO）优化异构参数。Trace高效地将工作流程转换为OPTO实例，使通用优化器OptoPrime能够基于执行轨迹和反馈迭代更新参数。这种方法提高了跨多个领域的优化效率，在提示优化、超参数调整和机器人控制器设计等任务中表现优异，超过了专门优化器。现有框架如LangChain、Semantic Kernels、AutoGen和DSPy主要通过标量反馈和黑盒搜索技术来组合和优化计算工作流程。而Trace不同的是，它使用执行追踪进行自动优化，将计算图泛化以适应各种工作流程。Trace的OPTO框架支持提示、超参数和代码的联合优化，提供丰富的反馈，并动态适应工作流程结构的变化。它将自动微分原则扩展到不可微工作流程，实现高效的自适应代理和通用优化，且在多个任务中超越了专门优化器。 OPTO构成了Trace的基础，定义了一个用于迭代优化的基于图的抽象。计算图是一个DAG，其中节点表示对象，边表示输入输出关系。在OPTO中，优化器选择参数，Trace Oracle返回包含计算图和输出输入的轨迹反馈。此反馈可以包括分数、梯度或自然语言提示。优化器使用这些反馈来迭代更新参数。与黑盒设置不同，执行轨迹提供了到输出的清晰路径，使参数更新更加高效。Trace利用OPTO通过抽象设计和领域特定组件来优化各种工作流程。基于LLM的优化算法OptoPrime是为OPTO问题设计的。它利用LLM的编码和调试能力来处理执行轨迹子图。Trace反馈是一种伪算法，允许LLM建议参数更新。OptoPrime包括一个内存模块，用于跟踪过去的参数反馈对，增强鲁棒性。实验表明，OptoPrime在数值优化、交通控制、提示优化和长时间跨度机器人控制任务中的有效性。OptoPrime在利用执行轨迹信息和记忆方面表现出优异性能，优于其他优化器。 Trace将计算工作流程优化问题转化为OPTO问题，并通过OPTO优化器OptoPrime有效地展示了这一点。这标志着向新优化范式迈出了初步步骤，并具有多种未来方向。LLM推理的改进，如链式思维、少样本提示、工具使用和多代理工作流程，可能会改善或启发新的OPTO优化器。结合LLM和搜索算法与专用工具的混合工作流程可能会产生一个通用的OPTO优化器。特别是针对大规模图的计算传播器的专门化，以及开发能够进行反事实推理的优化器，可能会提高效率。非文本上下文和反馈也可能扩展Trace的适用性。 https://github.com/microsoft/Trace

探索10个流行嵌入库：AI文本嵌入的优势与局限

Posted on July 28, 2024July 28, 2024 by aitrendtrackers@rengongzhineng.io

生成式AI的快速进步凸显了文本嵌入的重要性文本嵌入将文本数据转化为密集向量表示，使模型能够高效处理文本、图像、音频等数据类型。各种嵌入库在这一领域中脱颖而出，每个都有其独特的优势和局限。以下是10个流行嵌入库的比较及其链接。 1. OpenAI Embeddings 优势：局限： 2. HuggingFace Embeddings 优势：局限： 3. Gensim Word Embeddings 优势：局限： 4. Facebook Embeddings 优势：局限： 5. AllenNLP Embeddings 优势：局限： 6. MultiLingual BERT 适用于多语言数据集，嵌入维度为768，模型大小为1.04GB。 7. RoBERTa (2022) 适用于通用文本处理，嵌入维度为768，模型大小为476MB。 8. MPNet V2 使用Siamese架构，专为文本相似性任务设计，嵌入维度为768，模型大小为420MB。 9. Scibert Science-Vocabulary Uncased 专为科学文本预训练，嵌入维度为768，模型大小为442MB。 10. DistilBERT Base Uncased BERT的小型快速版本，嵌入维度为768，模型大小为268MB。比较分析选择嵌入库主要取决于具体的用例、计算需求和定制需求。OpenAI嵌入适合高级NLP任务和零样本学习场景，但需要大量计算能力，训练后灵活性有限。HuggingFace嵌入提供多功能且定期更新的模型，适用于文本、图像和多模态数据，易于集成和定制，但某些功能可能需要用户身份验证。Gensim Word Embeddings专注于文本，是NLP任务中需要定制训练的良好选择，但不支持非文本数据，模型选择较少。Facebook Embeddings提供强大的多语言文本嵌入和定制训练支持，适合大规模NLP应用，但设置和集成复杂。AllenNLP…

Subscribe 订阅