aitrendtrackers@rengongzhineng.io, Author at AI TrendTrackers

微软推出VASA-1：通过单张图片和音频创造逼真人脸，技术前景与潜在风险并存

Posted on April 19, 2024April 19, 2024 by aitrendtrackers@rengongzhineng.io

微软研究人员开发了名为VASA的新系统，该系统能够仅使用一张图片和一段音频就创造出逼真的会说话的人脸。VASA-1是基于此框架构建的第一个模型，能够产生精确同步的唇动、自然的头部动作和面部表情，这些都有可能在各种应用中创造更加引人入胜和逼真的体验。 VASA-1的功能不仅仅是将唇部动作与音频匹配。它能够捕捉广泛的情感、细微的面部差异和自然的头部动作，使生成的面孔显得更加可信。此外，用户还可以控制生成视频的内容，比如指定角色的凝视方向、感知距离乃至情绪状态。最棒的是，该系统还设计有处理意外输入的能力。尽管VASA-1没有针对艺术照片、歌声或非英语语音进行训练，但它仍然可以使用这些输入生成视频。 VASA-1之所以能实现这种现实感，是通过将面部特征、3D头部位置和面部表情分离开来处理。这种“解耦”为视频生成中这些方面的独立控制和编辑提供了可能。 VASA-1的研究团队还强调了其实时效率。该系统能够以高帧率产生高分辨率视频（512×512像素），在离线模式下，其生成帧率为每秒45帧，而在线生成的帧率为每秒40帧。虽然承认这项技术可能被滥用的潜力，研究人员还是强调了VASA-1的积极应用，包括增强教育体验、帮助有沟通障碍的人士，以及提供陪伴或治疗支持。然而，我对这项研究论文的时机提出质疑。我认为鉴于人们在社交媒体上会轻信见到的任何东西，这项技术可能会在选举期间被严重滥用，其发布时间本可以推迟。此外，我发现这项技术与谷歌的VLOGGER非常相似。

Meta推动全球AI助手革命：Llama 3引领技术前沿，Meta AI助手全面融入社交媒体平台

Posted on April 19, 2024April 19, 2024 by aitrendtrackers@rengongzhineng.io

ChatGPT引领了AI聊天机器人的浪潮，而Meta则决心在这场竞赛中胜出。为此，去年9月推出的Meta AI助手现已整合进Instagram、Facebook、WhatsApp和Messenger的搜索栏，并将直接出现在Facebook主要信息流中。你仍然可以在Meta应用的消息收件箱中与它聊天。现在，首次通过独立网站Meta.ai进行访问也成为可能。为了使Meta的助手有希望成为真正的ChatGPT竞争对手，其底层模型必须同样优秀，甚至更胜一筹。这也是为什么Meta同时宣布推出Llama 3，其下一代基础开源模型。Meta表示，Llama 3在关键基准测试中胜过同类竞争模型，在诸如编码等任务上表现更佳。今天发布的两个较小的Llama 3模型已经整合在Meta AI助手中，并向外部开发者开放，而一个更大、多模态的版本将在未来几个月推出。 Meta的目标是让Meta AI成为“全球人们可以自由使用的最智能AI助手”，CEO马克·扎克伯格告诉我。“有了Llama 3，我们基本上认为我们已经实现了这一目标。” 在美国和其他几个国家，你将开始在更多地方看到Meta AI，包括Instagram的搜索栏。Meta AI助手是我所知的唯一一个集成了来自Bing和Google的实时搜索结果的聊天机器人——Meta将决定何时使用哪个搜索引擎来回答问题。其图像生成能力也已升级，能够在你输入时即时生成动画（本质上是GIF）和高分辨率图像。此外，当你首次打开聊天窗口时，一个受Perplexity启发的提示建议面板旨在“揭示通用聊天机器人能做什么”，Meta的生成AI负责人Ahmad Al-Dahle说。虽然到目前为止它只在美国可用，但Meta AI现在正在向澳大利亚、加拿大、加纳、牙买加、马拉维、新西兰、尼日利亚、巴基斯坦、新加坡、南非、乌干达、赞比亚和津巴布韦等国的英语用户推出，未来还将覆盖更多国家和语言。这与扎克伯格提出的真正全球AI助手的设想还有距离，但这一更广泛的发布使Meta AI离最终触及公司超过30亿的日活跃用户又近了一步。有人可能会说这是无耻的抄袭。但很明显，扎克伯格认为Meta庞大的规模加上其快速适应新趋势的能力，是其竞争优势。他正用同样的策略在Meta AI上进行投资，将其推广到各处。 “我不认为今天有很多人在谈论主要AI助手时会想到Meta AI，”他承认。“但我认为这是我们真正开始向很多人介绍它的时刻，我预计它将成为一个相当重要的产品。” 今天，Meta正在向外部开发者推出两个开源的Llama 3模型，有一个80亿参数模型和一个700亿参数模型，这两个模型都将在所有主要的云提供商上可用。（从非常高的层次来看，参数决定了模型的复杂性及其从训练数据中学习的能力。） Llama 3是一个展示AI模型快速扩展的好例子。去年发布的Llama 2最大版本有700亿参数，而即将推出的大版本Llama 3将有超过4000亿参数，扎克伯格说。Llama 2在2万亿标记上训练，而大版本的Llama 3则有超过15万亿标记。（OpenAI尚未公开确认GPT-4的参数数量或标记。） Llama 3的一个关键焦点是显著减少其错误拒绝，即模型声称无法回答实际上是无害的提示的次数。扎克伯格举的一个例子是要求它制作一杯“杀手玛格丽塔”。另一个例子是我在去年的一次采访中给他的，当时Meta AI的最早版本不会告诉我如何分手。 Meta还没有最终决定是否将4000亿参数版本的Llama 3开源，因为它仍在训练中。扎克伯格对于出于安全原因不开源的可能性并不看重。 “我不认为我们或其他领域的人在明年工作的任何东西真的处于那种风险的水平，”他说。“所以我相信我们能够开源。”

台积电在第一季度就给大家来了个惊喜，因为AI芯片的需求大爆发，他们的收入和利润都超出了市场预期

Posted on April 18, 2024April 18, 2024 by aitrendtrackers@rengongzhineng.io

最近，台积电公布了2024年第一季度的财报，喜报连连啊！他们的收入和利润不仅超出了市场预期，还让人看到了芯片行业的新高度。第一季度，台积电的净收入达到了惊人的5926.4亿新台币（约合188.7亿美元），净利润也高达2254.9亿新台币。这些数字的背后，是对3纳米和5纳米技术强劲需求的支撑，特别是在AI应用领域的使用需求激增，因为现在的AI，比如ChatGPT和它的中文兄弟们，正火得一塌糊涂。台积电不仅是全球最大的先进处理器生产商，还和Nvidia、苹果这些大佬是好基友。他们的CEO C.C. Wei信心满满地表示，2024年将是一个健康增长的年份，得益于技术领先和客户基础的扩大。他还特别提到，几乎所有的AI创新者都在与台积电合作，以满足对节能计算力的巨大需求，预计来自服务器AI处理器的收入将在今年翻倍。不过，就在台积电财报飘红的同时，台湾上个月还发生了25年来最强的地震，幸好台积电的发言人表示，初步检查其建设现场一切正常，虽然有些晶圆受损需要报废，但预计第二季度大部分生产都能恢复，对收入的影响微乎其微。而在美国，台积电的亚利桑那子公司也拿到了最高达66亿美元的政府资金初步批准，用于建造世界上最先进的半导体。看来，无论是地震还是竞争，台积电都稳如老狗，未来十年，芯片市场的春天还将继续，让我们拭目以待吧！

亚马逊Bedrock凭借Anthropic的开创性Claude 3系列扩展了AI产品组合

Posted on April 17, 2024April 17, 2024 by aitrendtrackers@rengongzhineng.io

亚马逊网络服务（AWS）宣布将Anthropic的Claude 3系列模型整合到其Amazon Bedrock服务中。此举显著扩展了其AI能力，并向客户提供Claude 3系列的完整套件——Opus、Sonnet和Haiku——作为托管服务。Amazon Bedrock是第一个也是唯一一个普遍向客户提供这些模型的服务。 Anthropic的Claude 3系列在AI技术上取得了重大进展。其旗舰模型，Claude 3 Opus，被认为是市场上表现最优的基础模型，超越了OpenAI的GPT-4等著名模型，在推理、数学和编码能力上有所领先。据Anthropic称，Claude 3 Sonnet和Claude 3 Haiku也带来了相当大的改进。Sonnet的速度是前代的两倍，而Haiku是目前市场上最快、最紧凑的模型，提供了性价比高的解决方案，而不牺牲性能。这些模型的独特之处在于它们的高级智能，表现出近乎人类的响应能力和较前代产品更高的准确率。Claude 3系列AI模型在遵循复杂指令和坚持特定品牌声音指南方面具有卓越的能力，非常适合面向客户的应用程序。此外，这些模型在产生适合自然语言分类和情感分析的格式输出方面也具有高度的熟练度，极大地扩展了它们在各个行业的应用性。将Claude 3添加到Amazon Bedrock的生成AI模型名单中，该名单已经包括来自AI21实验室、Cohere、Meta、Mistral AI、Stability AI和亚马逊自身的贡献，显著增强了客户可选择的范围。这使得企业能够更精确地根据自己的需求定制AI解决方案，推动各个领域的创新并转变用户体验。包括辉瑞、西门子和达美航空在内的全球各行业的大公司已经在利用这些能力来自动化任务、创造新的用户界面以及加速研究和开发工作。Claude 3系列中的视觉启用模型进一步丰富了这一产品系列，使其能够处理和分析各种数据格式和视觉资产，如图表、图形和照片。主要要点：

现代商业中首席人工智能官（CAIO）的角色与影响

Posted on April 17, 2024April 17, 2024 by aitrendtrackers@rengongzhineng.io

首席人工智能官（CAIO）角色在许多企业的C级行政团队中迅速崛起，这标志着人工智能（AI）在商业领域中的重要性日益增强。CAIO的主要职责是塑造和推动组织的AI战略，这包括制定并执行利用AI改善产品、服务和运营效率的计划。CAIO的使命是确保AI部署技术上可靠，与更广泛的商业目标一致，并遵守相关法规。 CAIO的独特贡献和职责 CAIO在这些领域的专注对于将AI整合到核心业务流程中，并确保其部署增加可持续和道德的价值至关重要。 CAIO在各行各业的战略相关性这些例子强调了CAIO在利用AI促进创新和战略增长方面的关键作用。 CAIO与CTO的角色和责任 CAIO（首席人工智能官）的主要聚焦是跨越业务运营的AI战略整合，关键职责包括制定AI战略、管理AI实施、确保AI伦理和合规。CAIO的战略影响专注于利用AI推动业务创新和效率，而他们的技术专长在于AI、机器学习和数据分析方面的深入知识。相较之下，CTO（首席技术官）的主要聚焦是对组织整个技术景观的监督，关键职责包括领导技术计划、管理IT基础设施、确保技术创新和安全。CTO的战略影响更广泛地关注将技术计划与商业目标相对齐，他们的技术专长覆盖多个技术领域的广泛知识。确定是否需要CAIO 决定一个组织是否需要CAIO涉及几个考虑因素。关键因素包括AI整合的规模、受AI影响的运营流程的复杂性以及AI对公司未来的战略重要性。对于大量投资AI的公司或那些由AI技术迅速变革的行业，任命CAIO对于维持竞争优势和确保统一的AI战略执行至关重要。结论总之，CAIO角色在利用AI的变革力量方面起着至关重要的作用。随着组织越来越认识到AI推动创新和运营效率的潜力，CAIO的专业知识变得不可或缺。CAIO能够在技术可能性与商业需求之间架起桥梁，同时导航道德和合规的风景线，这使得这一角色在当今AI驱动的商业环境中至关重要。对于将AI作为核心战略组成部分的组织应评估任命专门的CAIO来领导他们的AI计划的好处。

Meta因露骨AI图片陷入困境

Posted on April 17, 2024April 17, 2024 by aitrendtrackers@rengongzhineng.io

近日，Meta的独立监督委员会启动了对Meta AI内容政策及其行动的调查，此举源于两张露骨的AI生成图片在Facebook和Instagram上的发布。 Meta目前通过AI和人工审核相结合的方式来检测其平台上的露骨AI内容，并且最近宣布计划将“由AI制作”标签扩展到更多内容上，以提供更多清晰度并防止深度伪造对公众造成伤害。然而，监督委员会的介入是为了调查Meta围绕AI生成的深度伪造内容的执法政策是否有效以及是否一致。 “委员会选择这些案例来评估Meta的政策及其执法实践在处理露骨AI生成图像方面是否有效。” 在Meta的平台上发现了什么样的露骨AI内容呢？首起事件发生在印度，一位Instagram用户报告了一张涉及公众人物的露骨AI生成图像，请求Meta将其删除。Meta未能做到这一点，并且在48小时后该请求自动关闭。用户对Meta的决定提出上诉，但请求再次被关闭，图片仍留在Instagram上。随后，用户将此图像报告给了监督委员会，Meta迅速删除了该图像，并称其“违反了社区关于欺凌和骚扰的标准”。总结：Meta需要两次报告，以及一次向委员会的报告才将露骨的AI图像删除。第二起事件发生在美国，Meta的系统检测到Facebook上一个公众人物的AI生成露骨图像，并立即将其删除。Meta对这两起事件的处理方式的不同令人关注——尤其是两张图像都违反了Meta的AI内容政策——这也解释了为什么委员会要介入调查。 “委员会认为探索Meta的政策及执法实践在解决这一问题上是否有效很重要。”委员会目前正在调查这两个案件（他们已请求公众在4月30日前发表评论），并将在几周内发布决定。在这两个案例中，Meta现已删除了露骨内容，委员会为了保护涉事个人免受进一步骚扰，不会公开他们的姓名。

Reka Core：引领AI新纪元的多模态语言模型

Posted on April 16, 2024April 16, 2024 by aitrendtrackers@rengongzhineng.io

Reka 最新推出的多模态语言模型“Reka Core”可谓是技术界的一股清流，这款堪比行业顶尖模型的前沿产品，不仅在多模态理解（包括图像、视频和音频）方面表现出色，而且还能处理更复杂的编码和代理工作流任务。Reka Core 在经过数千GPU几个月的训练后，已经展现出与 OpenAI、Anthropic 和 Google 等巨头抗衡的能力。尝试： https://chat.reka.ai/auth/login 在独立第三方的多模态人类评估中，Reka Core 在视频任务上超过了 Gemini Ultra，在语言任务上则与其他前沿模型不相上下。更令人印象深刻的是，Reka Core 不仅支持多种语言，还能精准回忆更多信息，显示出卓越的推理能力。此外，Reka 还与 Snowflake、Oracle 和 AI 新加坡等全球技术平台和政府机构建立了合作关系，这些合作伙伴将帮助将 Reka Core 引入市场，让更多用户享受到这些先进的 AI 功能。Reka 的目标不仅是推动技术的发展，更是通过其全面的多模态模型，为电子商务、社交媒体、数字内容及视频游戏、医疗保健和机器人技术等行业提供支持，拓宽客户的应用场景。 Reka Core 的推出标志着公司在实现其使命方面迈出了重要的一步。未来，Reka 期待通过持续的训练和优化，进一步突破性能界限，同时也欢迎新的合作伙伴加入这一旅程，共同开启 AI 新纪元。此外，Reka 还与 Snowflake、Oracle 和 AI 新加坡等全球技术平台和政府机构建立了合作关系，这些合作伙伴将帮助将 Reka Core 引入市场，让更多用户享受到这些先进的 AI 功能。Reka 的目标不仅是推动技术的发展，更是通过其全面的多模态模型，为电子商务、社交媒体、数字内容及视频游戏、医疗保健和机器人技术等行业提供支持，拓宽客户的应用场景。 Reka Core 的推出标志着公司在实现其使命方面迈出了重要的一步。未来，Reka 期待通过持续的训练和优化，进一步突破性能界限，同时也欢迎新的合作伙伴加入这一旅程，共同开启 AI 新纪元。

Adobe Premiere Pro 正在引入生成式 AI 视频工具——希望包括 OpenAI 的 Sora 在内

Posted on April 16, 2024April 16, 2024 by aitrendtrackers@rengongzhineng.io

Adobe 正在为其 Firefly 系列开发一款生成式 AI 视频模型，将为其 Premiere Pro 视频编辑平台带来新工具。这些全新的 Firefly 工具，加上与 Runway、Pika Labs 和 OpenAI 的 Sora 模型的一些拟议的第三方集成，将使 Premiere Pro 用户能够使用文本提示生成视频以及添加或移除对象（就像 Photoshop 的生成填充功能一样），并延长视频剪辑的长度。与 Adobe 以往关于 Firefly 的许多公告不同的是，这次公司新的视频生成工具没有设定发布日期——无论是测试版还是其他版本，只是表示这些工具将在“今年”推出。尽管这家创意软件巨头展示了其自家视频模型在早期视频演示中的能力，但它计划将 Premiere Pro 与其他提供商的 AI 模型集成还不是板上钉钉的事。 Adobe 在其新 Firefly 生成式 AI 视频模型的视频演示中截取的屏幕快照显示，在通过 Adobe 自家生成式 AI 视频模型移除一个对象后，图像出现了明显的涂抹现象。在视频预览中，Adobe 将第三方 AI 集成称为对未来可能面貌的“早期探索”。其理念是为 Premiere Pro 用户提供更多选择，根据 Adobe 的说法，允许他们使用像 Pika 这样的模型来延长镜头，或在生成 B…

亚马逊的“随取随走”技术背后，隐藏着一个小“八卦”：成群的印度员工正通过屏幕，密切关注你的购物每一动作。

Posted on April 15, 2024April 15, 2024 by aitrendtrackers@rengongzhineng.io

亚马逊的“随取随走”技术背后其实有一个不为人知的小秘密：大约1000名坐在印度的员工在默默地审查你在店内拿起、放下的每一件商品。这项技术原本被吹嘘为完全由计算机视觉驱动的购物革命，旨在让顾客无需经过传统的结账流程。然而，《信息》周二的报道揭示，这项技术实际上还极度依赖人力。报道中引用了一位匿名的参与“随取随走”技术开发的人士的话说，2022年，每1000笔“随取随走”的销售中，大约有700笔需要印度团队的人工审核。亚马逊内部其实希望这一数字能降至50笔。亚马逊发言人对此进行了回应，他们表示，印度团队的主要工作是帮助训练公司用于“随取随走”的模型。发言人还提到：“在我们的计算机视觉技术无法完全确定某人购买的商品时，同事们也会对少数购物行为进行验证。” 此外，亚马逊计划在Amazon Fresh商店中用智能购物车Dash Carts替换“随取随走”技术。智能购物车也能让顾客避免排队结账，不过顾客需要将商品放入购物车，购物车会记录他们的选择并直接从账户扣款。发言人提到，顾客在使用“随取随走”服务的同时，也表达了希望能更方便地找到附近的商品和优惠，随时查看购物小票，以及在商店内购物时了解节省了多少钱——所有这些需求，都能通过Dash Carts得到满足。从最初只在Amazon Go便利店推出起，“随取随走”技术已经扩展到更大的商店。目前，44家Amazon Fresh商店中有27家安装了这项技术，亚马逊还将其引入了一些Whole Foods商店。同时，包括Aldi和Dollar General在内的零售商也开始测试由初创公司开发的类似“随取随走”的技术。

在处理了五亿个GPT令牌后的教训

Posted on April 15, 2024April 15, 2024 by aitrendtrackers@rengongzhineng.io

我想分享一些在处理超过5亿个令牌后得出的“令人惊讶”的教训。首先给出一些细节：教训1：在提示方面，少即是多我们一直发现，如果某件事已经是常识，那么在提示中不列出确切的列表或指示会产生更好的结果。GPT并不愚蠢，实际上如果你过度具体化，它反而会感到困惑。这与编码基本不同，在编码中一切都必须明确。这里有一个我们遇到问题的例子：我们的一个流程部分是读取一些文本块，并要求GPT将其分类为美国的50个州之一或联邦政府。这并不是一个困难的任务——我们可能本可以使用字符串/正则表达式，但有足够的奇怪的边角情况使得这会花费更长时间。所以我们的第一次尝试大约是这样的：这里有一个文本块。一个字段应该是”locality_id”，它应该是50个州之一或联邦的ID，使用这个列表：[{“locality”: “Alabama”, “locality_id”: 1}, {“locality”: “Alaska”, “locality_id”: 2} … ]这种方法有时有效（我估计超过98%的时间），但失败的次数足够多，我们不得不进一步深入调查。在我们调查时，我们注意到另一个字段，name，一直在返回该州的全名……正确的州——尽管我们没有明确要求它这样做。因此，我们改为在name上进行简单的字符串搜索以找到该州，自此以后它一直运行得很好。我认为总的来说，更好的方法应该是“你显然知道这50个州，GPT，所以只需给我这个州的全名，或者如果这关系到美国政府就给我’Federal’。” 为什么这很疯狂？好吧，当你更模糊时，GPT的质量和泛化能力能够提高，这是高阶委派/思考的典型标志。教训2：你不需要langchain。你可能甚至不需要OpenAI在过去一年中发布的API中的任何其他东西。只需要聊天API。这就是全部。Langchain是过早抽象的完美例子。我们最初认为我们必须使用它，因为网络上是这么说的。然而，数百万令牌和大约3-4个非常多样化的LLM功能后，我们的openai_service文件仍然只有一个40行的函数： def extract_json(prompt, variable_length_input, number_retries)我们使用的唯一API是聊天。我们总是提取json。我们不需要JSON模式，也不需要函数调用或助手（尽管我们确实做了所有这些）。天哪，我们甚至不使用系统提示（也许我们应该……）。当gpt-4-turbo发布时，我们在代码库中更新了一个字符串。这是一个强大的泛化模型的美丽之处——少即是多。该函数中的大部分40行都是围绕OpenAI API常规的500s/socket关闭的错误处理（尽管情况已经改善，鉴于他们的负载，这并不令人惊讶）。我们构建了一些自动截断，所以我们不必担心上下文长度限制。我们有我自己的专有令牌长度估计器。这里是：在有许多句点或数字的角落案例中，它失败了（这些的令牌比率< 3个字符/令牌）。所以还有另一种非常专有的try/catch重试逻辑：我们使用这种方法取得了相当大的进展，而且它足够灵活以满足我们的需求。教训3：使用流API改善延迟并向用户显示变速“打字”字符，实际上是ChatGPT的一大UX创新。我们以为这是个噱头，但用户对变速“打字”字符的反应非常积极——这感觉像是AI的鼠标/光标UX时刻。教训4：GPT在生成空假设方面真的很糟糕 “如果你什么也没找到，就返回一个空输出”——这可能是我们遇到的最容易出错的提示语言。GPT不仅经常选择幻觉而不是什么也不返回，而且它还经常缺乏自信，返回空白的频率比应有的要高。我们的大多数提示都是这种形式： “这里有一块关于一家公司的声明文本，我希望你输出提取这些公司的JSON。如果没有相关内容，请返回一个空白。这是文本：[文本块]” 有一段时间，我们遇到了一个错误，其中[block of text]可能是空的。幻觉很糟糕。顺便说一下，GPT喜欢幻觉烘焙店，这里有一些很棒的：阳光面包店金谷面包店幸福面包店幸运的是，解决方案是修复错误，如果没有文本就不发送提示（嗯！）。但当“它是空的”很难以编程方式定义时，情况就更困难了，你实际上确实需要GPT发表意见。教训5：“上下文窗口”是个用词不当——它们只是在输入上变大，而不是输出鲜为人知的事实：GPT-4可能有一个128k令牌的输入窗口，但它的输出窗口仍然是可怜的4k！称它为“上下文窗口”令人困惑。但问题还更糟——我们经常要求GPT给我们返回一个JSON对象列表。没什么复杂的：想想吧，一个json任务数组列表，其中每个任务都有一个名称和一个标签。 GPT实际上不能返回超过10个项目。试图让它给你返回15个项目？也许它做到了15%的时间。我们最初以为这是因为4k上下文窗口的问题，但我们到达10个项目时，它只会是大约700-800个令牌，GPT就会停下来。现在，你当然可以通过给它一个提示来交换输出输入，要求一个任务，然后给它（提示+任务），要求下一个任务等等。但现在你在和GPT玩电话游戏，还得处理像Langchain这样的东西。教训6：向量数据库和RAG/嵌入对我们这些普通人来说基本无用我真的尝试过。但每次我以为我找到了RAG / embeddings的杀手级用例时，我都感到困惑。我认为向量数据库/RAG真的只适合搜索。而且只是搜索。不是像“哦——检索块有点像搜索，所以它会工作！”那样的搜索，而是真正的谷歌和必应搜索。这里有一些原因：没有相关性的截止点。市场上有一些解决方案，你可以为相关性创建自己的截止启发式，但它们将是不可靠的。这实际上在我看来杀死了RAG——你总是冒着检索到不相关结果的风险，或者过于保守，你错过重要的结果。为什么要把你的向量放在一个专门的、专有的数据库中，远离你所有的其他数据？除非你是在谷歌/必应的规模上交易，否则这种失去上下文的交易绝对不值得。除非你在进行非常开放的搜索，比如说——整个互联网——用户通常不喜欢语义搜索返回他们没有直接输入的东西。对于大多数商业应用程序中的搜索，你的用户是领域专家——他们不需要你猜测他们可能的意思——他们会告诉你！在我看来（这是未经测试的），对于大多数搜索案例，LLMS的更好用途是使用普通的完成提示将用户的搜索转换为分面搜索，甚至更复杂的查询（或者，甚至是SQL！）。但这根本不是RAG。教训7：基本上不会发生幻觉。我们的每个用例都基本上是“这里有一堆完整的详细信息，分析/总结/提取”——它非常可靠。我认为你可以看到很多最近的产品发布都强调了这种确切的用例。因此，这一切都是关于好的数据输入，好的GPT令牌响应输出。…

Subscribe 订阅