GraphRAG项目 https://www.microsoft.com/en-us/research/project/graphrag/
GraphRAG项目旨在通过挖掘非结构化文本中的隐性关系,扩展AI系统对私有数据集进行回答的能力。与传统的向量RAG(或“语义搜索”)相比,GraphRAG的主要优势在于其可以解答全局性问题,例如“数据中的主要主题是什么?”或“某主题的关键影响有哪些?”。而向量RAG更适合解答局部性问题,例如“谁”、“什么”、“何时”、“何地”等具体问题。
重磅发布:LazyGraphRAG
近期的技术分享中,介绍了一种革命性的“LazyGraphRAG”方法。此方法无需预先对源数据进行总结,完全避免了昂贵的索引成本,对预算有限的用户十分友好。
LazyGraphRAG的核心优势在于其在成本和质量方面的可扩展性。与其他方法(如标准向量RAG、RAPTOR以及GraphRAG的本地、全局和DRIFT搜索机制)相比,LazyGraphRAG在性价比上表现卓越:
- 索引成本极低:LazyGraphRAG的索引成本与向量RAG相同,仅为传统GraphRAG成本的0.1%。
- 本地搜索性能优异:在与向量RAG类似的查询成本下,LazyGraphRAG在本地查询上的表现优于所有其他方法。
- 全局搜索经济高效:相比GraphRAG全局搜索,LazyGraphRAG的查询成本降低了700倍,但答案质量几乎相当。
此外,LazyGraphRAG即将登陆GraphRAG的开源库,为用户提供统一的查询接口,覆盖本地和全局查询。
工作原理:混合最佳与广度搜索
LazyGraphRAG结合了向量RAG和GraphRAG的优势,同时克服了它们各自的局限:
- 向量RAG通过“最佳匹配”方式选取与查询最相关的文本片段,但无法覆盖数据集的全局。
- GraphRAG全局搜索则以“广度优先”方式确保查询覆盖数据集整体,但缺乏对局部最佳的洞察。
LazyGraphRAG采用迭代深化的方法,将两者巧妙融合,并通过一个核心参数——相关性测试预算,控制成本与质量的平衡。
性能表现:全面胜出
在一项包含5590篇新闻文章和100个查询(50个局部和50个全局问题)的测试中,LazyGraphRAG在多项指标(全面性、多样性、启发性)上显著领先于其他八种主流方法。尤其是在100相关性测试预算的最低配置下,LazyGraphRAG已全面超越了本地和全局查询的绝大部分竞争对手。
对比总结
LazyGraphRAG依赖于动态的查询细化和概念映射,而非静态的摘要索引。这种“懒惰”的方法不仅极大提高了效率,也实现了与高成本方法相媲美的答案质量。
未来展望
尽管LazyGraphRAG性能强大,但它并非所有场景的最佳选择:
- 图形数据索引的摘要功能对于阅读和分享报告等需求仍然十分重要。
- 结合GraphRAG数据索引和LazyGraphRAG搜索机制的混合方法,可能带来更优结果。
- 针对LazyGraphRAG优化的新型数据索引设计可能实现最佳性能。
未来,GraphRAG将继续优化搜索机制,并在GitHub平台分享所有进展,敬请期待!