无需向量嵌入的RAG新思路:PageIndex与文档树检索
开源项目PageIndex提出了一种基于文档树结构而非向量嵌入的RAG实现方法,在结构化文档检索上表现出高准确率,但也面临处理单文档、推理速度及扩展性等挑战。

在检索增强生成(RAG)领域,基于向量嵌入和相似度匹配的检索范式已成为主流。然而,开源社区近期出现的项目 PageIndex 提出了一种不同的思路:完全摒弃向量嵌入,转而利用文档自身的树状层级结构进行检索。这一方法旨在让大模型直接在文档结构上进行推理,为处理特定类型的文档提供了新的技术路径。
核心内容
PageIndex 的核心理念是使用文档树结构替代传统的向量嵌入。该方法无需对文档进行分块和嵌入,而是让大模型沿着文档的章节、标题、表格等结构化线索进行遍历和推理。在针对金融文档设计的 FinanceBench 基准测试中,该方案取得了 98.7% 的准确率。
这种方法尤其适用于金融报告、法律合同、合规文档等本身具有清晰层级结构的内容。结构化的检索方式使得答案的引用溯源更为直接和可靠。
然而,社区的实践反馈也揭示了该方案的当前局限:
- 目前主要适用于单个文档的处理,跨文档比较和语义相似性匹配仍需依赖向量数据库。
- 由于依赖大模型进行逐层节点推理,检索速度相对较慢,对于简单查询开销较大。
- 其面对海量非结构化数据时的扩展能力受到质疑。有观点指出,向量数据库依靠廉价的数学运算可实现毫秒级检索,而 PageIndex 的方案依赖于昂贵且缓慢的大模型推理,在大规模扫描场景下可行性存疑。
价值与影响
PageIndex 的出现并非意在颠覆或取代向量数据库,而是为 RAG 技术栈增添了新的工具选项。它提示我们,技术选型应基于具体的数据特性:对于高度结构化的文档,基于文档树的检索可能更符合直觉且准确;对于非结构化或需要跨文档语义匹配的内容,向量嵌入仍是高效的选择;复杂的实际场景则可能需要混合方案。最终,任何技术的适用性都应在自身数据上进行验证和基准测试。
来源:黑洞资源笔记




