2024年RAG技术发展综述
摘要
2024年被称作"RAG发展元年",本文系统梳理了RAG技术在2024年的重要发展。文章从RAG的技术挑战出发,详细介绍了多模态文档解析、混合搜索、GraphRAG等标志性突破,深入分析了数据清洗、排序模型、语义鸿沟解决方案等核心技术细节,并探讨了RAG与Agent结合、多模态RAG等前沿方向,最后对2025年RAG技术的持续进化进行了展望。
内容框架与概述
本文首先阐述了RAG技术在2024年的重要地位,指出尽管关于RAG的争论不断,但从成本和实时性角度,RAG已显示出压倒性优势。即使在需要微调介入的场景中,RAG也通常是不可或缺的组成部分。作者将2024年定位为RAG发展的关键转折点。
文章详细分析了RAG面临的三大技术挑战:非结构化多模态文档问答难题、纯向量数据库的局限性以及语义鸿沟问题。这些挑战推动了2024年RAG技术的多项突破性进展,包括多模态文档解析工具的崛起、BM25和混合搜索的普及、GraphRAG的开源以及延迟交互模型与多模态RAG的发展。
在技术细节方面,文章深入探讨了数据清洗的多模态处理、Text Chunking优化方法、混合搜索的三路召回策略、Embedding与Reranker模型的协同作用,以及基于张量的重排序模型等核心技术。特别强调了GraphRAG及其变种在解决语义鸿沟问题上的创新性贡献。
最后,文章展望了RAG与Agent结合的Agentic RAG模式、多模态RAG的技术实现路径,以及RAG作为企业搜索引擎在大模型时代的进化方向。作者认为RAG类似于过去的数据库,是一个包含数据库、小模型和工具的复杂系统,将持续向更加智能化和集成化的方向发展。
核心概念及解读
GraphRAG:微软开源的GraphRAG架构是2024年RAG领域现象级事件,它通过利用大模型抽取文档内的命名实体并构建知识图谱,有效解决了RAG的语义鸿沟问题。该架构特别适用于意图不明的笼统提问或"多跳"问答场景。其变种如Fast GraphRAG、LightRAG等通过降低Token消耗,使得这一技术更加实用化和普及化。
混合搜索:2024年混合搜索理念深入人心,它不再将向量数据库作为单独品类存在,而是采用向量搜索、稀疏向量搜索和全文搜索的三路混合召回策略。BM25等经典算法重新受到重视,Elasticsearch和Infinity等数据库提供了符合要求的全文搜索和混合搜索能力。这种混合方法在召回率和准确性方面都取得了显著提升。
多模态RAG:随着VLM(视觉语言模型)对图像理解能力的深入,多模态RAG成为重要发展方向。它能够处理PDF、PPT等非纯文本类数据,根据用户提问在文档中找到包含答案的图片和文字。技术实现上有两种主要路径:通过模型将多模态文档转成文本再建立索引,或直接生成向量规避OCR过程,如ColPali工作。
Agentic RAG:这是RAG与Agent结合的重要模式,RAG作为Agent的重要算子,解锁了Agent访问内部数据的能力。Agentic RAG可以让RAG在复杂场景下以可控方式提供适应性变化,同时RAG需要为Agent提供记忆管理功能,包括用户对话Session、个性化信息等,以支持Agent的Reasoning能力。
语义鸿沟:这是RAG技术的核心挑战之一,指在很多情况下(如意图不明的笼统提问或"多跳"问答),提问和答案之间存在明显的语义差距。除了GraphRAG外,RAPTOR、SiReRAG等方法也通过预聚类和细粒度定义文本召回,增强对数据宏观层面的理解,从而跨越这一鸿沟。
原文信息
| 字段 | 内容 |
|---|---|
| 原文 | 万字长文梳理2024年的RAG |
| 作者 | 知乎作者 |
| 发表日期 | 2024年 |
此文档由 AI 自动整理