谷歌DeepMind：RAG存在根本性局限

作者：谷歌DeepMind：RAG存在根本性局限

谷歌DeepMind最新研究说，向量嵌入技术遇到数学天花板了！就算用最牛的模型、最多的数据，也突破不了这个硬性限制。而且文档量越大，搜索准确率就越崩，可能导致复杂AI系统以意想不到的方式失效。😥 💥为何会这样以往研究指出向量嵌入的局限性，普遍假设是查询条件不切实际或构造不当造成搜索失败。但是这个新研究认为，这种局限性是架构本身的内在属性。比如，一个衡量难度的主要指标是“查询可能需要检索的文档，其任意子集的相关程度”，但是在完成这个任务的过程中，失败就可能发生于极其简单的文档和查询中。这些任务极大地增加了模型能够准确表示可能有相关性的文档集的数量。 💥没有完美方法为了证明这一理论极限，研究人员完全绕过语言模型，直接优化数值向量以解决检索任务，并称之为"自由嵌入优化"的设置。这种思路消除了自然语言的任何限制，并隔离了向量空间的几何能力，堪称“完美”。但是，即便如此，研究人员发现仍存在局限，即任何给定的嵌入维度都存在一个临界点，导致系统中的文档数量变得太大而无法表示所有相关结果的可能组合。而嵌入的维度太小，又无法编码其复杂性。论文给出了一个案例，像QUEST这样包含 325,000 篇文档的数据集，其 20 篇相关文档的组合方式超过 7.1e+91种可能。然而，其 3,000 个查询仅测试了这巨大空间中微乎其微的一小部分。于是研究人员设计了一个叫LIMIT的新数据集来测试模型处理大量重叠相关性组合的能力。 💥测试结果 ➡️谷歌、Snowflake等顶级AI模型：在完整任务上召回率（模型找到的正确文档比例）不到20% ➡️几十年前的经典算法BM25：表现异常出色。更重要的是，当研究人员在LIMIT的训练版本上微调模型时，其性能几乎0提升。这就意味着，无论模型训练得多好，都可能无法检索到正确的文档集。如何应对呢 1️⃣ 立即检查你的AI应用：如果发现系统经常只返回部分结果，而不是完整答案集，赶紧预警。 2️⃣ 采用混合搜索架构：语义搜索+关键词搜索双管齐下 3️⃣ 重新设计测试方案：不要只看准确率，要多测试组合查询场景 3️⃣探索更具表现力的架构，如交叉编码器、多向量模型等研究人员说，“几何容量是存在的，但在实践中，我们暂时没有训练出能够完全利用它的模型。” #AI技术 #RAG系统 #谷歌DeepMind #技术干货

文章详情

谷歌DeepMind：RAG存在根本性局限