大模型超长上下文对 RAG 是降维打击

Jul 24, 2024

—

前言

越来越多的大模型支持了超长的上下文 (context length)，例如 Google gemini 一发布就支持 2M。超长上下文的特性大大方便了文档问答应用的开发。而 RAG 作为文档问答的解决方案，是否会被超长上下文 LLM 降维打击甚至完全替代？这篇文章就超长上下文和 RAG 这两种方案做了对比实验，并总结了两种方案的优缺点。

实验文档的选择

这里选择了香港优才计划的申请指引：優秀人才入境計劃申請須知。这个 PDF 包含繁体中文文本，文档段落结构清晰，有标题、有加粗、有编号。除了封面 PDF 里没有图片，不需要使用 OCR 来提取文本。这个 PDF 包含少量的简单表格，可以观察 LLM 或 RAG 方案对表格的解析能力。

这个 PDF 问答总计 26 页，每页有 900～1400 个中文字符，换算成 GPT4 的 token，每页的 token 数目是 1000～1800，整个 PDF 总计有 27k 个 token。

注意：这个 PDF 可能已包含在大模型的训练数据里，因此可能出现大模型不依据文档而基于自身数据自行回答，导致评测结果不够严谨

评测问题的设计

基于文档专门设计了 10 个问题，方便考察某些方面的能力，如：

跨分片总结。即如果使用 RAG 方案，就涉及到文档切片，问题答案在多个分片中
PDF 表格解析。即答案来自表格，需要 RAG 方案能正确解析表格

评测问题	考察点
优才申请的条件	跨分片总结
综合计分制包含哪些方面	跨分片总结
资产数额的要求是多少	无明确答案
哪些学校的学位可以额外加分	无明确答案
需要哪些证明文件，详细列出来	–
35 岁可以计多少分	PDF表格解析
哪些国家不可以申请优才计划	跨分片内容修订
递交的申请需要多长时间审批完成	无明确答案
怎样递交申请材料	–
语言能力需要证明文件吗	跨分片内容修订

评测的模型

这次选择了三种模型（或 RAG 应用），来对比长上下文文档的 QA 问答效果：

kimi chat：官方宣称支持 20 万字的上下文，且 chat 页面就支持上传 pdf 进行文档问答。
字节的 Coze：使用 Coze 的 bot，选择 GPT4-128k 模型，并上传 pdf 文档生存知识库做问答。上传 PDF 文档创建知识库时，分别测试了知识库切片长度为 800 token 和 2000 token 的两种方案。
原生 GPT4-128k：使用我自己的 GPT4-128k api，把整个文档内容放到 prompt 里提问，测试文档不切片时的 GPT4-128k 模型问答效果。

评测结果

对 10 个问题的问答正确与否，汇总如下：

总结

kimi chat 来自国内大模型创业公司中的新星——moonshot(月之暗面)，它具有 20w 字的超长上下文，在本次测试中效果可谓惊艳：

正确率高。10 个问题中只有 1 个问题回答失败，但完善 prompt 后能回答成功。
答案详尽、格式友好。kimi chat 输出的 Markdown 格式的答案，层次清晰、重点突出，并且答案里辅以关键数值。
速度快。kimi chat 的回答速度比 Coze 中使用的 gpt4-128k 响应更快。

Coze 是字节跳动推出的机器人开发平台，有国内版（基于字节的云雀大模型）和海外版（基于 GPT4），本文测试的是海外版。基于 Coze 的知识库问答是典型的 RAG 方案，其重要一环就是文档切片（Segment）。然而，不管是单分片是 800 token 还是 2000 token，都显著暴露了 RAG 方案的缺点：

跨分片总结和推理能力弱。这是基于 RAG 方案自身原理导致的。
文档有序性被打破。这是基于 RAG 方案自身原理导致的。
表格解析失败。这一点很诧异。虽然在业内把 PDF 解析为结构化文本，本就是一个难题。但是 Coze 对 PDF 的解析结果甚至不如我直接用 pypdf 这个开源 Python 组件解析的效果好。说明 Coze 这个产品对细节的打磨还不够好。

原生 GPT-128k 问答结果，是用来验证不用 RAG 分片+向量召回的方案，GPT4 大模型依然能输出正确的答案。因此 Coze 方案的缺点来自于 RAG 本身而非模型。

总的来说，RAG 技术方案里包含了 ”文档分片 → 向量召回 → rerank → prompt组装 → 大模型回答” 这些环节，而每个环节的成功率都会影响大模型回答的效果。

文档分片。常规的分片方案，会把文档的目录层次结构打破，而 PDF 的解析本就困难，导致大模型看到的文档可能是 “支离破碎” 的。
向量召回。如果文档分片不合理，则文档的向量表征质量也低，导致召回文档准确性不足。为了弥补准确性，可能又不得不召回大数目的文档片段，又导致的最终 prompt 的长度很大。
rerank。rerank 相对来说是一个新的技术，不知道 Coze 的知识库文档是否有 rerank。
大模型回答。一旦召回和 rerank 后的文档质量不高，就打打增加了阅读理解的难度，直接影响大模型回答的质量，也容易产生幻觉

结论

大模型长上下文对 RAG 技术就是降维打击。不期望大模型都达到 200K、2M 这种级别的上下文长度，但至少应该达到 32K、64K 的长度且保证模型质量不下降。长上下文可以极大的简化 RAG 方案，使得开发文档问答应用变得更简单

Heycc's blog

大模型超长上下文对 RAG 是降维打击

前言

实验文档的选择

评测问题的设计

评测的模型

评测结果

总结

结论

Comments

Leave a Reply Cancel reply