解码RAG：智谱 RAG 技术的探索与实践

—

产品方案

知识运营层面的产品特性包括：知识类型管理、切片管理、索引管理、数据运营

知识问答过程的产品特性包括：历史消息、输入提示、原文索引、图文混排、原文查看

产品目标用户分类：个人使用、企业对内赋能、企业 toC 提供服务

针对前者，我们采用文章结构切片以及 small to big 的索引策略可以很好地解决。针对后者，则需要对 Embedding 模型进行微调。我们有四种不同的构造数据的方案，在实践中都有不错的表现：

经过微调后的 Embedding 模型在召回上会有大幅地提升。top 5 召回达到 100%，而且不同 Embedding 模型微调后的召回差异在 1 个点之内，模型的参数规模影响极小。

另外一个挑战是答案生成。在生成环节中，我们面临以下数据挑战：

数据标注难度大：业务人员虽然知道正确答案，但难以标注出满足一致性和多样性要求的模型微调数据。因此，我们需要在获取基础答案后，通过模型润色改写答案或增加 COT 的语言逻辑，以提高数据的多样性和一致性。
问答种类多样：业务需要模型能够正确回答、拒答不相关问题和反问以获取完整信息。这要求我们通过构造特定的数据来训练提升模型在这些方面的能力。
知识混淆度高：在问答场景中，召回精度有限，模型需要先从大量相关知识片段中找到有效答案，这个过程在政务等领域难度很大，需要通过增加噪声数据来强化模型的知识搜索能力。
答案专业度高：在公共服务的客服场景，答案往往没有绝对准确性，资深的客服人员总能给出更有帮助性的答案。用户问题通常含糊，更加考验专业人员的回答能力。因此我们需要通过 DPO 方式训练模型，使模型能够在众多答案中找到最好最优的答案。为此，我们需要分别构造数据，并针对模型做 SFT 和 DPO。

微调后的效果，正确率从 60% 提升到 90% 以上