我要投稿

【RAG】FoRAG：面向网络增强型长形式问答的事实性优化RAG

发布日期：2024-06-29 09:44:47 浏览次数： 2494

作者：大模型自然语言处理

微信搜一搜，关注“大模型自然语言处理”

一、解决问题

在基于网络的长形式问答（Web-enhanced Long-form Question Answering, LFQA）任务中，现有RAG在生成答案时存在的问题：

事实性不足：研究表明，现有系统生成的答案中只有大约一半的陈述能够完全得到检索到的参考资料的支持，这严重影响了这些系统的可信度。
清晰逻辑的缺失：与短答案的传统问答任务不同，LFQA任务中理想的答案往往需要多方面组织和整合信息，但现有的开源方法在生成答案时往往缺乏清晰的逻辑结构。

二、提纲增强RAG

提出提纲增强RAG，以改善长形式问题回答 LFQA 中生成答案的结构和质量。

2.1 Outline-Enhanced Generator

现有的开源方法在生成答案时，通常是直接将检索到的内容与原始查询拼接，然后使用特定的提示模板（prompt template）输入到生成模型中。这种方法生成的答案往往较短，缺乏清晰的逻辑结构。为了提高答案的组织性，提出了 "Outline-Enhanced Generator"，它包含以下两个阶段：

Outline Stage（提纲阶段）：
在此阶段，生成器首先使用提纲模板，根据用户查询和上下文生成答案的提纲。提纲模板引导大型语言模型（LLM）考虑哪种组织模式最适合当前问题，例如“因果关系”或“比较对比”。然后，LLM根据选定的组织模式输出提纲，为后续的扩展阶段做准备。
Expansion Stage（扩展阶段）：
基于前一阶段生成的提纲，LLM扩展每个要点，构建最终答案。模型被要求在包含查询、上下文和提纲的输入下，生成对问题的答案。

注：提纲增强阶段的生成器有SFT训练得到。

2.2 Outline-Enhanced Long-Form QA Dataset

为了支持 "Outline-Enhanced Generator" 的训练和评估，构建了两个大规模的提纲增强型LFQA数据集。这些数据集利用现有的WebCPM和WebGLM数据集的查询和相关段落，并通过GPT4模型应用提纲增强生成技术来收集提纲增强型答案。统计信息显示，使用提纲增强技术生成的答案比现有工作中的答案更长，其具有更强的逻辑结构。

2.3 提纲增强数据构建提示词

英文提示词
中文提示词

小结：通过引入提纲阶段来增强生成答案的逻辑结构，并通过扩展阶段来完善和详细化答案内容，从而提高了长形式问题回答的质量。

三、事实性优化RAG

传统的RLHF，优化事实性所面临困难如下：

数据标注成本高：手动标注事实性标签通常成本很高，因为它涉及到比较长篇答案和对应长篇参考资料之间的事实细节。
整体性奖励信号稀疏：标准RLHF使用整体性奖励，即只有在整个回答的最后一个token上才有非零奖励，这为生成模型的训练提供了稀疏的信号，在长篇回答中尤为明显。

因此，提出了一种新颖的事实性优化方法（Doubly Fine-grained RLHF），旨在解决网络增强型 LFQA 中的事实性问题。

3.1 Doubly Fine-grained RLHF

提出了一种新的事实性优化框架，通过在评估和奖励建模中采用细粒度的设计，有效地提高了长形式问题回答中生成答案的事实性，同时减少了对人工标注的依赖。

细粒度评估（Fine-grained Evaluation）：

整体性（Holistic）：使用单一事实性评分评估整个答案。
句子级别（Sentence-level）：将答案分割成句子，并分别评估每个句子。
子声明级别（Subclaim-level）：进一步将每个句子分解为多个子声明，并对每个子声明单独评估事实性。

细粒度奖励建模（Fine-grained Reward Modeling）：

Sequence-level：为每个序列学习单一的奖励，反映相应序列的事实性。
Token-level：为序列中的每个token学习奖励，通过聚合所有token级别的奖励来计算序列的奖励。

实现方法

奖励模型训练：使用Logloss或MSE损失函数来训练奖励模型，具体取决于评估过程中得到的是二元标签还是连续值奖励。
PPO优化：采用近端策略优化（Proximal Policy Optimization, PPO）来优化生成模型，通过最大化细粒度的奖励信号来改善模型性能。

四、实验结果

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-10-16

基于大模型的智能问答场景解决方案——RAG提升召回率的关键

2025-10-16

用合成数据评测 RAG 系统：一份可直接上手的 DeepEval 实操指南

2025-10-16

2025 年 RAG 最佳 Reranker 模型

2025-10-16

HiRAG问答流程深入分析

2025-10-13

LightRAG × Yuxi-Know——「知识检索 + 知识图谱」实践案例

2025-10-13

PG用户福音｜一次性搞定RAG完整数据库套装

2025-10-12

任何格式RAG数据实现秒级转换！彻底解决RAG系统中最令人头疼的数据准备环节

2025-10-12

总结了 13 个顶级 RAG 技术

了解更多

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

RAG彻底爆了！一文掌握其效果优化的架构设计及核心要点

2025-09-15

从原理到落地：RAG 技术全解析，手把手教你搭建专属知识库

2025-09-02

响应速度提升300%、检索准确率90%：RAG如何让企业知识“活”起来赚钱？

2025-08-05

优化 GraphRAG：LightRAG的三大改进

2025-08-18

RAG系统全景：架构详解与落地实践指南

2025-08-25

高质量AI知识库应用的前提：选对向量数据库

2025-08-25

一文搞懂大模型：何为深入理解RAG？

2025-08-25

DeepMind爆火论文：向量嵌入模型存在数学上限，Scaling laws放缓实锤？

2025-09-03

别再往AI的知识库塞奇怪的东西了，什么样的知识适合作为RAG知识库？

2025-08-20

万字长文详解腾讯优图RAG技术的架构设计与创新实践

2025-09-08

大家都在问

Embedding与Rerank：90%的RAG系统都搞错了！为什么单靠向量检索会毁了你的AI应用？

2025-10-04

存算一体破局向量检索瓶颈，IBM放出王炸VSM：性能飙升100倍，能效碾压GPU千倍，RAG要变天？

2025-09-30

您应该为您的 RAG 系统使用哪种分块技术？

2025-09-10

关于多模态应用的几个疑问，以及多模态应该怎么应用于RAG？

2025-09-10

DeepMind爆火论文：向量嵌入模型存在数学上限，Scaling laws放缓实锤？

2025-09-03

RAG检索后如何应用更有效？

2025-08-28

一文搞懂大模型：何为深入理解RAG？

2025-08-25

别再往AI的知识库塞奇怪的东西了，什么样的知识适合作为RAG知识库？

2025-08-20

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB

应聘简历请发送至： ceo@53ai.com

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部