微信扫码
添加专属顾问
我要投稿
01
论文概述
LLMs 存在幻觉和不一致等问题,导致输出结果不可靠且不可信。
对于 RAG 模型如何有效减轻生成风险的理论理解不足,相较于普通 LLMs,尚缺乏充分的理论支持。
收集准确反映测试样本分布的校准数据在实际应用中面临挑战,尤其是在实时应用场景中。
02
相关工作
FeB4RAG: Evaluating Federated Search in the Context of Retrieval Augmented Generation (Shuai Wang, 2024):
该论文概述了一个在RAG框架内进行联邦搜索的架构,并引入了一个新的数据集,用于评估联邦搜索,解决了现有数据集的局限性。论文强调了开发复杂的联邦搜索策略的重要性,以优化RAG管道并提高生成响应的质量。
Federated Learning-Enhanced Retrieval Augmented Generation (FLERAG) (Eugenia Kim, 2024)
提出了一种新的方法,用于在传统的RAG LLM和跨客户端设备数据训练的FL模型之间选择最佳响应,以解决需要不断更新RAG数据库的问题。通过响应仲裁器选择置信度更高的响应。全局FL模型在所有客户端之间共享,提供更全面和最新的响应,用于与基于预训练知识的LLM响应进行比较。
Cache Me If You Can: The Case For Retrieval Augmentation (RA) in Federated Learning (Aashiq Muhamed, 2024)
提出了一种在FL中使用RA增强的方法,该方法在推理期间结合了基于检索的方法,客户端设备从其本地数据集中检索相关信息,并在将查询输入模型之前增强查询。这种方法解决了隐私问题和法规合规性,同时允许各个客户端的模型从整个网络的集体知识中受益。该方法要求客户端在FL系统中微调自己的模型,使用它们各自的私有数据。
Clinical Question-Answering over Distributed EHR Data (Jiang, 2024)
提出了使用联邦RAG进行临床问答的系统,利用LLM进行临床问题回答,而不损害患者隐私。提出的系统采用了分层设计的联邦文档检索,实现了对分布式临床数据的高效和安全访问。作者还引入了一个新的基于MIMIC-IV数据库的数据集,专门用于评估临床问答系统。通过解决隐私问题和增强可解释性,提出的方法在利用LLM进行临床应用方面迈出了重要一步。
03
核心内容
使用NVIDIA FLARE SDK实现联邦化计算。
利用保密计算环境保护数据隐私和安全,特别是在上下文收集、聚合和响应生成过程中。
通过联邦化的方式在多个数据提供者之间执行嵌入模型训练、上下文检索、重新排名和最终推理。
使用NVIDIA FLARE SDK构建解决方案,确保通信安全。
协调器使用NVFlare作业协调检索请求,并收集检索块。
通过保密虚拟机在C-FedRAG工作流程中集成隐私保护方法,确保数据的保密性和完整性。
04
论文实验
基准测试:实验使用了MedRAG工具包和MIRAGE基准数据集作为评估基础。具体来说,使用了BioASQ和PubMedQA数据集,其中BioASQ包含618个是非问题,PubMedQA包含500个是非问题。
基线方法:与C-FedRAG进行比较的其他方法包括直接使用的LLMs,如LLaMA-3-8B-Instruct,以及通过MedRAG系统使用单一数据集(MedCorp)和特定数据集(如PubMed、StatPearls、Textbooks、Wikipedia)的RAG方法。
评估指标:主要使用准确率百分比和标准差作为评估指标,通过MIRAGE评估平台生成与真实答案的对比得分。
表1展示了C-FedRAG与普通RAG(MedRAG)和非RAG LLM提示的结果比较。
数据源集成的重要性:通过比较单一数据源与集成多个数据源的C-FedRAG系统的性能,结果表明集成多个数据源可以提供更有用的信息,并显著提升性能。
重排对性能的增强:通过比较仅使用嵌入/检索排名与使用最终重排名模型的C-FedRAG系统,发现重排名模型有助于提升BioASQ任务的性能。
上下文窗口大小的影响:研究了不同上下文窗口大小对性能的影响,发现存在一个最佳的上下文窗口大小(例如8个),既能保证答案的准确性,又不会因过多上下文而降低性能。
联邦化和保密计算的影响:通过不同的联邦化和保密计算策略进行消融研究,发现明确的联邦化步骤对于保持高答案准确性和数据隐私至关重要。
05
总结讨论
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-04-29
教程|通义Qwen 3 +Milvus,混合推理模型才是优化RAG成本的最佳范式
2025-04-29
RAG开发框架LangChain与LlamaIndex对比解析:谁更适合你的AI应用?
2025-04-29
RAG性能暴增20%!清华等推出“以笔记为中心”的深度检索增强生成框架,复杂问答效果飙升
2025-04-29
超神了,ChatWiki 支持GraphRAG,让 AI 具备垂直深度推理能力!
2025-04-29
AI 产品思维:我如何把一个 AI 应用从基础 RAG 升级到 multi-agent 架构
2025-04-29
做好 AI Agent 最重要的是什么?
2025-04-29
颠覆传统RAG,创新大模型检索增强—Insight-RAG
2025-04-29
MCP:从理论到实践
2024-10-27
2024-09-04
2024-07-18
2024-05-05
2024-06-20
2024-06-13
2024-07-09
2024-07-09
2024-05-19
2024-07-07
2025-04-29
2025-04-29
2025-04-26
2025-04-25
2025-04-22
2025-04-22
2025-04-20
2025-04-19