微信扫码
与创始人交个朋友
我要投稿
往期文章介绍了《【RAG】混合RAG系统,提升复杂推理任务表现》,本文再来看看KDD CUP2024的CRAG的第三名方案,该方案提出WeKnow-RAG方法,结合了知识图谱和基于Web的RAG技术,通过多阶段检索、自评估机制以及智能平衡框架,提高了信息检索的精度和生成答案的可靠性。
网页内容解析:主要试用版BeautifulSoup库解析原始HTML源代码,提取网页内容。将非结构化数据转换为结构化数据,以便回答问题。
分块: 选择token-level分块策略,通过实验确定最佳分块大小。将文档分成多个段落,以提高问答系统的性能。
多阶段检索
通过多个阶段,高效地从数据源中检索相关文档,以获得准确的答案并减少幻觉。
带有自评估的答案生成:LLMs生成答案时指示信心水平(高、中、低),只有当信心水平达到指定要求时才接受答案。减少LLMs生成内容中的幻觉,提高答案质量。提示词如下(输出结果为JSON格式,包含答案和信心水平):
领域分类:将问题分类到特定领域,通过LLMs初始调用将问题分类到电影、体育、金融和音乐领域,对于不确定性低于90%的问题,分类为开放领域。
查询生成:根据不同领域的提示,LLMs返回结构化分析结果,并将其转换为与KG API兼容的结构化查询。以便从知识图谱中检索相关信息。提示词如下:
答案检索和后处理
答案检索:通过API在KG上进行结构化查询。查询是通过将问题分解为一系列子问题或子功能来生成的。通过API调用,从KG中检索出一组候选答案。
后处理:应用规则系统,结合机器学习技术,处理时间推理、数值计算和逻辑推理。
具体步骤:
1)问题分解:将复杂问题分解为一系列子问题或子功能。
2)API调用:根据子问题生成相应的API调用,查询KG。
3)候选答案集:从KG中检索出一组候选答案。
4)额外推理:对候选答案进行额外推理,处理时间、数值和逻辑推理问题。
5)答案选择:根据推理结果选择最终答案。
WeKnow-RAG方法的综合方法旨在根据每个领域的特点,智能平衡KG和基于Web的RAG方法的使用。这种方法能够适应不同领域信息变化的速度,确保在动态信息环境中达到最佳性能。主要方法如下:
1.3.1 领域分类和时间分布
1.3.2 自适应框架
1.3.3 智能平衡
模型分析:
WeKnow-RAG方法通过结合知识图谱和Web搜索,设计了一个端到端的检索增强生成系统。该方法通过多阶段检索和自评估机制提高了信息检索的效率和准确性,并通过领域分类和查询生成优化了知识图谱的使用。最终,WeKnow-RAG在不同领域和问题类型上展示了显著的性能提升。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-07-18
2024-05-05
2024-07-09
2024-05-19
2024-07-09
2024-06-20
2024-07-07
2024-07-07
2024-07-08
2024-07-09
2024-11-25
2024-11-06
2024-11-06
2024-11-05
2024-11-04
2024-10-27
2024-10-25
2024-10-21