我要投稿

使用RAG技术构建企业级文档问答系统之使用GPT4进行评估

发布日期：2024-07-29 23:40:13 浏览次数： 2225

作者：超乎想象的科技圈

微信搜一搜，关注“超乎想象的科技圈”

上篇内容介绍了如何使用TruLens进行RAG效果评估，本文介绍如何使用GPT-4进行打分，这也是目前常用的一种RAG自动化评估方法，比较适合有参考答案的RAG系统构建项目

虽然标题是说使用GPT4进行评估，但其实下文介绍的方法可以使用千问、智谱、百川等提供的模型，甚至Ollama本地部署的模型。实际情况中，大家可以根据实际情况灵活选择，总的来说是要选择相对较强的模型，因为要靠这个指标指导后续迭代方向。本文实际会使用GPT-4o-mini进行打分，使用Deepbricks所提供的服务，它可以使用支付宝付款，而且价格会比官方便宜不少

本文代码已开源，地址在：https://github.com/Steven-Luo/MasteringRAG/blob/main/evaluation/02_gpt_evaluation.ipynb

1 环境准备

1.1 安装Python依赖

pip install langchain_openai

版本为：0.1.7

1.2 准备测试集和预测结果

本次使用下图所示的样例数据进行测试，总共100条

字段介绍：

uuid：所使用文档的UUID，便于评估检索效果
question：问题
qa_type：问题类型，共有两种，分别是detailed和long_context

detailed：用于模拟实际情况中的具体问题，例如具体的增长率，具体的数字
long_text：用于模拟实际情况中，需要较长上下文，甚至需要综合整篇文档的问题，例如“文本主要内容是什么”、多步骤的操作流程等

ref_answer：参考答案
gen_answer：RAG生成的答案，打分主要是对这个结果进行打分

测试集，是使用下文介绍的方法构建的，感兴趣的朋友可以查看

使用RAG技术构建企业级文档问答系统之QA抽取gen_answer是对之前介绍的基础流程效果的打分，感兴趣的朋友可以参考下文：

使用RAG技术构建企业级文档问答系统之基础流程

2 示例代码

需要换用千问、智谱等API，只需要替换base_url和相应的api_key即可，需要使用Ollama，可以使用注释部分的代码

   ChatOpenAI

judge_llm = ChatOpenAI(
    api_key=os.environ[],
    base_url=os.environ[],


    model_name=
)









 (question, ref_answer, gen_answer):







    prompt = 



{{question}}




{{ref_answer}}




{{gen_answer}}


.replace(, question).replace(, (ref_answer)).replace(, gen_answer).strip()
    result = judge_llm.invoke(prompt).content
 result

打分

 = {}

 idx, row in tqdm(prediction_df.iterrows(), =len(prediction_df)):
 = row[]
 question in score_dict:

 = answer_dict[question][]
 = answer_dict[question][]
    score_dict[question] = evaluate(question, ref_answer, gen_answer)

prediction_df.loc[:, ] = prediction_df[].apply(lambda q: score_dict[q])

检查一下模型响应，是不是按Prompt要求返回了

prediction_df[].unique()

array(['是', '否'], dtype=object)

计算最终得分

prediction_df.loc[:, ] = prediction_df[].replace({: , : })
_ = prediction_df.pop()
(prediction_df[].mean())

0.74

如果你觉得我的文章对你有用的话，欢迎点赞、关注?

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-07-01

RAG检索策略深度解析：从BM25到Embedding、Reranker，如何为LLM选对“导航系统”？

2025-07-01

从碎片到图谱：Graph RAG如何用知识网络颠覆传统搜索？

2025-07-01

qodo如何构建大型代码仓库的RAG？

2025-07-01

爆改RAG！让你的AI检索“见人说人话，见鬼说鬼话”——自适应检索的魔法揭秘

2025-07-01

RAG系统的“聪明药”：如何用反馈回路让你的AI越用越聪明？

2025-06-30

EraRAG：突破传统GraphRAG限制，实现动态语料库的高效检索增强生成

2025-06-30

GraphRAG的索引动态更新解法-分桶+局部更新及“上下文工程”新概念？

2025-06-30

RAG搭建个人LLM知识库助手，很多人第一步就走错了...

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

本地化大模型接入RagFlow错误记录

2025-04-13

RAG vs. CAG vs. Fine-Tuning：如何为你的大语言模型选择最合适的“脑力升级”？

2025-04-19

RAGFlow如何实现图片问答：原理分析+详细步骤（附源码）

2025-04-09

MCP与RAG，and 让我们用MCP的Tool莽穿一切！

2025-04-16

深度解读：LlamaIndex 实现 RAG 重排序的关键要点

2025-05-08

老码小张实测：GitMCP 太神了！一行 URL 让 AI 秒懂你的 GitHub 项目

2025-04-05

RAG进阶：Embedding Models嵌入式模型原理和选择

2025-04-23

MCP + 数据库，一种比 RAG 检索效果更好的新方式！

2025-04-08

构建Agentic RAG 系统的方法有哪些？

2025-04-09

旺精通~智能体检索增强生成(Agentic RAG)综述：背景、模型、框架、测试、展望

2025-04-10

大家都在问

RAG检索策略深度解析：从BM25到Embedding、Reranker，如何为LLM选对“导航系统”？

2025-07-01

从碎片到图谱：Graph RAG如何用知识网络颠覆传统搜索？

2025-07-01

qodo如何构建大型代码仓库的RAG？

2025-07-01

RAG系统的“聪明药”：如何用反馈回路让你的AI越用越聪明？

2025-07-01

GraphRAG的索引动态更新解法-分桶+局部更新及“上下文工程”新概念？

2025-06-30

你的RAG系统安全么？

2025-06-29

RAGFlow实战：如何根据文档类型选择最佳切片策略？

2025-06-20

为什么说『RAG开箱即用』是最大的AI技术谎言？

2025-06-19

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB