微信扫码
添加专属顾问
我要投稿
在我们构建完RAG系统之后,常常需要设计一套指标,来评价该系统到底表现怎么样。如何评价整个系统一直是个难题,今天我们来介绍一个完整评估RAG系统的开源项目。
Ragas 是一个可帮助评估检索增强生成 (RAG) pipelines的框架。RAG 表示一类使用外部数据来增强 LLM 上下文的 LLM 应用程序,现有的工具和框架可帮助构建这些pipelines,但评估它并量化pipelines性能可能很困难。这就是 Ragas(RAG 评估)的作用所在。
Ragas 提供基于最新研究的工具,用于评估 LLM 生成的文本,让您深入了解 RAG pipelines。Ragas 可以与您的 CI/CD 集成,以提供持续检查以确保性能。
Ragas怎么工作的
context_precision和context_recall衡量检索系统的性能。faithfulness方法测量幻觉,answer_relevancy测量答案与问题的相关程度。Faithfulness(忠实度):
忠实度指标衡量生成答案能否从提供的上下文中推断出来。实现过程包括两个步骤:语句提取和语句验证。使用语言模型(LLM)将生成的答案分解为一组简洁的语句,然后验证每个语句是否能够从给定上下文中推断出来。
Answer Relevance(答案相关性):
答案相关性指标评估生成答案在多大程度上回应了原始问题,不论事实准确性如何。实现该指标的方法包括基于给定答案生成潜在问题,然后使用嵌入模型计算这些生成问题与原始问题的余弦相似度,最后计算平均相似度得分。
Context Precision(上下文精确度):
上下文精确度指标用于评估检索到的上下文片段与给定问题的相关性。它通过计算在顶部排名中出现的相关信息的比例来实现。
Context Recall(上下文召回率):
上下文召回率指标衡量检索到的上下文与真实答案的一致性。通过比较真实答案中的每个句子是否能够追溯到检索到的上下文中来实现。
上述指标的具体计算公式,我们以后专门介绍,敬请期待。Ragas还有一些其它指标,有需要的可以去查看:
下面让我们把评估系统run起来吧:
环境搭建
pip install ragas#pip install git+https://github.com/explodinggradients/ragas
代码示例
from datasets import Datasetimport osfrom ragas import evaluatefrom ragas.metrics import faithfulness, answer_correctnessos.environ["OPENAI_API_KEY"] = "your-openai-key"data_samples = {'question': ['When was the first super bowl?', 'Who won the most super bowls?'],'answer': ['The first superbowl was held on Jan 15, 1967', 'The most super bowls have been won by The New England Patriots'],'contexts' : [['The First AFL–NFL World Championship Game was an American football game played on January 15, 1967, at the Los Angeles Memorial Coliseum in Los Angeles,'],['The Green Bay Packers...Green Bay, Wisconsin.','The Packers compete...Football Conference']],'ground_truth': ['The first superbowl was held on January 15, 1967', 'The New England Patriots have won the Super Bowl a record six times']}dataset = Dataset.from_dict(data_samples)score = evaluate(dataset,metrics=[faithfulness,answer_correctness])score.to_pandas()
上面介绍的四个指标是目前用的比较多的方法;用起来吧,评价一下你的RAG系统效果怎么样吧。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-02-14
OpenClaw 终于能"记住"事了!我花了 3 周折腾出的长期记忆系统
2026-02-13
深度解析 PageIndex:无向量 RAG 框架的技术实现与原理剖析
2026-02-12
走进 OceanBase 向量背后的算法库 —— VSAG
2026-02-11
开源:我们复刻了OpenClaw的mem系统,为所有Agent打造透明、可控的记忆
2026-02-10
Data Agent Ready Database:下一代企业数仓架构
2026-02-10
丢掉向量数据库!PageIndex 开启“推理型 RAG”新时代,长文档分析准确率高达 98.7%
2026-02-06
RAG 落地全干货深度分享:从“效果不理想”到生产级 RAG 系统的进化之路
2026-02-06
效率神器 Claude-Mem:终结 AI “金鱼记忆”!自动保存上下文、可视化记忆流,开发体验提升 10 倍!
2025-12-04
2025-12-03
2025-12-02
2026-01-15
2025-12-23
2026-01-02
2025-12-07
2025-12-18
2025-11-23
2026-02-03
2026-02-04
2026-02-03
2026-01-19
2026-01-12
2026-01-08
2026-01-02
2025-12-23
2025-12-21