微信扫码
添加专属顾问
我要投稿
在我们构建完RAG系统之后,常常需要设计一套指标,来评价该系统到底表现怎么样。如何评价整个系统一直是个难题,今天我们来介绍一个完整评估RAG系统的开源项目。
Ragas 是一个可帮助评估检索增强生成 (RAG) pipelines的框架。RAG 表示一类使用外部数据来增强 LLM 上下文的 LLM 应用程序,现有的工具和框架可帮助构建这些pipelines,但评估它并量化pipelines性能可能很困难。这就是 Ragas(RAG 评估)的作用所在。
Ragas 提供基于最新研究的工具,用于评估 LLM 生成的文本,让您深入了解 RAG pipelines。Ragas 可以与您的 CI/CD 集成,以提供持续检查以确保性能。
Ragas怎么工作的
context_precision和context_recall衡量检索系统的性能。faithfulness方法测量幻觉,answer_relevancy测量答案与问题的相关程度。Faithfulness(忠实度):
忠实度指标衡量生成答案能否从提供的上下文中推断出来。实现过程包括两个步骤:语句提取和语句验证。使用语言模型(LLM)将生成的答案分解为一组简洁的语句,然后验证每个语句是否能够从给定上下文中推断出来。
Answer Relevance(答案相关性):
答案相关性指标评估生成答案在多大程度上回应了原始问题,不论事实准确性如何。实现该指标的方法包括基于给定答案生成潜在问题,然后使用嵌入模型计算这些生成问题与原始问题的余弦相似度,最后计算平均相似度得分。
Context Precision(上下文精确度):
上下文精确度指标用于评估检索到的上下文片段与给定问题的相关性。它通过计算在顶部排名中出现的相关信息的比例来实现。
Context Recall(上下文召回率):
上下文召回率指标衡量检索到的上下文与真实答案的一致性。通过比较真实答案中的每个句子是否能够追溯到检索到的上下文中来实现。
上述指标的具体计算公式,我们以后专门介绍,敬请期待。Ragas还有一些其它指标,有需要的可以去查看:
下面让我们把评估系统run起来吧:
环境搭建
pip install ragas#pip install git+https://github.com/explodinggradients/ragas
代码示例
from datasets import Datasetimport osfrom ragas import evaluatefrom ragas.metrics import faithfulness, answer_correctnessos.environ["OPENAI_API_KEY"] = "your-openai-key"data_samples = {'question': ['When was the first super bowl?', 'Who won the most super bowls?'],'answer': ['The first superbowl was held on Jan 15, 1967', 'The most super bowls have been won by The New England Patriots'],'contexts' : [['The First AFL–NFL World Championship Game was an American football game played on January 15, 1967, at the Los Angeles Memorial Coliseum in Los Angeles,'],['The Green Bay Packers...Green Bay, Wisconsin.','The Packers compete...Football Conference']],'ground_truth': ['The first superbowl was held on January 15, 1967', 'The New England Patriots have won the Super Bowl a record six times']}dataset = Dataset.from_dict(data_samples)score = evaluate(dataset,metrics=[faithfulness,answer_correctness])score.to_pandas()
上面介绍的四个指标是目前用的比较多的方法;用起来吧,评价一下你的RAG系统效果怎么样吧。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-11-16
Google 让 RAG 变得前所未有地简单:全新 File Search 工具震撼登场
2025-11-15
你的RAG落地效果不好?可能缺的不是技术,而是运营
2025-11-14
从答案到洞察:Structured RAG正在重塑企业知识库的底层逻辑
2025-11-13
RAG Chunking 2.0:提升文档分块效果的一些经验
2025-11-13
RAGFlow v0.22.0 发布:数据源同步、变量聚合、全新管理界面与多项重大更新
2025-11-13
RAG实战(一):Simple RAG篇
2025-11-13
5步构建企业级RAG应用:Dify与LangChain v1.0集成实战
2025-11-12
从零实现一个简单的 RAG 系统
2025-09-15
2025-09-02
2025-08-25
2025-08-25
2025-08-25
2025-09-08
2025-09-03
2025-08-20
2025-08-28
2025-09-10
2025-11-04
2025-10-04
2025-09-30
2025-09-10
2025-09-10
2025-09-03
2025-08-28
2025-08-25