微信扫码
添加专属顾问
我要投稿
RAG是一种AI技术,它结合了从外部源检索相关信息与语言模型来处理这些信息以生成准确、上下文感知的响应。构建一个基于RAG(微软最新研究:RAG(Retrieval-Augmented Generation)的四个级别深度解析)的AI系统通常涉及以下步骤:
RAG模型的基本架构相对简单:接收用户的消息,在向量数据库中执行相似性搜索以检索最相关的文档,然后将这些文档传递给语言模型(LLM)以生成最终响应。然而,提高RAG模型的性能通常涉及额外的步骤来确保响应质量,这可能会增加令牌消耗和延迟。
缓存是一种旨在提高系统效率的计算策略。它通过将频繁访问或计算成本高昂的数据临时存储在快速访问的存储介质(如随机存取存储器 RAM 或专用缓存内存)中,从而减少对较慢、资源密集型数据源(如数据库或外部存储)的重复检索需求。在计算机系统中,处理器访问数据的速度在不同存储层级之间存在巨大差异,缓存的存在使得数据能够更接近处理器,从而显著提高数据获取速度,进而提升整个系统的性能。
在 RAG 模型中引入语义缓存系统,可以有效解决上述提到的性能问题。当用户首次发送消息时,系统按照常规流程处理,即在向量数据库中进行相似性搜索、检索相关文档并使用语言模型生成响应。与此同时,系统会将查询和对应的响应存储在缓存中,以备后续使用。当后续查询到达时,系统首先在缓存中检查是否已处理过类似问题。这里的 “类似” 并非基于精确的字符串匹配,而是通过语义相似性验证来判断。具体而言,系统会将用户的查询转换为嵌入(embedding),即一种语义意义的向量表示,然后使用诸如余弦相似度(cosine similarity)等技术,将该嵌入与缓存中存储的查询嵌入进行比较,以衡量它们在高维空间中的接近程度。如果相似度得分超过预先设定的阈值,系统将直接返回缓存中的响应,从而绕过了不必要的计算过程,大大减少了令牌使用量,并显著加快了工作流程。此外,也可以采用轻量级语言模型来比较传入查询与缓存条目,进一步提高语义相似性判断的准确性。
余弦相似度是语义缓存中用于衡量两个向量(即查询嵌入和缓存查询嵌入)之间相似性的重要指标。其取值范围在 -1 到 1 之间,1 表示完全相似, -1 表示完全相反,0 表示无相关性。在实际应用中,通过计算用户查询与缓存中查询的余弦相似度,并与设定的阈值(如 0.8)进行比较,系统能够快速判断是否存在语义相似的已缓存问题,从而决定是否可以直接返回缓存响应。这种基于语义的相似性判断方法,使得系统能够理解不同表述方式背后的相同语义含义,从而有效提高了缓存的命中率,进一步提升了 RAG 系统的性能。
在实现语义缓存的过程中,本文选用 Redis 作为内存存储数据库,利用其高效的数据存储和检索特性,实现对处理过的问题和响应的快速存储与查询。同时,借助 Python 库来计算嵌入之间的余弦相似度,以便准确识别语义相似的问题。具体而言,使用 SentenceTransformer 库中的预训练模型(distiluse-base-multilingual-cased-v1)来生成文本的嵌入,该模型能够将文本转化为高维向量,有效捕捉文本的语义信息。
import timeimport numpy as npfrom sentence_transformers import SentenceTransformerfrom scipy.spatial.distance import cosineimport redisimport jsonimport time# Initialize the embedding modelembedding_model = SentenceTransformer('distiluse-base-multilingual-cased-v1')# Cache settingsCACHE_EXPIRATION = 3600 # 1 hour in secondsSIMILARITY_THRESHOLD = 0.8 # Threshold# Initialize Redis connectionr = Nonetry: r = redis.Redis(host='localhost', port=6379, db=0)except redis.ConnectionError as e: print(f"Failed to connect to Redis: {str(e)}")def set_cached_response(question, response, embedding): if r is None: return try: cache_data = { 'response': response, 'timestamp': time.time(), 'embedding': embedding.tolist() } r.set(question, json.dumps(cache_data)) except redis.RedisError as e: print(f"Failed to set cache: {str(e)}")def find_similar_question(question, embedding): if r is None: return None, None try: for cached_question in r.keys(): cached_data = json.loads(r.get(cached_question)) cached_embedding = np.array(cached_data['embedding']) if time.time() - cached_data['timestamp'] < CACHE_EXPIRATION: similarity = 1 - cosine(embedding, cached_embedding) if similarity > SIMILARITY_THRESHOLD: return cached_question.decode(), cached_data['response'] except redis.RedisError as e: print(f"Failed to search cache: {str(e)}") return None, Nonedef get_embedding(text): return embedding_model.encode([text])[0]
通过缓存机制,当相似问题再次出现时,系统直接返回缓存中的响应,避免了重新生成响应所需的令牌消耗。这对于令牌使用量较大的语言模型尤为重要,能够有效降低计算成本,提高资源利用率,同时也使得模型能够在有限的令牌预算内处理更多的请求。
由于减少了对外部数据源的重复检索和语言模型的重复计算,系统的整体运算量显著降低,从而减少了服务器资源的占用和能源消耗。从长期来看,这有助于降低运营成本,特别是在大规模应用场景中,成本的降低将带来显著的经济效益。
缓存命中时,系统能够立即返回响应,无需进行耗时的相似性搜索和文档检索等操作,大大缩短了用户的等待时间。在对实时性要求较高的应用中,快速的响应速度能够显著提升用户体验,增强系统的可用性和竞争力。
语义缓存的引入优化了 RAG (检索增强思考 RAT(RAG+COT):提升 AI 推理能力的强大组合)系统的工作流程,使得系统能够更加高效地处理用户请求。通过减少不必要的计算和数据传输,系统能够在单位时间内处理更多的请求,提高了系统的吞吐量,从而更好地满足大规模用户的需求。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-09-04
2024-10-27
2024-07-18
2024-05-05
2024-06-20
2024-06-13
2024-07-09
2024-07-09
2024-05-19
2024-07-07
2025-03-11
2025-03-05
2025-03-03
2025-03-02
2025-02-28
2025-02-24
2025-02-23
2025-02-15