微信扫码
与创始人交个朋友
我要投稿
下面是整体结构,和传统RAG不一样的是,QA-RAG系统利用微调后的LLM生成结果作为Query的额外辅助信息。也就是除了有一半的信息来自知识库的直接检索,还有一半的信息来自微调后的LLM生成。这种方式的好处是:扩大搜索范围,捕获更广泛的潜在相关信息。整合好Query相关的文档内容,在经过重排序,最终丢给大模型生成。
使用OCR技术进行文档处理时,尤其提到用 Nougat ,这是一种学术文档PDF解析器,可以理解LaTeX数学和表格。文档分块的大小设置为 10000 ,分块之间的overlap设置为 2000 个字符。块大小是指每个文本块可以包含的最大字符数,块重叠是指连续块之间重叠的字符数。文中提到,选择较大的分块和重叠,原因是为了获得总体指南的整体视图,并将信息损失最小化。
由于稀疏检索算法为BM25无法捕捉深层次的语义关系,也是采用向量化(稠密)方式。具体的文档embedding模型为 LLM-Embedder,该模型擅长捕捉文本中的复杂语义关系;向量数据库和相似性搜索工具用的是FAISS,它在处理大规模数据集时具备高效和可扩展。
传统方式只做单步检索增强,特别是在涉及到语言的细微差别和复杂多变时,由于过度依赖用户Query中出现的特定关键字或短语,导致容易错过相关文档。什么意思呢,不是说做了embedding就能召回用户想要的信息。举几个例子就清楚了。
针对上述问题,已经提出了各种解决方案,包括使用多Query检索和HyDE。
Multiquery retrieval,它可以从原始问题以不同的角度让LLM自动生成多个Query,一定程度上扩大了语义检索空间。但它仍然局限于用户问题的狭窄范围,无法获得更广泛的信息知识
HyDE,则不是生成类似的Query,而是直接用LLM生成和Query相关的文档。举个例子,
假设我问,“如何在家制作植物肥料?”,HyDE方法会用一个经过训练的语言模型来生成一个相关的假设文档,比如:“家庭制作植物肥料可以通过混合咖啡渣、鸡蛋壳和香蕉皮来实现。”
该方法的本质是利用LLM的内涵知识来扩大整个语义搜索空间。弊端是:(1)高度依赖LLM的能力,且容易引入噪声或误导性信息,尤其是专业程度很高的领域,通用LLM通常会产生非常不完整的假设答案,需要采用更专门的方法;(2)扩大搜索空间,也就意味着提高了检索复杂度,资源不足情况就有点难适应了。
假设用户提出的Query是:“我需要了解新的药品上市审批流程”,会有两个检索路径:
QA-RAG模型在制药行业的监管合规领域的应用:
个人认为,针对B端的企业级RAG落地,结合业务的意图深挖与充分理解是至关重要的,检索和生成在我看来都相对次要。检索的目的是召回和query意图最相关(注意,不仅是语义最相关)的信息进行后续的融合生成,那如果意图都没做好,检索就有更多问题,后面生成就容易出现幻觉。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-07-06
比Kimi还好用?AI写作神器「橙篇」来势汹汹 欲夺长文创作之未来
2024-07-06
暴走WAIC:跟AI+教育有关的,都在这儿↑
2024-07-02
【研究成果】ArchGPT:利用大语言模型支持传统建筑遗产的更新与保护
2024-06-28
所有男生女生,AI 卖货主播来咯!
2024-06-28
AI+医疗专题报告:院内场景丰富,AI 全面赋能医疗健康领域
2024-06-20
AI 背后 B 端设计师的机会
2024-06-20
30 款让教师工作更轻松的 AI 工具
2024-06-13
知识图谱(KG)和大模型(LLMs)双轮驱动的企业级AI平台构建之道暨行业调研
2024-05-03
2023-07-06
2023-06-30
2024-05-25
2024-04-28
2023-06-29
2023-07-03
2023-07-01
2023-07-10
2024-04-30