微信扫码
与创始人交个朋友
我要投稿
“针对特定领域的问答的微调和RAG方法”
很多人有疑问有了大模型,类似ChatGPT,kimi,为什么还需要受到专业领域限制。不都是知识管理,图文生成么?另外有时候发现大模型答非所问,出现幻觉或者胡编乱造。
随着大型语言模型的应用扩展到专业领域,对高效且有效的适应技术的需求变得越来越重要。RAFT(检索增强微调)是一种新颖的方法,结合了检索增强生成 (RAG) 和微调的优点,专为特定领域的问答任务量身定制。
专业领域的挑战
虽然LLMs(大模型)接受过大量数据的预先培训,但他们在医学研究、法律文档或企业特定知识库等专业领域表现良好的能力往往受到限制。出现这种限制是因为预训练数据可能无法充分代表这些专业领域的细微差别和复杂性。为了应对这一挑战,研究人员传统上采用两种主要技术:检索增强生成(RAG)和微调。
什么是RAG?
检索增强生成(RAG)通过融合基于检索和基于生成的方法的优势,代表了自然语言处理(NLP)的范式转变。白话就是一种使LLMs能够在推理过程中访问和利用外部知识源的技术。
RAG 包含三个核心步骤:
检索——收集相关文档;
生成——模型根据检索到的数据生成输出;
根据图上描述,通过将实时数据检索集成到生成过程中来实现这一点,从而使模型的输出更加准确和最新。白话就是说。RAG检索过程从用户的查询开始,分析查询并从外部数据库获取相关信息,这里需要数据库来自企业自身的数据库,企业平时的文档和资料有这个数据库进行整理备份。通过分析得到数据映射,提取完后。生成阶段将这些输入合成为连贯的叙述或答案。增强通过添加上下文或调整连贯性和相关性来完善生成。
RAG的关键工作原理:
预训练语言模型集成:RAG从预训练语言模型(如BERT或 GPT)开始,它充当系统的生成骨干。之后,预训练的模型对语言模式和语义有了深刻的理解,为后续任务提供了坚实的基础。
知识检索机制:RAG的一个显著特征是包含知识检索机制,使模型能够在生成过程中访问外部信息。它可以采用各种技术,例如密集检索方法或传统搜索算法,从庞大的存储库中提取相关知识。
生成主干:预训练的语言模型构成了RAG的生成主干,负责根据输入和检索的知识生成连贯且上下文相关的文本。
上下文理解:由于集成了预训练的语言模型,RAG在上下文理解方面表现出色,使其能够掌握输入文本中的细微差别和依赖关系。
联合训练:RAG通过优化预训练模型的生成能力和知识检索机制的有效性来进行联合训练。这种双重优化确保模型在适当利用外部信息的同时产生高质量的输出。
自适应知识集成:RAG提供知识集成的灵活性,允许适应各种领域和任务。现在,模型可以根据输入的性质和生成任务的要求动态调整其对外部知识的依赖。
优点:
增强上下文理解:RAG擅长理解上下文,因为它在生成过程中集成了外部知识。
多样化且相关的输出:检索机制使模型能够产生多样化且与上下文相关的输出,使其适合广泛的应用。
计算强度:检索机制可能是计算密集型的,影响实时应用程序和可扩展性。这种策略使得模型尺寸非常大,如果计算资源短缺,则很难与实时应用程序集成。
对外部知识的依赖:RAG的有效性依赖于外部知识的质量和相关性,这可能会引入偏差或不准确。
总结:
RAG好处在于数据私有化,但是需要自身实时更新数据源,这种对于企业内部或者隐私数据比较友好。但是回到特定领域上,医学,法学,数学,教育等RAG没有足够多数据进行更新响应。
什么是微调(Fine-tune)?
总结:
RAG 和 Fine-tuning 都是增强NLP模型的好策略,但一切都取决于我们要执行什么类型的任务。请记住,这两种策略都是从预训练模型开始的,RAG不存在任何过拟合问题,但会生成有偏差的输出。另一方面,微调不会产生有偏差的数据,但如果我们从错误的预训练模型开始,那么微调就变得毫无用处。最终,RAG 和微调之间的选择取决于当前的具体任务和要求。
RAFT又是什么?
RAFT和RAG是两个不同的模型,它们并不是相同的模型,也不是改进版本。RAFT更加注重于图结构的建模和特征提取,而RAG则更注重于利用检索到的外部信息来辅助生成任务。RAFT叫做检索感知微调,是一种专为语言模型量身定制的创新训练方法,旨在提高其在特定领域任务中的表现,特别是开卷考试。RAFT与标准Fine-tune不同,它准备的训练数据包含相关和不相关文档的问题,以及从相关文本得出的思想链式答案。该方法旨在提高模型不仅回忆信息的能力,而且还提高从提供的内容中推理和得出答案的能力。
训练准备
它训练模型识别和利用所提供上下文中的相关信息,模仿开卷考试设置。
它增强了模型忽略不相关信息的能力,这是有效RAG的关键技能。
RAFT 的另一个关键方面是将思想链推理纳入训练过程。RAFT 不是简单地提供问题和答案对,而是生成详细的推理解释,其中包括相关文档的逐字引用。这些解释以思想链的形式呈现,指导模型完成得出正确答案所需的逻辑步骤。通过在这些推理链上训练模型,RAFT鼓励发展强大的推理能力,并增强模型对如何有效利用外部知识源的理解。
这样产生的结果具有置信度,权威性,实时性。这里我这样说比如2024以前知识大模型都了解,一旦24年中某个事件发生了变化,大模型就还停留在以前知识体系。举个例子小日子地震,造成财产损失5亿,但后续逐步统计完已经在27年了,费用超过6亿,那么后续费用会通过这个RAFT重新覆盖已有的5亿。
评估与结果
回到上图,在HuggingFace数据集上,RAFT的准确率达到74%,比特定领域微调(DSF) 显著提高了31.41%,比使用RAG的GPT-3.5显著提高了44.92%。同样,在HotpotQA数据集上,与DSF相比,RAFT的准确率提高了28.9%。
实际应用和未来方向
问答系统:RAFT 可用于构建高度准确且特定领域的问答系统,利用模型学到的知识和外部知识源。
企业知识管理:拥有庞大知识库的组织可以利用RAFT开发定制的问答系统,使员工能够快速访问和利用相关信息。
医学和科学研究:RAFT在生物医学研究等领域特别有价值,在这些领域中,获取最新的发现和文献对于促进科学理解至关重要。
探索针对特定领域或文档结构定制的更高效、更有效的检索模块。
将图像或表格等多模态信息集成到RAFT框架中,以增强上下文理解。
开发专门的推理架构,可以更好地利用训练期间生成的思维链解释。
将RAFT应用于问答之外的其他自然语言任务,例如摘要、翻译或对话系统。
结论
RAFT代表了语言模型领域特定问答领域的重大飞跃。通过和谐地融合检索增强生成和微调的优势,RAFT使LLMs能够有效利用外部知识源,同时将其输出与特定领域的模式和偏好保持一致。通过其创新的训练数据管理、思想链推理的结合以及对检索缺陷的稳健性,RAFT为寻求释放LLMs在专业领域的全部潜力的组织和研究人员提供了强大的解决方案。让我们离权威性的通用大模型更近了一步。
附录:
RAG Vs Fine-Tuning for Enhancing LLM Performance https://www.geeksforgeeks.org/rag-vs-fine-tuning-for-enhancing-llm-performance/?ref=header_search
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-03-30
2024-04-26
2024-05-10
2024-04-12
2024-05-28
2024-05-14
2024-04-25
2024-07-18
2024-04-26
2024-05-06
2024-12-22
2024-12-21
2024-12-21
2024-12-21
2024-12-21
2024-12-20
2024-12-20
2024-12-19