AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


大模型是怎么训练的 微调vsRAG
发布日期:2024-11-26 07:13:21 浏览次数: 1553 来源:数字化助推器


模型训练的关键

在理解提示工程、RAG和微调时,我们首先需明白大模型的训练依托于海量多样数据,使其具备跨领域的综合能力。以一个具体案例为例,当面对问题解答失败的情况时,需从三方面分析:一、提问者表述不清,此时采用提示工程,优化问题描述以便理解;二、回答者知识空白,引入RAG,通过补充领域背景知识以重塑解答环境;三、回答者自身能力不足,转向模型微调,提升解答能力与方法论,而非简单抱怨或依赖外部信息。工程实践中,应依次尝试提示工程、RAG,最后才是模型微调,避免一开始就进行微调,这是工程流程中的不当做法。

微调

微调是基于一个已经训练好的神经网络模型,通过对其参数进行细微调整,使其更好地适应特定的任务或数据。通过在新的小规模数据集上继续训练模型的部分或全部层,模型能够在保留原有知识的基础上,针对新任务进行优化,从而提升在特定领域的表现。
根据微调的范围,可以分为全模型微调和部分微调。
全模型微调(Full Model Fine-Tuning)更新模型的所有参数,适用于目标任务与预训练任务差异较大或需要最大化模型性能的场景。虽然这种方法能获得最佳性能,但它需要大量计算资源和存储空间,并且在数据较少的情况下容易导致过拟合。

相比之下,部分微调(Partial Fine-Tuning)仅更新模型的部分参数,其他参数保持冻结。这种方法减少了计算和存储成本,同时降低了过拟合的风险,适合数据较少的任务,但在任务复杂度较高时可能无法充分发挥模型的潜力。

生产中,使用较多的是部分微调的方式,由于大模型的参数量级较大,即使对于部分参数调整也需要非常多的计算资源,目前使用比较多的一种方式的是参数高效微调(Parameter-Efficient Fine-Tuning, PEFT), PEFT 通过引入额外的低秩矩阵(如 LoRA)或适配层(如 Adapters),减少计算资源的需求。LoRA 是一种高效的微调技术,能显著降低了微调的参数量和计算资源需求。它在保持模型原有能力的同时,实现了任务特定的高效适应,是一种特别适合大模型微调的技术。下一小节,注重介绍下 LoRA 这种微调方式。

LoRA 基本概念


LoRA 原理(来源 LoRA 论文:LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS)
LoRA(Low-Rank Adaptation)通过引入低秩矩阵来减少微调过程中需要更新的参数数量(矩阵A和矩阵B),从而显著降低计算资源需求(降低为之前1/3,论文中数据)。

LoRA 另外一个非常重要的特性是:可重用性。由于LoRA不改变原模型的参数,它在多任务或多场景的应用中具有很高的可重用性。不同任务的低秩矩阵可以分别存储和加载,灵活应用于不同任务中。

检索增强RAG

说到模型微调,这里就必须要提一下检索增强RAG了。RAG是微调的一种替代方法,它结合了自然语言生成和信息检索。RAG确保语言模型通过外部最新知识或相关文档提供信息来源。「这种技术弥合了通用模型广泛知识与最新知识信息需求之间的差距」。因此,RAG是事实随时间演变情况下的重要技术。「RAG的优势」 RAG相较于微调的一个优势在于信息管理。传统的微调将数据嵌入到模型架构中,实质上是“硬编码”知识,这不容易修改。而RAG允许训练数据的持续更新,并允许数据的移除或修订,确保模型保持准确。

「RAG与微调的关系」 在语言模型的背景下,RAG和微调通常被视为竞争方法。然而,它们的结合使用可以显著提高性能。特别是,微调可以应用于RAG系统,以识别和改进其较弱的组件,帮助它们在特定LLM任务上表现出色。

RAG增强检索的工作原理,其核心是将企业的知识和私有知识库与大模型融合,解决用户问题。流程包括将大量文本拆解成段落,转换为向量并存储于向量数据库中。当用户提问时,问题被转换为向量,通过向量数据库检索可能包含答案的段落,形成context。将问题和context合并在prompt中,提交给大模型生成最终回复。关键步骤在于文档合理拆解和向量数据库的应用。

微调最佳实践

「明确任务」:在微调大型语言模型的过程中,明确任务是基础步骤。它可以提供清晰的方向,确保模型的强大能力被引导用于实现特定目标,并为性能测量设定明确基准。

「选择合适的预训练模型」:使用预训练模型进行微调至关重要,因为它利用了从大量数据中获得的知识,确保模型不会从零开始学习。这种方法既计算效率高又节省时间。此外,预训练捕捉了通用语言理解,使微调能够专注于领域特定的细节,通常能在专业任务中带来更好的模型性能。

「设置超参数」:超参数是模型训练过程中可调整的变量,对找到适合任务的最优配置至关重要。学习率、批量大小、周期数、权重衰减等是关键的超参数,需要调整以优化模型。

「评估模型性能」:微调完成后,通过测试集评估模型性能。这提供了对模型在未见数据上预期表现的无偏评估。如果模型仍有改进空间,也应考虑迭代优化模型。


53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询