我要投稿

大模型时代的小模型角色：一文揭示小模型的潜力与挑战！

发布日期：2024-09-23 09:50:51 浏览次数： 2857 作者：AI帝国

一、结论写在前面

论文标题：What is the Role of Small Models in the LLM Era: A Survey

论文链接：https://arxiv.org/pdf/2409.06857

代码可在以下链接获取：https://github.com/tigerchen52/role_of_small_models

LLMs在推动人工通用智能（AGI）方面取得了显著进展，催生了诸如GPT-4和LLaMA-405B等日益庞大的模型。然而，模型规模的扩大导致了计算成本和能源消耗呈指数级增长，使得这些模型对于资源有限的学术研究者和企业来说变得不切实际。

与此同时，小模型（SMs）在实际应用中频繁使用，尽管其重要性目前被低估。这引发了关于小模型在LLM时代中角色的重要问题，这一话题在先前的研究中受到的关注有限。论文从两个角度系统地分析了LLMs与SMs之间的关系。首先，LLMs和SMs可以协作，以在性能与效率之间取得平衡。其次，在特定条件下它们存在竞争关系：计算受限的环境、特定任务的应用以及需要高可解释性的场景。在为特定任务或应用选择合适的模型时，仔细评估LLMs与SMs之间的权衡至关重要。

尽管LLMs提供了卓越的性能，但SMs具有显著优势，包括可访问性、简单性、较低的成本和互操作性。论文希望这项研究能为从业者提供有价值的见解，鼓励进一步研究资源优化和开发成本效益高的系统。

二、论文的简单介绍

2.1 论文的背景

LLMs的快速发展彻底改变了自然语言处理（NLP）领域。预训练语言模型如ELMo（Peters et al., 2018）和BERT验证了预训练与微调范式，即通过预训练学习通用语言表示，然后通过微调将这些知识转移到特定的NLP任务中以提升性能。这种方法已演变为基于提示的推理，以GPT系列，其中在模型执行任务之前，提示中提供了几个示例。

图1：模型大小与每月下载量之间的关系。该分析考虑了托管在HuggingFace上的开源NI P 模型，并根据参数数量将其分为五个大小组：[200M, 500M, 1B, 6B ]。数据收集于2024年8月25日。

这些范式在包括语言生成、语言理解以及编码、医学和法律等领域特定应用在内的广泛任务中展示了出色的性能。此外，涌现能力理论表明，某些推理能力通过增加模型大小得到增强，某些能力仅在较大模型中出现。这导致了越来越大的模型的发展，例如GPT-4、Mix-tral 8x22B、PaLM-340B和LLaMA-405B。因此，LLM变得非常普遍，2024年3月的数据显示，ChatGPT达到了约1.8亿用户。

尽管LLM在人工通用智能（AGI）方面取得了显著进展，但其能力伴随着巨大的开销。模型规模的扩展导致计算成本和能源消耗呈指数级增长。此外，训练和部署LLM对于资源有限的学术研究人员和企业来说往往不可行。因此，人们转向了更小的语言模型（SLM），如Phi-3.8B和Gemma-2B，这些模型可以在显著更少的参数下实现相当的性能。

有些人可能会认为像Phi-3.8B和Gemma-2B这样的模型不能算作真正的小模型，而真正的小模型，如BERT，已经不再突出。然而，论文的研究结果表明，小模型在实际应用中的使用被大大低估了。如图1所示，论文分析了从HuggingFace下载的开源模型不同尺寸的数量。结果显示，较小的模型，特别是BERT-base，仍然非常受欢迎。这引发了一个重要问题，即在LLM时代，小模型的作用是什么，这一话题在先前的研究中很大程度上被忽视了。

作为LLM的对应物，小模型（SMs）通常指的是参数数量相对较少的模型，不仅包括语言模型，还包括简单的统计模型和浅层神经网络。然而，大模型和小模型之间并没有明确的定义区分。论文以相对的方式考虑模型大小。例如，BERT（110M参数）相对于LLaMA-8B被认为是小的，而LLaMA-8B相对于GPT- 4 ~（175B参数）也是小的。这种相对定义允许灵活性，并确保概念在未来开发更大模型时仍然相关。

表1：LLMs和SMs在不同维度上的比较。

为了评估SMs的作用，有必要将它们的优缺点与LLM进行比较。表1突出了四个关键维度：

准确性。由于大型语言模型(LLMs)拥有大量参数并在多样化数据集上进行了广泛训练，它们在各种自然语言处理(NLP)任务中展现出了卓越的性能(Raffel等，2020; Kaplan等，2020)。尽管小型模型(SMs)在整体性能上通常落后，但当采用知识蒸馏等技术进行增强时，它们可以达到相当的结果(Xu等，2024a)。

通用性。大型语言模型（LLMs）具有高度可推广性，能够处理广泛的任务，且仅需少量训练样本（Dong et al., 2023; Liu et al., 2023a）。相比之下，小型模型往往更具专业性，研究表明，在特定领域数据集上微调小型模型有时能在特定任务上超越通用的大型语言模型（Hernandez et al., 2023; Juan Jose Bucher and Martini, 2024; Zhang et al., 2023a）。

效率。大型语言模型在训练和推理过程中需要大量计算资源（Wan et al., 2023），导致高成本和高延迟，使其在实时应用（如信息检索（Reimers and Gurevych, 2019））或资源受限环境（如边缘设备（Dhar et al., 2024））中不太实用。相反，小型模型所需训练数据和计算能力较少，在显著降低资源需求的同时提供有竞争力的性能。

可解释性。较小、较浅的模型往往比更大、更深的模型更透明和可解释（Gilpin et al., 2018; Barceló et al., 2020）。在医疗（Caruana et al., 2015）、金融（Kurshan et al., 2021）和法律（Eliot, 2021）等领域，较小的模型通常更受欢迎，因为它们的决策必须易于非专业人士理解（如医生、金融分析师）。

2.2 协作(Collaboration)

这里论文将介绍 SMs 和 LLMs 如何协作以优化资源使用：SMs 增强 LLMs和 LLMs 增强 SMs。整体协作框架如图 2 所示。

2.2.1 小型模型增强大型语言模型

2.2.1.1 数据策展

在下文中，论文将介绍如何使用小型模型从两个方面进行数据策展：预训练数据和指令微调数据。

策划预训练数据(Curating Pre-training Data) LLMs的推理能力主要归功于其在广泛且多样化的数据集上的预训练，这些数据集通常来源于网络抓取、书籍和科学文献。由于扩大这些训练数据集的数量和多样性可以增强LLMs的泛化能力，因此已经付出了大量努力来编译大规模且多样化的预训练语料库，例如C4和Pile。此外，缩放定律（scaling law）表明，模型性能高度依赖于模型参数的规模和训练数据集的大小。这可能表明，为了开发更强大的模型，应该尽可能多地使用数据进行预训练。

然而，这种方法面临一个重大挑战：数据可用性是有限的，并且存在公共人类文本数据可能很快耗尽的潜在风险。此外，并非所有数据对模型性能的贡献都相同；网络抓取的内容通常包含噪声和低质量文本。这导致了一种范式转变，从单纯关注数据量转向优先考虑数据质量。最近的研究支持“少即是多”的观点，提倡使用数据选择或修剪技术从大数据集中策划高质量子集，从而提高模型性能。

现有的数据管理方法通常依赖于基于规则的启发式方法，如黑名单过滤和MinHash去重。然而，面对原始文本数据的规模和复杂性，这些手动、基于规则的方法越来越不适用。一个常见的替代方案是采用一个专门训练的小模型来评估文本质量，从而选择高质量的子集。例如，可以训练一个简单的分类器来评估内容质量，重点是去除噪声、有毒和私密数据。另一种技术是使用代理语言模型计算的困惑度分数来选择更有可能高质量的数据。

除了数据选择，数据重加权是一种策略，它为不同文本源分配领域特定的权重，从而有效地调整不同文本源的采样概率。这可以通过训练一个小型代理模型来设置这些领域权重来实现，进而可以增强预训练模型在各个领域的泛化能力。

指令调优数据管理大型语言模型（LLMs）通过预训练获得大量知识，而指令调优旨在将这些模型能力与人类偏好对齐。尽管早期的研究集中在使用大规模指令数据集调优LLMs，但最近的发现表明，使用更小的数据集也能实现强对齐。具体来说，《Less is More for Alignment》研究表明，仅在1,000个精心挑选的指令示例上进行微调，就能产生一个对齐良好的模型。这突显了选择高质量数据进行高效指令微调的重要性。

图 2：LLM 与 SM 之间的协作

面向模型的数据选择（MoDS）是一种方法，它使用小型语言模型 DeBERTa，根据质量、覆盖率和必要性来评估指令数据。此外，LESS 框架表明，小型模型不仅可以为大型模型选择有影响力的数据，还可以为不同家族的模型选择有影响力的数据。这强调了使用有针对性的数据选择技术来优化指令微调过程的潜力。

总结与未来方向鉴于人类能够创建的数据量即将达到极限，专注于现有数据的精选并遵循“少即是多”的原则至关重要。在本节中，论文将探讨小型模型如何在预训练和微调过程中发挥重要作用，进行数据选择和重新加权。

未来方向 (1) 尽管数据精选提供了明显的优势，LLM 仍然倾向于产生幻觉和有毒内容。此外，移除低质量或有毒文本可能会潜在地降低某些能力，例如通用性。因此，定义更细致的数据质量评估标准至关重要，包括事实性、安全性和多样性等维度。研究使用小型模型开发有效且高效的数据选择方法是一个有价值的研究领域。

(2) 合成数据作为人类生成数据的宝贵补充，但小型模型在精选合成数据方面的潜力仍未得到充分探索。

2.2.1.2 弱到强范式

LLM 通常通过人类反馈的强化学习（RLHF）与人类价值观对齐，其中人类偏好的行为得到奖励，评价不佳的行为受到惩罚。然而，随着 LLM 的不断发展并在各种任务中超越人类能力，它们正成为超人类模型，能够执行复杂和创造性的任务，这些任务可能超出人类的理解。例如，这些模型可以生成数千行专业代码，进行复杂的数学推理，并创作长篇创意小说。评估此类输出的正确性和安全性对人类评估者提出了重大挑战。这种情况引入了一种新的超人类模型对齐范式，称为弱到强泛化，即使用较弱的（较小的）模型作为较强（较大）模型的监督者。在这种方法中，强大的大型模型在由较小、能力较弱的模型生成的标签上进行微调，使强模型能够超越其较弱监督者的局限性进行泛化。

基于弱-强泛化，近年来提出了几种变体。例如，Liu和Alahi（2024）建议使用一组多样化的专门弱教师，而不是依赖单一的通才模型，来集体监督强学生模型。Guo和Yang（2024）提出了一种通过在弱模型提供的多个答案中引入可靠性估计来增强弱-强泛化的方法。该方法通过过滤不确定数据或调整可靠数据的权重来改进对齐过程。除了数据标注，弱模型还可以在推理阶段与大模型协作，进一步增强对齐。Aligner使用一个小模型来学习偏好和非偏好响应之间的修正残差，使其能够直接应用于各种上游LLM，以对齐人类偏好。弱-强搜索将对大模型的对齐视为测试时的贪心搜索，旨在最大化小调优模型和未调优模型之间的对数似然差异，分别作为密集奖励信号和批评者。这种弱-强范式不仅限于语言模型，还扩展到了视觉基础模型。

总结与未来方向随着大模型继续快速发展，论文正接近一个超人模型将出现的未来，这使得有效的人类监督变得越来越具有挑战性。弱-强范式表明，弱监督者可以用来从强模型中提取知识，从而开发出确保安全和可靠对齐的超人奖励模型。

(1) 尽管弱-强框架在从更强模型中引出知识方面是有效的，但它仍然远未恢复弱模型和强模型之间的全部性能差距。确保强模型对当前任务有深刻的直观理解，能够纠正弱模型的错误，并自然地与任务目标对齐至关重要。未来的工作应集中于识别有助于实现这一目标的属性和方法。

(2) 目前对弱到强泛化的理解有限。研究人员应深入理解支配对齐方法成功或失败的根本机制，例如理论分析、弱监督中的错误，以及利用缩放定律推断泛化错误。

2.2.1.3 高效推理

模型集成较大的模型通常更强大，但伴随着显著的成本，包括较慢的推理速度和更昂贵的价格（API）。除了财务成本外，使用较大模型还对环境和能源产生相当大的影响。相比之下，较小的模型虽然在性能上可能较差，但在成本和推理速度方面具有优势。鉴于用户查询的复杂性差异很大——从较小的模型可以处理的简单问题到需要较大模型的更复杂问题——通过利用不同大小的模型集成可以实现成本效益高的推理。这种模型集成方法可以分为两类：模型级联和模型路由。

模型级联涉及多个模型按顺序使用以进行预测或决策，其中级联中的每个模型具有不同的复杂度。一个模型的输出可能会触发序列中下一个模型的激活。这种方法允许不同大小的模型协作，使较小的模型能够处理较简单的输入查询，同时将更复杂的任务转移给较大的模型。该过程中的关键步骤是确定给定模型是否能够解决输入问题。这种方法有效地优化了推理速度并降低了财务成本。

一些现有技术训练一个小型评估器来评估模型输出的正确性、置信度或质量，从而决定是否将查询升级到更复杂的模型。鉴于LLMs能够进行自我验证并在其响应中提供置信度水平，AutoMix采用验证提示多次查询模型，使用这些响应的一致性作为估计的置信度分数。该框架随后决定当前模型的输出是否应被接受，或者是否应将查询转发给其他模型以增强性能。

模型路由通过动态地将输入数据引导到最合适的模型，优化了不同规模多个模型的部署，从而在实际应用中提高了效率和有效性。这种方法的核心组件是开发一个路由器，将输入分配给池中一个或多个合适的模型。

一种直接的方法是考虑所有模型的输入-输出对，并选择表现最佳的模型。然而，这种全面的集成策略并不能显著降低推理成本。为了解决这个问题，一些方法训练了基于奖励的高效路由器，这些路由器能够在不需要访问模型输出的情况下选择最优模型。OrchestraLLM引入了一种基于检索的动态路由器，假设具有相似语义嵌入的实例共享相同的难度级别。这使得可以根据测试实例与专家池中实例的嵌入距离来选择合适的专家。类似地，RouteLLM利用人类偏好数据和数据增强来训练一个小型路由器模型，从而有效降低推理成本并增强域外泛化能力。FORC提出了一种元模型（回归模型），用于在不需要执行任何大型模型的情况下将查询分配给最合适的模型。该元模型在现有的查询和模型性能评分对上进行训练。此外，最近建立了模型路由的基准，促进了大规模语言模型的更便捷和成本效益更高的部署。

推测性解码这项技术旨在加速生成模型的解码过程，通常涉及使用一个较小、更快的辅助模型与主要的大型模型一起工作。辅助模型快速并行生成多个标记候选，然后由更大、更准确的模型进行验证或细化。这种方法允许更快地进行初步预测，随后由计算量更大的模型进行验证。

总结与未来方向大型模型或API的推理成本可能相当高，但异构模型的协作可以有效降低这些货币成本并加速推理。论文介绍模型集成和推测性解码作为优化推理过程的策略。

(1) 现有的集成方法通常依赖于有限且预定义的模型列表，然而现实世界包含开放领域和不断演变的LLMs，例如HuggingFace上可用的那些。探索如何利用这些广泛的模型库来创建智能且高效的系统具有重要前景（Shen et al., 2024）。

(2) 在当前的推测性解码方法中，辅助模型通常被限制为与主模型来自同一模型家族，例如不同大小的GPT。然而，探索来自不同来源的模型之间的协作是有益的。

2.2.1.4 评估LLMs

有效评估LLMs生成的开放式文本在各种NLP任务中提出了重大挑战。传统的评估方法，如BLEU和ROUGE，这些侧重于表面形式相似性的方法，往往在捕捉生成文本的细微语义意义和组合多样性方面表现不足。

为了解决这些限制，基于模型的评估方法使用较小的模型来自动评估性能。例如，BERTSCORE采用BERT 来计算语义相似度，用于评估机器翻译和图像描述。类似地，BARTSCORE利用编码器-解码器模型BART从多个角度评估文本，包括信息量、流畅性和事实性。除了通用文本评估外，一些方法使用小型自然语言推理（NLI）模型来估计LLM响应的不确定性。另一个有价值的应用是使用代理模型来预测LLM性能，这大大降低了模型选择过程中微调和推理的计算成本。

总结与未来方向：LLM能够生成大量且复杂的文本，这使得基于简单启发式指标的内容评估变得困难。为了克服这一挑战，可以使用小型代理模型来自动从多个角度评估生成的文本，包括事实性和流畅性等方面。

未来方向随着大型模型的进步，它们越来越多地生成冗长且复杂的文本，如专业代码和科学论文，这些文本对人类来说难以评估。因此，需要开发高效的评估器来评估生成内容的各个方面，如事实性、安全性和不确定性。

2.2.1.5 领域适应

尽管通用LLM的能力不断增强，但仍需要进一步定制以在特定用例（如编码）和领域（如医疗任务）中实现最佳性能。虽然对专业数据进行微调是一种适应LLM的方法，但这一过程变得越来越资源密集，并且在某些情况下不可行——特别是在无法访问内部模型参数的情况下，如ChatGPT等模型。最近的研究探索了使用较小模型来适应LLM，这些方法可以根据是否可以访问模型的内部状态分为两类：白盒适应和黑盒适应。

白盒适应（White-Box Adaptation）通常涉及微调一个小模型，以调整冻结的大型语言模型（LLMs）的token分布，使其适应特定的目标领域。例如，CombLM（Ormazabal et al., 2023）学习一个线性函数，将大型黑盒模型的概率分布与较小领域专家模型的概率分布结合起来。IPA（Lu et al., 2023b）引入了一个轻量级适配器，在解码过程中将大型模型定制为期望的目标，而无需微调。IPA通过使用强化学习优化组合分布来实现这一点。Proxy-tuning（Liu et al., 2024a）微调一个较小的语言模型，对比调优模型（专家）与其未调优版本（反专家）的概率，以指导较大的基础模型。

这些方法仅修改小领域专家模型的参数，使LLMs能够适应特定领域的任务。然而，白盒适应不适用于仅提供API的建模服务，因为在这种情况下，访问内部模型参数受到限制。

黑盒适应（Black-Box Adaptation）涉及使用小领域特定模型，通过提供文本相关知识来引导LLMs朝向目标领域。检索增强生成（RAG）可以从外部文档集合或知识库中提取查询相关的知识，从而通过利用其上下文学习能力来增强通用LLMs。它首先使用轻量级检索器从领域语料库中找到相关内容，然后将这些内容整合到LLM的输入中，以提高其对领域特定知识的理解（Siriwardhana et al., 2023; Shi et al., 2023; Gao et al., 2023）。

另一种方法使用小专家模型以生成方式为基础LLM检索背景知识。例如，BLADE（Li et al., 2024a）和Knowledge Card（Feng et al., 2024）首先在领域特定数据上预训练一个小专家模型，然后根据查询生成专业知识，从而增强基础LLM的性能。

总结与未来方向针对特定目标领域调整大型模型需要大量资源。为应对这一挑战，更高效的方法是在领域特定数据上微调一个小型模型。这个轻量级专家模型可以在解码（白盒适应）或推理（黑盒适应）期间指导大型语言模型（LLM），为领域适应提供一种经济高效的解决方案。

(1) 在白盒适应中，大多数方法要求小型模型和基础模型属于同一族，例如GPT家族。为了增强领域适应性，开发利用更广泛多样模型（Kasai et al., 2022; Xu et al., onnAh. DAmint nl onoAl:U4U, nillly sl dl., 024)的技术至关重要。

(2) 当前方法通常需要从头开始预训练领域特定专家，这在资源受限的任务中不切实际。研究如何使用有限数量的样本适应LLM是一个有价值的研究领域。

2.2.1.6 检索增强生成

LLM展示了令人印象深刻的推理能力，但其记忆特定知识的能力有限。因此，LLM可能在需要领域特定专业知识或最新信息的任务中表现不佳。为解决这些限制，检索增强生成（RAG）通过使用轻量级检索器从外部知识库、文档集合或其他工具中提取相关文档片段来增强LLM。通过整合外部知识，RAG有效地缓解了生成事实不准确内容的问题，通常称为幻觉。根据检索源的性质，RAG方法可以大致分为三种类型。

文本文档是RAG方法中最常用的检索源，涵盖了诸如Wikipedia（Trivedi et al., 2023; Asai et al., 2023）、跨语言文本（Nie et al., 2023）以及特定领域语料库（例如医疗（Xiong et al., 2024）和法律（Yue et al., 2023）领域）等资源。这些方法通常采用轻量级检索模型，如稀疏BM25（Robertson et al., 2009）和基于BERT的密集检索器（Izacard et al., 2021），从这些源中提取相关文本。

结构化知识涵盖了诸如知识库和数据库等资源，这些资源通常经过验证，能够提供更精确的信息。例如，KnowledgeGPT（Wang et al., 2023）使LLMs能够从知识库中检索信息，而T-RAG（Pan et al., 2022）通过将检索到的表格与查询连接来增强答案。StructGPT（Jiang et al., 2023b）进一步通过从包括知识库、表格和数据库在内的混合源中检索来增强生成。这些方法中的检索器可以是轻量级的实体链接器、查询执行器或API。

其他来源包括代码、工具甚至图像，这些资源使LLMs能够利用外部信息进行增强推理。例如，DocPrompting（Zhou et al., 2023）在代码生成之前使用BM25检索器获取相关代码文档。同样，Toolformer（Schick et al., 2024）展示了LMs可以通过简单的API自我学习使用外部工具，如翻译器、计算器和日历，从而显著提升性能。

总结与未来方向检索增强生成显著扩展了LLMs的知识边界，其中小型模型主要在此过程中充当检索器。通过采用轻量级检索器，可以高效访问各种类型的信息——如文档、结构化知识、代码和有用工具——以增强模型的能力。

(1) 检索增强文本生成的性能对检索质量非常敏感（Yoran et al., 2023）。因此，开发稳健的方法来整合噪声检索文本至关重要。(2) RAG可以扩展到多模态场景，超越仅文本信息，如图像（Yasunaga et al., 2023）、音频（Zhao et al., 2023）等。

2.2.1.7 基于提示的学习

基于提示的学习是大型语言模型（LLMs）中的一种流行范式，通过精心设计的提示来促进少样本甚至零样本学习，使得模型能够以最少或无需标注数据的方式适应新场景（Liu et al., 2023a）。这种方法利用了上下文学习（In-Context Learning, ICL）（Dong et al., 2023）的强大功能，该方法在不进行参数更新的情况下运行。相反，它依赖于包含在自然语言模板中的少量示范示例的提示上下文。

在这一学习过程中，可以使用小型模型来增强提示，从而提高大型模型的性能。例如，Uprise（Cheng et al., 2023）优化了一个轻量级的检索器，能够自主地为零样本任务检索提示，从而最小化提示工程所需的人工努力。同样，DaSLaM（Juneja et al., 2023）使用小型模型将复杂问题分解为需要较少推理步骤的子问题，从而在多个推理数据集上提高了大型模型的性能。其他方法包括微调小型模型以生成输入的伪标签（Xu et al., 2023; Lee et al., 2024b），这比原始的ICL表现更好。此外，小型模型可以用于验证（Hsu et al., 2024）或重写（Vernikos et al., 2024）LLMs的输出，从而在不进行微调的情况下实现性能提升。

总结与未来方向基于提示的学习能够通过在提示模板中嵌入少量示例来处理各种复杂任务。为了进一步增强这一过程，可以使用小型模型通过重新表述问题和生成反馈来增强提示。这种高效的增强使得无需参数更新即可改进LLMs。

未来方向最近的研究集中于利用小型模型在基于提示的学习范式中增强大型模型的推理能力。同样重要的是探索如何利用小型模型来开发可信、安全和公平的LLMs。

2.2.1.8 缺陷修复

强大的语言模型（LMs）可能会生成重复、不真实和有毒的内容，而小型模型可以用来修复这些缺陷。论文介绍两种实现这一目标的方法：对比解码和小模型插件。

对比解码通过选择最大化大模型（专家）和小模型（业余者）对数似然差异的token来利用两者之间的对比。现有工作已经探索了从大型语言模型（LLMs）和小型模型（SMs）中提取logits的协同使用，以减少重复文本（Li et al., 2023b），缓解幻觉（Sennrich et al., 2024），增强推理能力（O'Brien and Lewis, 2023），并保护用户隐私（Zhang et al., 2024a）。由于微调LLMs计算密集，代理微调提出微调一个小模型，并通过对比原始LLMs和小模型之间的差异来适应目标任务（Liu et al., 2024a）。

小模型插件通过微调专门的小模型来解决大模型的一些缺点。例如，当遇到词汇表外（Out-Of-Vocabulary）单词时，LLMs的性能可能会下降。为了解决这个问题，论文可以训练一个小模型来模仿大模型的行为，并为未见过的单词输入表示（Pinter et al., 2017; Chen et al., 2022a）。通过这种方式，论文可以在很少的成本下使大模型更加鲁棒。此外，LLMs可能会生成幻觉文本，论文可以训练一个小模型来检测幻觉（Cheng et al., 2024）或校准置信度分数（Chen et al., 2024b）。

总结与未来方向尽管语言模型非常强大，但它们也有需要解决的弱点，如幻觉、毒性等。在这里，论文介绍了对比解码和开发小模型插件，以使LLMs更加鲁棒和安全。

论文可以将使用小模型修复大模型缺陷的模式扩展到其他问题。例如，LLMs的数学推理非常脆弱，它们在面对基本数学问题时可能会崩溃，例如，ChatGPT认为9.11大于9.9。

2.2.2 大模型增强小模型

2.2.2.1 知识蒸馏

将模型扩展到更大规模是提升性能的直接方法，但通常计算成本过高，难以广泛部署给大量用户。为应对这一挑战，知识蒸馏（KD）（Hinton, 2015; Gou et al., 2021; Zhu et al., 2023; Xu et al., 2024a）提供了一种有效解决方案。在KD中，较小的学生模型被训练以模仿较大的教师模型的行为。通常，这一过程涉及较大模型生成带有伪标签的数据集，较小模型随后用于训练。

白盒蒸馏涉及使用教师模型的内部状态，为学生模型的训练过程提供透明度。这种方法利用教师大语言模型（LLMs）的输出分布和中间特征，统称为特征知识（Liang et al., 2023; Gu et al., 2024; Liu et al., 2023b）。它促进了成本效益高且功能强大的模型的开发，如DistilBERT（Sanh, 2019）和QuantizedGPT（Yao et al., 2022）。

相比之下，黑箱知识蒸馏通常涉及通过教师大语言模型（LLM）生成蒸馏数据集，然后用于微调学生模型。例如，思维链蒸馏（Chain-of-Thought distillation）（Wei et al., 2022b）提取LLM的推理过程以提供额外的监督，从而增强较小模型的推理能力（Li et al., 2022; Hsieh et al., 2023, Shridhar et al., 2023; Magister et al., 2023; Li et al., 2023a; Fu et al., 2023; Tian et al., 2024）。此外，指令跟随蒸馏（Instruction Following Distillation）旨在通过使用一组类似指令的提示-响应对来微调LLM，以提高其零样本性能（Jiang et al., 2023c; Li et al., 2024b）。此外，其他研究利用蒸馏训练小模型用于知识密集型任务（Li et al., 2024c; Kang et al., 2024; Chen et al., 2024d）、意图发现（Liang et al., 2024）和幽默生成（Ravi et al., 2024），展示了知识蒸馏在各个领域的多样性和有效性。

总结与未来方向知识蒸馏促进了从大模型到小模型的知识转移，使得开发更具成本效益和效率的模型（如DistilBERT）成为可能。最近的进展主要集中在思维链蒸馏和指令跟随蒸馏等技术上，这些技术增强了较小模型的推理能力。

未来方向 (1) 当前的知识蒸馏方法主要强调使用闭源LLM生成的标签和解释，通过简单的监督微调来训练学生模型（Xu et al., 2024a）。然而，扩展从教师模型转移的知识范围，包括对学生输出（Lee et al., 2023）和特征知识（Gu et al., 2024）的反馈，可以带来额外的好处。(2) 在LLM知识蒸馏方面的努力主要集中在从LLM转移各种技能上，相对较少关注可信度（Xu et al., 2024a），如有用性、诚实性和无害性（Bai et al., 2022b; Yang et al., 2023; Cui et al., 2023）。

2.2.2.2 数据合成

人类创建的数据是有限的，并且有人担心公开可用的人类文本可能会很快耗尽（Villalobos et al., 2024）。此外，大型模型并不总是特定任务所必需的。鉴于这些考虑，使用LLMs生成训练数据以训练小型模型既高效又可行。在接下来的部分中，论文将讨论如何利用LLMs进行数据合成，重点关注两个关键领域：训练数据生成和数据增强。

训练数据生成涉及首先使用LLMs（如ChatGPT）以无监督方式从头生成数据集，然后在该合成数据集上训练一个特定任务的小型模型。这种方法使得推理效率极高，因为最终任务模型的参数数量与原始大型模型相比减少了几个数量级（Ye et al., 2022; Meng et al., 2022; Chung et al., 2023）。随后的研究已将这种方法扩展到各种任务，包括文本分类（Li et al., 2023c）、临床文本挖掘（Tang et al., 2023）、信息提取（Josifoski et al., 2023）和仇恨言论检测（Hartvigsen et al., 2022）。另一种方法仅利用LLMs生成标签，而不是整个训练数据集（Wang et al., 2021; Gao et al., 2022），类似于知识蒸馏的过程。

数据增强在此上下文中指的是使用LLMs修改现有数据点，从而增加数据多样性，这些数据可以直接用于训练更小的模型（Ding et al., 2024a; Chen et al., 2023b）。例如，LLMs可以用于释义或重写文本以生成额外的训练样本（Mi et al., 2022; Witteveen and Andrews, 2019）。在信息检索中，语言模型可以重写查询（Ma et al., 2023a）以更好地与目标文档对齐。此外，数据增强可以应用于各种任务，如人格检测（Hu et al., 2024a）、意图分类（Sahu et al., 2022）和对话理解（Chen et al., 2022b）。通过这些增强样本微调较小的模型可以显著提高其效能和鲁棒性。

图3：不同大小的模型在MTEB上的性能。论文为每个任务选择了五个数据集。增加模型大小仅带来递减的回报。

总结与未来方向合成数据作为人类生成数据的有效补充，增加了数据多样性并改善了长尾样本的覆盖率。这种方法可以显著提升较小模型的性能和鲁棒性。

(1) 目前，闭源大型语言模型（LLMs）仍然比开源模型更强大。然而，使用闭源模型进行数据合成可能会引发隐私和安全问题，特别是在涉及患者数据的医疗场景中（Ollion et al., 2023）。如何在此过程中保护数据隐私是一个关键的关注领域。

(2) 使用大规模模型生成训练数据的成本高昂，因此探索在降低成本的同时仍能生成高质量数据的方法至关重要。例如，最近的研究表明，较小的、能力较弱的模型有时能生成更好的训练数据点（Bansal et al., 2024）。

2.3 竞争(Competition)

论文展示了三个较小模型更受欢迎的场景：计算受限环境、任务特定环境和需要可解释性的环境

2.3.1 计算受限环境

尽管大型语言模型（LLMs）代表了AGI发展的重要里程碑，但其强大的能力伴随着巨大的计算需求。模型规模的扩展导致训练时间呈指数级增长，并显著增加推理延迟（Wan et al., 2023）。训练和部署LLMs需要更多的硬件和更高的能耗，这对资源有限的学术研究人员和企业来说往往不可行。此外，这种高计算开销使得LLMs无法直接应用于计算受限的环境，如边缘和移动设备（Dhar et al., 2024）。

此外，并非所有任务都需要大型模型；一些非知识密集型且不需要复杂推理的任务可以由较小的模型有效处理。例如，图3c展示了MTEB（Muennighoff et al., 2023）中四个任务的性能与模型大小之间的关系，论文观察到随着模型大小的增加，性能提升逐渐减少，特别是在文本相似性和分类等任务中。在信息检索（图3c）的情况下，计算查询与文档集合之间的相似性时，推理速度至关重要。在这些条件下，轻量级的Sentence-BERT（Reimers and Gurevych, 2019）在信息检索任务中仍然被广泛使用。

因此，由于可访问性、效率和民主化的需求，越来越多的转向更小、更高效的模型。例如，Phi-3.8B（Abdin et al., 2024）、MiniCPM（Hu et al., 2024c）和Gemma-2B（Team et al., 2024）。

在计算资源有限的情况下，小型模型越来越有价值。知识蒸馏（Xu et al., 2024a）等技术允许将知识从大型语言模型（LLMs）转移到小型模型，使这些小型模型在显著减小模型大小的同时实现类似的性能。此外，由于资源需求较低，小型模型通常更适用于信息检索等计算密集型任务。

2.3.2 任务特定环境

训练语言模型需要数万亿个token（Raf-fel et al., 2020; Kaplan et al., 2020; Gao et al., 2021），但对于某些特定领域（如生物医学文本）或任务（如表格学习），通常缺乏足够的数据。在这种情况下，预训练一个大型基础模型是不可行的，而小型模型在这种情况下可以提供有前景的回报。

论文概述了几种任务特定场景，其中小型模型可以提供可比的结果：

•领域特定任务：生物医学或法律等领域通常可用的训练token较少。最近的研究表明，在领域特定数据集上微调小型模型可以在各种生物医学（Hernandez et al., 2023; Juan José Bucher and Martini, 2024）和法律（Chalkidis, 2023）任务中优于通用的大型语言模型。

•表格学习：表格数据集通常比其他领域的基准数据集（如文本或图像数据）小，并且结构高度统一，包含异构数据类型（例如，数值、分类、有序）。由于这些特性，小型基于树的模型在表格数据上的表现可以与大型深度学习模型相媲美（Grinsztajnet ~ al., 2022)

•短文本任务：短文本表示和推理通常不需要广泛的背景知识。因此，小型模型在文本分类（Zhang et al., 2023a）、短语表示（Chen et al., 20240）和实体检索（Chen et al., 2021）等任务中特别有效。

•其他专业任务：在某些特定领域，小型模型可以超越大型模型。例如，机器生成文本检测（Mireshghallah et al., 2023）、电子表格表示（Joshi et al. 2024）和信息提取（Ma et al., 2023b）。

小型模型在特定领域具有明显优势，为这些领域或任务开发轻量级模型是一个有前景的方向。

2.3.3 可解释性要求的环境

可解释性的目标是提供一个模型内部推理过程的人类可理解的解释（Lipton, 2018; Gilpin et al., 2018），即模型的透明性。通常，较小的（例如，浅层的）和更简单的（例如，基于树的）模型比更大的（例如，深层的）和更复杂的（例如，神经的）模型提供更好的可解释性（Barceló et al., 2020; Gosiewska et al., 2021）。

在实践中，医疗（Caruana et al., 2015）、金融（Kurshan et al., 2021）和法律（Eliot, 2021）等行业通常倾向于选择更小、更可解释的模型，因为这些模型产生的决策必须对非专家（例如，医生、金融分析师）可理解。在高风险决策环境中，通常更倾向于选择易于审计和解释的模型。

在选择大型语言模型（LLMs）或小型模型（SMs）时，重要的是要在模型复杂性与人类理解需求之间做出权衡。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业