我要投稿

您的公司也许更需要小型语言模型

发布日期：2025-04-12 08:24:38 浏览次数： 1563 作者：数据驱动智能

“越大越好”——这一原则深深植根于人工智能世界。每个月都会有更大的模型被创建，参数也越来越多。公司甚至在为它们建造价值100 亿美元的人工智能数据中心。但这是唯一的方向吗？

在NeurIPS 2024 上， OpenAI 联合创始人之一 Ilya Sutskever 分享了一个观点：“我们所熟知的预训练必将终结”。看来，规模化的时代即将结束，这意味着是时候专注于改进当前的方法和算法了。

最有前景的领域之一是使用多达 100 亿个参数的小型语言模型 (SLM)。这种方法在业界真正开始流行起来。例如，Hugging Face 首席执行官 Clem Delangue预测高达 99% 的用例可以通过 SLM 解决。YC 最新对初创企业的招募也呈现出类似的趋势：

具有大量参数的巨型通用模型非常令人印象深刻。但它们的成本也非常高，并且经常带来延迟和隐私问题。

现在我们提出一个问题：你到底需要LLM吗？

https://miro.medium.com/v2/resize:fit:875/1*zKAccQMgafYQ3Jw6Lav0GQ.png

在本文中，将讨论为什么小型模型可能是您的业务所需的解决方案。我们将讨论它们如何降低成本、提高准确性并保持对数据的控制。当然，我们将坦诚地讨论它们的局限性。

成本效益

LLM的经济学可能是企业最头疼的话题之一。然而，这个问题要广泛得多：它包括对昂贵硬件的需求、基础设施成本、能源成本和环境后果。

是的，大型语言模型的能力令人印象深刻，但维护起来也非常昂贵。您可能已经注意到基于 LLM 的应用程序的订阅价格如何上涨？例如，OpenAI 最近宣布推出每月 200 美元的Pro 计划，这表明成本正在上涨。而且竞争对手也可能会将价格提高到这个水平。

Moxie 机器人的故事就是一个很好的例子。Embodied 使用 OpenAI API 以 800 美元的价格为孩子们打造了一款出色的陪伴机器人。尽管该产品取得了成功（孩子们每天发送 500-1000 条消息！），但由于 API 的运营成本过高，该公司还是倒闭了。现在，成千上万的机器人将变得毫无用处，孩子们将失去他们的朋友。

一种方法是针对特定领域微调专门的小语言模型。当然，它不会解决“世界上所有的问题”，但它可以完美地应对分配给它的任务。例如，分析客户文档或生成特定报告。同时，SLM 的维护成本更低，消耗的资源更少，需要的数据更少，并且可以在更普通的硬件上运行（最多智能手机）。

https://miro.medium.com/v2/resize:fit:875/1*3P3mu-1BPxd8CQEuHLEisg.png

不同参数数量模型的利用率比较。

最后，我们不要忘记环境。在《碳排放和大型神经网络训练》一文中，我发现了一些让我惊讶的有趣统计数据：训练具有 1750 亿个参数的 GPT-3 所消耗的电量相当于美国普通家庭 120 年的用电量。它还产生了 502 吨二氧化碳，相当于一百多辆汽油车的年运行量。这还不包括推理成本。相比之下，部署像7B 这样的较小模型所需的消耗量仅为较大模型的 5%。那么最新的o3 版本呢？

https://miro.medium.com/v2/resize:fit:875/1*4vLlpaAN5TqdI2IwlGwHsw.png

?提示：不要追逐炒作。在处理任务之前，请计算使用 API 或您自己的服务器的成本。考虑一下这种系统的扩展以及使用 LLM 的合理性。

专门任务上的表现

既然我们已经讨论了经济因素，那么让我们来谈谈质量。当然，很少有人愿意为了节省成本而牺牲解决方案的准确性。但即使在这里，SLM 也有一些优势。

https://miro.medium.com/v2/resize:fit:875/1*jqLUt6Omrv7Ofs0u2O59fg.png

。比较 SLM 与 LLM 在域内内容审核性能的准确度、召回率和精确度方面的表现。在所有子版块中，表现最佳的 SLM 在准确度和召回率方面均优于 LLM，而 LLM 在精确度方面则优于 SLM。

许多研究表明，对于高度专业化的任务，小型模型不仅可以与大型 LLM 相媲美，而且通常表现更佳。让我们看几个说明性示例：

医学：
Diabetica-7B 模型（基于 Qwen2-7B）在糖尿病相关测试中实现了 87.2% 的准确率，而 GPT-4 的准确率仅为 79.17%，Claude-3.5 的准确率仅为 80.13%。尽管如此，Diabetica-7B 比 GPT-4 小几十倍，并且可以在消费级 GPU 上本地运行。
法律领域：
仅具有 0.2B 个参数的 SLM在合同分析中实现了 77.2% 的准确率（GPT-4 — 约 82.4%）。此外，对于识别用户协议中的“不公平”条款等任务， SLM在 F1 指标上的表现甚至优于 GPT-3.5 和 GPT-4 。
数学任务：
Google DeepMind 的研究表明，使用另一个小模型生成的数据训练小模型 Gemma2–9B 比使用较大的 Gemma2–27B 的数据训练效果更好。较小的模型往往更关注细节，而不会“试图用所有知识来炫耀”，而这通常是较大模型的一个特点。
内容审核：在审核 15 个热门 subreddits 中的内容时，
LLaMA 3.1 8B在准确率（高出 11.5%）和召回率（高出 25.7%）方面均优于 GPT-3.5。即使使用 4 位量化，也能实现这一目标，这进一步减小了模型的大小。

https://miro.medium.com/v2/resize:fit:875/1*zAXHvq7CG1ejGruGhHi-1g.png

再进一步说，即使是经典的 NLP 方法也常常能出奇地有效。让我分享一个个人案例：我正在开发一款心理支持产品，我们每天处理来自用户的一千多条消息。他们可以在聊天中写下消息并得到回复。每条消息首先被分为四类之一：

https://miro.medium.com/v2/resize:fit:1250/1*hZlRhBgk4U1yvEK8biyjWw.png

消息分类方案。

SUPPORT— 关于应用程序如何运行的问题；我们使用文档来回答。
GRATITUDE— 用户感谢机器人；我们只需发送一个“赞”。
TRY_TO_HACK— 用户请求与应用程序目的无关的内容（例如“用 Python 编写一个函数”）。
OTHER— 所有其他消息，我们将进一步处理。

之前我使用 GPT-3.5-turbo 进行分类，后来改用 GPT-4o mini，花了很多时间更改提示。但是，我仍然遇到了错误。因此，我决定尝试一种经典方法：TF-IDF + 一个简单的分类器。训练用时不到一分钟，Macro F1 分数提高到 0.95（而 GPT-4o mini 为 0.92）。模型大小只有 76 MB，当应用于 200 万条已处理的消息（我们的实际数据）时，成本节省非常可观：基于 GPT 的解决方案的成本约为 500 美元，而经典方法几乎不花钱。

https://miro.medium.com/v2/resize:fit:875/1*FFsb1ydsX35yw8aO0J3Gaw.png

我们的产品中就有好几个这样的“小”而简单的任务。我相信你们公司也会有同样的情况。当然，大型模型非常适合快速启动，尤其是在没有标记数据且需求不断变化的情况下。但对于定义明确、稳定的任务，准确性和最低成本是关键，专业而简单的模型（包括经典方法）通常可以成为更有效的解决方案。

?提示： 使用 LLM 进行原型设计，然后，一旦任务变得清晰和稳定，就切换到更小、更便宜、更准确的模型。这种混合方法有助于保持高质量，显著降低成本，并避免通用模型的冗余秒。

安全、隐私和监管

通过 API 使用 LLM，您将敏感数据交给外部提供商，这会增加泄露风险，并使遵守个人信息保护法、数据安全法、HIPAA、GDPR 和 CCPA 等严格法规变得更加复杂。OpenAI 最近宣布计划推出广告，这只会凸显这些风险。您的公司不仅会失去对其数据的完全控制权，而且还会依赖第三方 SLA。

当然，可以在本地运行 LLM，但部署和扩展的成本（数百 GB 的内存、多个 GPU）通常超出合理的经济限制，并且难以快速适应新的监管要求。而且您别想在低端硬件上启动它。

https://miro.medium.com/v2/resize:fit:1250/1*lsIIfmCxQg2qLB6E7xhyng.png

这就是“小模型”再次发挥作用的地方：

1.简化审计

SLM 规模越小，就越容易进行审计、验证和定制以满足特定法规。这样一来，您就更容易理解模型如何处理数据、实施自己的加密或日志记录，并向审计人员表明信息永远不会离开受信任的环境。作为一家医疗保健公司的创始人，我知道这项任务有多么具有挑战性和关键性。

2.在隔离和低端硬件上运行

LLM 很难在孤立的网络段或智能手机上高效地“部署”。然而，SLM 的计算要求较低，几乎可以在任何地方运行：从私有网络中的本地服务器到医生或检查员的设备。根据 IDC 的预测，到 2028 年，将有超过 9 亿部智能手机能够在本地运行生成式 AI 模型。

3.新法规更新与调整

法规和法律经常变化——紧凑型模型可以在几小时内而不是几天内进行微调或调整。这使得能够快速响应新要求，而无需大规模升级基础设施，而这通常是大型LLM的常见做法。

4.分布式安全架构

与 LLM 的单体架构不同，LLM 的所有安全组件都“嵌入”在一个大型模型中，而 SLM 则支持创建分布式安全系统。每个组件：

专注于某项特定任务。
可以独立更新和测试。
与其他的分开缩放。

例如，医疗应用可以级联使用三种模型：

隐私守护者（2B）
——隐藏个人数据。
医疗验证器（3B）
——确保医疗准确性。
合规性检查器 (1B)
— 监控 HIPAA 合规性。

较小的模型更容易验证和更新，使得整体架构更加灵活和可靠。

https://miro.medium.com/v2/resize:fit:1250/1*p1sVkYTELnocYetHhWr-rQ.png

数据隐私功能的比较。

?提示：如果您在监管严格的领域运营，请考虑使用 SLM。密切关注数据传输政策和监管环境的变化频率。如果您的专业领域是医疗保健、金融或法律，我建议您使用 SLM。

人工智能代理：完美用例

还记得古老的Unix 哲学吗：“专心做好一件事”？现在，在人工智能的背景下，我们似乎又回到了这一原则。

Ilya Sutskever 最近在 NeurIPS 上发表的声明“我们所熟知的预训练必将终结”，下一代模型将“以真实的方式实现代理”，这恰恰证实了这一趋势。Y Combinator 甚至走得更远，预测AI 代理可以创造一个比 SaaS 大 10 倍的市场。

例如，目前已有12% 的企业解决方案使用基于代理的架构。此外，分析师预测，代理将成为人工智能转型的下一波浪潮，不仅会影响 4000 亿美元的软件市场，还会影响10 万亿美元的美国服务业经济。

而 SML 正是这一角色的理想人选。也许一个模型非常有限，但一群这样的模型可以逐步解决复杂任务。更快、更高质量、更便宜。

让我们举一个具体的例子：假设您正在构建一个分析财务文件的系统。您可以将任务分解为几个专门的代理，而不是使用一个大型模型：

https://miro.medium.com/v2/resize:fit:1250/1*sfZW1xsUHe0R4Bub1CHBcg.png

专业代理之间的信息流示例。

这种方法不仅更具成本效益，而且更可靠：每个代理都专注于自己最擅长的领域。更便宜。更快。更好。是的，我再说一遍。

为了支持这一点，让我列举几家公司：

H 公司
在种子轮融资中筹集了 1 亿美元，用于开发基于 SLM（2-3B 参数）的多智能体系统。他们的智能体 Runner H（3B）的任务完成率达到 67%，而 Anthropic 的 Computer Use 任务完成率仅为 52%，而且成本都大幅降低。
Liquid AI
最近获得了 2.5 亿美元的融资，专注于构建高效的企业模型。他们的模型（13 亿个参数）的表现优于所有现有类似规模的模型。同时，他们的 LFM-3B 的性能与 7 亿甚至 13 亿个模型相当，但所需的内存更少。
Cohere
推出了 Command R7B，这是一种专门用于 RAG 应用程序的模型，甚至可以在 CPU 上运行。该模型支持 23 种语言并与外部工具集成，在推理和问答任务中表现出一流的效果。
您的公司名称
也可以加入此列表。我不仅仅是这么说——在Reforma Health，我所在的公司正在为各种医疗领域开发专门的 SLM。这一决定是出于遵守 HIPAA 要求和医疗信息处理细节的需要。我们的经验表明，高度专业化的 SLM 可以带来显著的竞争优势，尤其是在受监管的领域。

这些例子强调了以下几点：

投资者
对专业化小模型的未来充满信心。
企业客户愿意
为不需要将数据发送给外部提供商的高效解决方案付费。
市场正在转向“智能”专业代理，而不是依赖“通用”大型模型。

?提示：首先确定项目中的重复任务。这些是开发专门的 SLM 代理的最佳候选者。这种方法将帮助您避免为 LLM 的过高功能支付过多费用，并更好地控制流程。

与LLM (LLM) 相比，SLM 的潜在局限性

尽管我在整篇文章中都在赞扬小型模型，但公平地指出它们的局限性也是合理的。

1. 任务灵活性有限

SLM 最大的限制在于其专业化程度狭窄。与能够处理广泛任务的 LLM 不同，SLM 只能在经过训练的特定任务中取得成功。例如，在医学领域，Diabetica-7B 在糖尿病相关测试中的表现优于 LLM，但其他医学学科则需要额外的微调或新的架构。

https://miro.medium.com/v2/resize:fit:1250/1*tTvdyh9qyi9H8hYRELEYBw.png

2. 上下文窗口限制

与达到 1M 个 token 的大型模型（Gemini 2.0）不同，SLM 的上下文较短。尽管小型 LLaMA 3.2 模型（3B、1B）的上下文长度达到 128k 个 token，但实际上下文长度通常并不像声称的那样：模型通常会丢失文本开头和结尾之间的“联系”。例如，SLM 无法有效处理患者多年来的大量病史或大型法律文件。

https://miro.medium.com/v2/resize:fit:875/1*fqVg3pFx1eoYTrfbvP6xGA.png

3. 应急能力差距

许多“突发能力”只有当模型达到一定规模阈值时才会出现。SLM通常达不到高级逻辑推理或深度语境理解所需的参数水平。Google Research 的一项研究通过数学应用题证明了这一点：虽然小模型难以进行基本算术运算，但较大的模型却突然展现出复杂的数学推理能力。

然而，Hugging Face 最近的研究表明，测试时计算扩展可以部分弥补这一差距。使用迭代自我改进或采用奖励模型等策略，小型模型可以对复杂问题“思考更长时间”。例如，随着生成时间的延长，小型模型（1B 和 3B）在 MATH-500 基准上的表现优于大型模型（8B 和 70B）。

?提示：如果您的工作环境中的任务每周都会发生变化、需要分析大型文档或涉及解决复杂的逻辑问题，那么更大的 LLM 通常更可靠、用途更广泛。

结束语

正如我在上一篇文章中提到的在 OpenAI 和自托管 LLM之间进行选择一样，这里没有一刀切的解决方案。如果你的任务涉及不断变化、缺乏精确的专业化或需要快速原型设计，LLM 将提供一个简单的开始。

然而，随着时间的推移，您的目标变得更加清晰，转向紧凑、专业化的SLM 代理可以显著降低成本、提高准确性并简化对监管要求的遵守。