支持私有化部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


您的公司也许更需要小型语言模型

发布日期:2025-04-12 08:24:38 浏览次数: 1563 作者:数据驱动智能
推荐语

小型语言模型可能是AI领域的下一个突破。
核心内容:
1. 预训练大型模型的局限性和成本问题
2. 小型语言模型的优势和应用场景
3. 小型模型对环境的影响及经济成本分析

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家

“越大越好”——这一原则深深植根于人工智能世界。每个月都会有更大的模型被创建,参数也越来越多。公司甚至在为它们建造价值100 亿美元的人工智能数据中心。但这是唯一的方向吗?

在NeurIPS 2024 上, OpenAI 联合创始人之一 Ilya Sutskever 分享了一个观点:“我们所熟知的预训练必将终结”。看来,规模化的时代即将结束,这意味着是时候专注于改进当前的方法和算法了。

最有前景的领域之一是使用多达 100 亿个参数的小型语言模型 (SLM)。这种方法在业界真正开始流行起来。例如,Hugging Face 首席执行官 Clem Delangue预测高达 99% 的用例可以通过 SLM 解决。YC 最新对初创企业的招募也呈现出类似的趋势:

具有大量参数的巨型通用模型非常令人印象深刻。但它们的成本也非常高,并且经常带来延迟和隐私问题。

现在我们提出一个问题:你到底需要LLM吗?

https://miro.medium.com/v2/resize:fit:875/1*zKAccQMgafYQ3Jw6Lav0GQ.png

在本文中,将讨论为什么小型模型可能是您的业务所需的解决方案。我们将讨论它们如何降低成本、提高准确性并保持对数据的控制。当然,我们将坦诚地讨论它们的局限性。

成本效益

LLM的经济学可能是企业最头疼的话题之一。然而,这个问题要广泛得多:它包括对昂贵硬件的需求、基础设施成本、能源成本和环境后果。

是的,大型语言模型的能力令人印象深刻,但维护起来也非常昂贵。您可能已经注意到基于 LLM 的应用程序的订阅价格如何上涨?例如,OpenAI 最近宣布推出每月 200 美元的Pro 计划,这表明成本正在上涨。而且竞争对手也可能会将价格提高到这个水平。

Moxie 机器人的故事就是一个很好的例子。Embodied 使用 OpenAI API 以 800 美元的价格为孩子们打造了一款出色的陪伴机器人。尽管该产品取得了成功(孩子们每天发送 500-1000 条消息!),但由于 API 的运营成本过高,该公司还是倒闭了。现在,成千上万的机器人将变得毫无用处,孩子们将失去他们的朋友。

一种方法是针对特定领域微调专门的小语言模型。当然,它不会解决“世界上所有的问题”,但它可以完美地应对分配给它的任务。例如,分析客户文档或生成特定报告。同时,SLM 的维护成本更低,消耗的资源更少,需要的数据更少,并且可以在更普通的硬件上运行(最多智能手机)。

https://miro.medium.com/v2/resize:fit:875/1*3P3mu-1BPxd8CQEuHLEisg.png

不同参数数量模型的利用率比较。

最后,我们不要忘记环境。在《碳排放和大型神经网络训练》一文中,我发现了一些让我惊讶的有趣统计数据:训练具有 1750 亿个参数的 GPT-3 所消耗的电量相当于美国普通家庭 120 年的用电量。它还产生了 502 吨二氧化碳,相当于一百多辆汽油车的年运行量。这还不包括推理成本。相比之下,部署像7B 这样的较小模型所需的消耗量仅为较大模型的 5%。那么最新的o3 版本呢?

https://miro.medium.com/v2/resize:fit:875/1*4vLlpaAN5TqdI2IwlGwHsw.png

?提示:不要追逐炒作。在处理任务之前,请计算使用 API 或您自己的服务器的成本。考虑一下这种系统的扩展以及使用 LLM 的合理性。

专门任务上的表现

既然我们已经讨论了经济因素,那么让我们来谈谈质量。当然,很少有人愿意为了节省成本而牺牲解决方案的准确性。但即使在这里,SLM 也有一些优势。

https://miro.medium.com/v2/resize:fit:875/1*jqLUt6Omrv7Ofs0u2O59fg.png

。比较 SLM 与 LLM 在域内内容审核性能的准确度、召回率和精确度方面的表现。在所有子版块中,表现最佳的 SLM 在准确度和召回率方面均优于 LLM,而 LLM 在精确度方面则优于 SLM。

许多研究表明,对于高度专业化的任务,小型模型不仅可以与大型 LLM 相媲美,而且通常表现更佳。让我们看几个说明性示例:

  1. 医学:
    Diabetica-7B 模型(基于 Qwen2-7B)在糖尿病相关测试中实现了 87.2% 的准确率,而 GPT-4 的准确率仅为 79.17%,Claude-3.5 的准确率仅为 80.13%。尽管如此,Diabetica-7B 比 GPT-4 小几十倍,并且可以在消费级 GPU 上本地运行
  2. 法律领域:
     仅具有 0.2B 个参数的 SLM在合同分析中实现了 77.2% 的准确率(GPT-4 — 约 82.4%)。此外,对于识别用户协议中的“不公平”条款等任务, SLM在 F1 指标上的表现甚至优于 GPT-3.5 和 GPT-4 。
  3. 数学任务:
     Google DeepMind 的研究表明,使用另一个小模型生成的数据训练小模型 Gemma2–9B 比使用较大的 Gemma2–27B 的数据训练效果更好。较小的模型往往更关注细节,而不会“试图用所有知识来炫耀”,而这通常是较大模型的一个特点。
  4. 内容审核:在审核 15 个热门 subreddits 中的内容时, 
    LLaMA 3.1 8B在准确率(高出 11.5%)和召回率(高出 25.7%)方面均优于 GPT-3.5。即使使用 4 位量化,也能实现这一目标,这进一步减小了模型的大小。
https://miro.medium.com/v2/resize:fit:875/1*zAXHvq7CG1ejGruGhHi-1g.png

再进一步说,即使是经典的 NLP 方法也常常能出奇地有效。让我分享一个个人案例:我正在开发一款心理支持产品,我们每天处理来自用户的一千多条消息。他们可以在聊天中写下消息并得到回复。每条消息首先被分为四类之一:

https://miro.medium.com/v2/resize:fit:1250/1*hZlRhBgk4U1yvEK8biyjWw.png

消息分类方案。

  • SUPPORT— 关于应用程序如何运行的问题;我们使用文档来回答。
  • GRATITUDE— 用户感谢机器人;我们只需发送一个“赞”。
  • TRY_TO_HACK— 用户请求与应用程序目的无关的内容(例如“用 Python 编写一个函数”)。
  • OTHER— 所有其他消息,我们将进一步处理。

之前我使用 GPT-3.5-turbo 进行分类,后来改用 GPT-4o mini,花了很多时间更改提示。但是,我仍然遇到了错误。因此,我决定尝试一种经典方法:TF-IDF + 一个简单的分类器。训练用时不到一分钟,Macro F1 分数提高到 0.95(而 GPT-4o mini 为 0.92)。模型大小只有 76 MB,当应用于 200 万条已处理的消息(我们的实际数据)时,成本节省非常可观:基于 GPT 的解决方案的成本约为 500 美元,而经典方法几乎不花钱

https://miro.medium.com/v2/resize:fit:875/1*FFsb1ydsX35yw8aO0J3Gaw.png

我们的产品中就有好几个这样的“小”而简单的任务。我相信你们公司也会有同样的情况。当然,大型模型非常适合快速启动,尤其是在没有标记数据且需求不断变化的情况下。但对于定义明确、稳定的任务,准确性和最低成本是关键,专业而简单的模型(包括经典方法)通常可以成为更有效的解决方案。

?提示: 使用 LLM 进行原型设计,然后,一旦任务变得清晰和稳定,就切换到更小、更便宜、更准确的模型。这种混合方法有助于保持高质量,显著降低成本,并避免通用模型的冗余秒。

安全、隐私和监管

通过 API 使用 LLM,您将敏感数据交给外部提供商,这会增加泄露风险,并使遵守个人信息保护法、数据安全法、HIPAA、GDPR 和 CCPA 等严格法规变得更加复杂。OpenAI 最近宣布计划推出广告,这只会凸显这些风险。您的公司不仅会失去对其数据的完全控制权,而且还会依赖第三方 SLA。

当然,可以在本地运行 LLM,但部署和扩展的成本(数百 GB 的内存、多个 GPU)通常超出合理的经济限制,并且难以快速适应新的监管要求。而且您别想在低端硬件上启动它。

https://miro.medium.com/v2/resize:fit:1250/1*lsIIfmCxQg2qLB6E7xhyng.png

这就是“小模型”再次发挥作用的地方:

1.简化审计

SLM 规模越小,就越容易进行审计、验证和定制以满足特定法规。这样一来,您就更容易理解模型如何处理数据、实施自己的加密或日志记录,并向审计人员表明信息永远不会离开受信任的环境。作为一家医疗保健公司的创始人,我知道这项任务有多么具有挑战性和关键性。

2.在隔离和低端硬件上运行

LLM 很难在孤立的网络段或智能手机上高效地“部署”。然而,SLM 的计算要求较低,几乎可以在任何地方运行:从私有网络中的本地服务器到医生或检查员的设备。根据 IDC 的预测,到 2028 年,将有超过 9 亿部智能手机能够在本地运行生成式 AI 模型

3.新法规更新与调整

法规和法律经常变化——紧凑型模型可以在几小时内而不是几天内进行微调或调整。这使得能够快速响应新要求,而无需大规模升级基础设施,而这通常是大型LLM的常见做法。

4.分布式安全架构

与 LLM 的单体架构不同,LLM 的所有安全组件都“嵌入”在一个大型模型中,而 SLM 则支持创建分布式安全系统。每个组件:

  • 专注于某项特定任务。
  • 可以独立更新和测试。
  • 与其他的分开缩放。

例如,医疗应用可以级联使用三种模型:

  1. 隐私守护者(2B)
     ——隐藏个人数据。
  2. 医疗验证器(3B)
     ——确保医疗准确性。
  3. 合规性检查器 (1B)
     — 监控 HIPAA 合规性。

较小的模型更容易验证和更新,使得整体架构更加灵活和可靠。

https://miro.medium.com/v2/resize:fit:1250/1*p1sVkYTELnocYetHhWr-rQ.png

数据隐私功能的比较。

?提示:如果您在监管严格的领域运营,请考虑使用 SLM。密切关注数据传输政策和监管环境的变化频率。如果您的专业领域是医疗保健、金融或法律,我建议您使用 SLM。

人工智能代理:完美用例

还记得古老的Unix 哲学吗:“专心做好一件事”?现在,在人工智能的背景下,我们似乎又回到了这一原则。

Ilya Sutskever 最近在 NeurIPS 上发表的声明“我们所熟知的预训练必将终结”,下一代模型将“以真实的方式实现代理”,这恰恰证实了这一趋势。Y Combinator 甚至走得更远,预测AI 代理可以创造一个比 SaaS 大 10 倍的市场

例如,目前已有12% 的企业解决方案使用基于代理的架构。此外,分析师预测,代理将成为人工智能转型的下一波浪潮,不仅会影响 4000 亿美元的软件市场,还会影响10 万亿美元的美国服务业经济

而 SML 正是这一角色的理想人选。也许一个模型非常有限,但一群这样的模型可以逐步解决复杂任务。更快、更高质量、更便宜。

让我们举一个具体的例子:假设您正在构建一个分析财务文件的系统。您可以将任务分解为几个专门的代理,而不是使用一个大型模型:

https://miro.medium.com/v2/resize:fit:1250/1*sfZW1xsUHe0R4Bub1CHBcg.png

专业代理之间的信息流示例。

这种方法不仅更具成本效益,而且更可靠:每个代理都专注于自己最擅长的领域。更便宜。更快。更好。是的,我再说一遍。

为了支持这一点,让我列举几家公司:

  1. H 公司
    在种子轮融资中筹集了 1 亿美元,用于开发基于 SLM(2-3B 参数)的多智能体系统。他们的智能体 Runner H(3B)的任务完成率达到 67%,而 Anthropic 的 Computer Use 任务完成率仅为 52%,而且成本都大幅降低
  2. Liquid AI
    最近获得了 2.5 亿美元的融资,专注于构建高效的企业模型。他们的模型(13 亿个参数)的表现优于所有现有类似规模的模型。同时,他们的 LFM-3B 的性能与 7 亿甚至 13 亿个模型相当,但所需的内存更少。
  3. Cohere
    推出了 Command R7B,这是一种专门用于 RAG 应用程序的模型,甚至可以在 CPU 上运行。该模型支持 23 种语言并与外部工具集成,在推理和问答任务中表现出一流的效果。
  4. 您的公司名称
    也可以加入此列表。我不仅仅是这么说——在Reforma Health,我所在的公司正在为各种医疗领域开发专门的 SLM。这一决定是出于遵守 HIPAA 要求和医疗信息处理细节的需要。我们的经验表明,高度专业化的 SLM 可以带来显著的竞争优势,尤其是在受监管的领域。

这些例子强调了以下几点:

  • 投资者
    对专业化小模型的未来充满信心。
  • 企业客户愿意
    为不需要将数据发送给外部提供商的高效解决方案付费。
  • 市场正在转向“智能”专业代理,而不是依赖“通用”大型模型。

?提示:首先确定项目中的重复任务。这些是开发专门的 SLM 代理的最佳候选者。这种方法将帮助您避免为 LLM 的过高功能支付过多费用,并更好地控制流程。

与LLM (LLM) 相比,SLM 的潜在局限性

尽管我在整篇文章中都在赞扬小型模型,但公平地指出它们的局限性也是合理的。

1. 任务灵活性有限

SLM 最大的限制在于其专业化程度狭窄。与能够处理广泛任务的 LLM 不同,SLM 只能在经过训练的特定任务中取得成功。例如,在医学领域,Diabetica-7B 在糖尿病相关测试中的表现优于 LLM,但其他医学学科则需要额外的微调或新的架构。

https://miro.medium.com/v2/resize:fit:1250/1*tTvdyh9qyi9H8hYRELEYBw.png

2. 上下文窗口限制

与达到 1M 个 token 的大型模型(Gemini 2.0)不同,SLM 的上下文较短。尽管小型 LLaMA 3.2 模型(3B、1B)的上下文长度达到 128k 个 token,但实际上下文长度通常并不像声称的那样:模型通常会丢失文本开头和结尾之间的“联系”。例如,SLM 无法有效处理患者多年来的大量病史或大型法律文件。

https://miro.medium.com/v2/resize:fit:875/1*fqVg3pFx1eoYTrfbvP6xGA.png

3. 应急能力差距

许多“突发能力”只有当模型达到一定规模阈值时才会出现。SLM通常达不到高级逻辑推理或深度语境理解所需的参数水平。Google Research 的一项研究通过数学应用题证明了这一点:虽然小模型难以进行基本算术运算,但较大的模型却突然展现出复杂的数学推理能力。

然而,Hugging Face 最近的研究表明,测试时计算扩展可以部分弥补这一差距。使用迭代自我改进或采用奖励模型等策略,小型模型可以对复杂问题“思考更长时间”。例如,随着生成时间的延长,小型模型(1B 和 3B)在 MATH-500 基准上的表现优于大型模型(8B 和 70B)。

?提示:如果您的工作环境中的任务每周都会发生变化、需要分析大型文档或涉及解决复杂的逻辑问题,那么更大的 LLM 通常更可靠、用途更广泛。

结束语

正如我在上一篇文章中提到的在 OpenAI 和自托管 LLM之间进行选择一样,这里没有一刀切的解决方案。如果你的任务涉及不断变化、缺乏精确的专业化或需要快速原型设计,LLM 将提供一个简单的开始。

然而,随着时间的推移,您的目标变得更加清晰,转向紧凑、专业化的SLM 代理可以显著降低成本、提高准确性并简化对监管要求的遵守

https://miro.medium.com/v2/resize:fit:1250/1*p-xGO_pXU8qXKwekAsVw_A.png

SLM 不是为了追随潮流而进行的范式转变,而是一种务实的方法,它可以让您更准确、更经济高效地解决特定问题,而无需为不必要的功能付出过多的代价。您不需要完全放弃 LLM —您可以逐渐用 SLM甚至经典的 NLP 方法替换某些组件。这完全取决于您的指标、预算和任务的性质。

IBM 就是一个很好的例子,它采用了多模型策略,将较小的模型组合起来以完成不同的任务。正如他们指出的那样:

越大并不一定越好,因为专用模型的性能优于对基础设施要求较低的通用模型。

最后,成功的关键在于适应。从大型模型开始,评估其最佳表现,然后优化您的架构,以避免为不必要的功能支付过多费用并损害数据隐私。这种方法可以让您兼具两全其美的优势:LLM 在初始阶段的灵活性和多功能性,以及 SLM 在成熟产品中的精确、经济高效的性能。


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询