微信扫码
添加专属顾问
我要投稿
小型语言模型可能是AI领域的下一个突破。核心内容:1. 预训练大型模型的局限性和成本问题2. 小型语言模型的优势和应用场景3. 小型模型对环境的影响及经济成本分析
“越大越好”——这一原则深深植根于人工智能世界。每个月都会有更大的模型被创建,参数也越来越多。公司甚至在为它们建造价值100 亿美元的人工智能数据中心。但这是唯一的方向吗?
在NeurIPS 2024 上, OpenAI 联合创始人之一 Ilya Sutskever 分享了一个观点:“我们所熟知的预训练必将终结”。看来,规模化的时代即将结束,这意味着是时候专注于改进当前的方法和算法了。
最有前景的领域之一是使用多达 100 亿个参数的小型语言模型 (SLM)。这种方法在业界真正开始流行起来。例如,Hugging Face 首席执行官 Clem Delangue预测高达 99% 的用例可以通过 SLM 解决。YC 最新对初创企业的招募也呈现出类似的趋势:
具有大量参数的巨型通用模型非常令人印象深刻。但它们的成本也非常高,并且经常带来延迟和隐私问题。
现在我们提出一个问题:你到底需要LLM吗?
在本文中,将讨论为什么小型模型可能是您的业务所需的解决方案。我们将讨论它们如何降低成本、提高准确性并保持对数据的控制。当然,我们将坦诚地讨论它们的局限性。
成本效益
LLM的经济学可能是企业最头疼的话题之一。然而,这个问题要广泛得多:它包括对昂贵硬件的需求、基础设施成本、能源成本和环境后果。
是的,大型语言模型的能力令人印象深刻,但维护起来也非常昂贵。您可能已经注意到基于 LLM 的应用程序的订阅价格如何上涨?例如,OpenAI 最近宣布推出每月 200 美元的Pro 计划,这表明成本正在上涨。而且竞争对手也可能会将价格提高到这个水平。
Moxie 机器人的故事就是一个很好的例子。Embodied 使用 OpenAI API 以 800 美元的价格为孩子们打造了一款出色的陪伴机器人。尽管该产品取得了成功(孩子们每天发送 500-1000 条消息!),但由于 API 的运营成本过高,该公司还是倒闭了。现在,成千上万的机器人将变得毫无用处,孩子们将失去他们的朋友。
一种方法是针对特定领域微调专门的小语言模型。当然,它不会解决“世界上所有的问题”,但它可以完美地应对分配给它的任务。例如,分析客户文档或生成特定报告。同时,SLM 的维护成本更低,消耗的资源更少,需要的数据更少,并且可以在更普通的硬件上运行(最多智能手机)。
不同参数数量模型的利用率比较。
最后,我们不要忘记环境。在《碳排放和大型神经网络训练》一文中,我发现了一些让我惊讶的有趣统计数据:训练具有 1750 亿个参数的 GPT-3 所消耗的电量相当于美国普通家庭 120 年的用电量。它还产生了 502 吨二氧化碳,相当于一百多辆汽油车的年运行量。这还不包括推理成本。相比之下,部署像7B 这样的较小模型所需的消耗量仅为较大模型的 5%。那么最新的o3 版本呢?
?提示:不要追逐炒作。在处理任务之前,请计算使用 API 或您自己的服务器的成本。考虑一下这种系统的扩展以及使用 LLM 的合理性。
专门任务上的表现
既然我们已经讨论了经济因素,那么让我们来谈谈质量。当然,很少有人愿意为了节省成本而牺牲解决方案的准确性。但即使在这里,SLM 也有一些优势。
。比较 SLM 与 LLM 在域内内容审核性能的准确度、召回率和精确度方面的表现。在所有子版块中,表现最佳的 SLM 在准确度和召回率方面均优于 LLM,而 LLM 在精确度方面则优于 SLM。
许多研究表明,对于高度专业化的任务,小型模型不仅可以与大型 LLM 相媲美,而且通常表现更佳。让我们看几个说明性示例:
再进一步说,即使是经典的 NLP 方法也常常能出奇地有效。让我分享一个个人案例:我正在开发一款心理支持产品,我们每天处理来自用户的一千多条消息。他们可以在聊天中写下消息并得到回复。每条消息首先被分为四类之一:
消息分类方案。
之前我使用 GPT-3.5-turbo 进行分类,后来改用 GPT-4o mini,花了很多时间更改提示。但是,我仍然遇到了错误。因此,我决定尝试一种经典方法:TF-IDF + 一个简单的分类器。训练用时不到一分钟,Macro F1 分数提高到 0.95(而 GPT-4o mini 为 0.92)。模型大小只有 76 MB,当应用于 200 万条已处理的消息(我们的实际数据)时,成本节省非常可观:基于 GPT 的解决方案的成本约为 500 美元,而经典方法几乎不花钱。
我们的产品中就有好几个这样的“小”而简单的任务。我相信你们公司也会有同样的情况。当然,大型模型非常适合快速启动,尤其是在没有标记数据且需求不断变化的情况下。但对于定义明确、稳定的任务,准确性和最低成本是关键,专业而简单的模型(包括经典方法)通常可以成为更有效的解决方案。
?提示: 使用 LLM 进行原型设计,然后,一旦任务变得清晰和稳定,就切换到更小、更便宜、更准确的模型。这种混合方法有助于保持高质量,显著降低成本,并避免通用模型的冗余秒。
安全、隐私和监管
通过 API 使用 LLM,您将敏感数据交给外部提供商,这会增加泄露风险,并使遵守个人信息保护法、数据安全法、HIPAA、GDPR 和 CCPA 等严格法规变得更加复杂。OpenAI 最近宣布计划推出广告,这只会凸显这些风险。您的公司不仅会失去对其数据的完全控制权,而且还会依赖第三方 SLA。
当然,可以在本地运行 LLM,但部署和扩展的成本(数百 GB 的内存、多个 GPU)通常超出合理的经济限制,并且难以快速适应新的监管要求。而且您别想在低端硬件上启动它。
这就是“小模型”再次发挥作用的地方:
1.简化审计
SLM 规模越小,就越容易进行审计、验证和定制以满足特定法规。这样一来,您就更容易理解模型如何处理数据、实施自己的加密或日志记录,并向审计人员表明信息永远不会离开受信任的环境。作为一家医疗保健公司的创始人,我知道这项任务有多么具有挑战性和关键性。
2.在隔离和低端硬件上运行
LLM 很难在孤立的网络段或智能手机上高效地“部署”。然而,SLM 的计算要求较低,几乎可以在任何地方运行:从私有网络中的本地服务器到医生或检查员的设备。根据 IDC 的预测,到 2028 年,将有超过 9 亿部智能手机能够在本地运行生成式 AI 模型。
3.新法规更新与调整
法规和法律经常变化——紧凑型模型可以在几小时内而不是几天内进行微调或调整。这使得能够快速响应新要求,而无需大规模升级基础设施,而这通常是大型LLM的常见做法。
4.分布式安全架构
与 LLM 的单体架构不同,LLM 的所有安全组件都“嵌入”在一个大型模型中,而 SLM 则支持创建分布式安全系统。每个组件:
例如,医疗应用可以级联使用三种模型:
较小的模型更容易验证和更新,使得整体架构更加灵活和可靠。
数据隐私功能的比较。
?提示:如果您在监管严格的领域运营,请考虑使用 SLM。密切关注数据传输政策和监管环境的变化频率。如果您的专业领域是医疗保健、金融或法律,我建议您使用 SLM。
人工智能代理:完美用例
还记得古老的Unix 哲学吗:“专心做好一件事”?现在,在人工智能的背景下,我们似乎又回到了这一原则。
Ilya Sutskever 最近在 NeurIPS 上发表的声明“我们所熟知的预训练必将终结”,下一代模型将“以真实的方式实现代理”,这恰恰证实了这一趋势。Y Combinator 甚至走得更远,预测AI 代理可以创造一个比 SaaS 大 10 倍的市场。
例如,目前已有12% 的企业解决方案使用基于代理的架构。此外,分析师预测,代理将成为人工智能转型的下一波浪潮,不仅会影响 4000 亿美元的软件市场,还会影响10 万亿美元的美国服务业经济。
而 SML 正是这一角色的理想人选。也许一个模型非常有限,但一群这样的模型可以逐步解决复杂任务。更快、更高质量、更便宜。
让我们举一个具体的例子:假设您正在构建一个分析财务文件的系统。您可以将任务分解为几个专门的代理,而不是使用一个大型模型:
专业代理之间的信息流示例。
这种方法不仅更具成本效益,而且更可靠:每个代理都专注于自己最擅长的领域。更便宜。更快。更好。是的,我再说一遍。
为了支持这一点,让我列举几家公司:
这些例子强调了以下几点:
?提示:首先确定项目中的重复任务。这些是开发专门的 SLM 代理的最佳候选者。这种方法将帮助您避免为 LLM 的过高功能支付过多费用,并更好地控制流程。
与LLM (LLM) 相比,SLM 的潜在局限性
尽管我在整篇文章中都在赞扬小型模型,但公平地指出它们的局限性也是合理的。
1. 任务灵活性有限
SLM 最大的限制在于其专业化程度狭窄。与能够处理广泛任务的 LLM 不同,SLM 只能在经过训练的特定任务中取得成功。例如,在医学领域,Diabetica-7B 在糖尿病相关测试中的表现优于 LLM,但其他医学学科则需要额外的微调或新的架构。
2. 上下文窗口限制
与达到 1M 个 token 的大型模型(Gemini 2.0)不同,SLM 的上下文较短。尽管小型 LLaMA 3.2 模型(3B、1B)的上下文长度达到 128k 个 token,但实际上下文长度通常并不像声称的那样:模型通常会丢失文本开头和结尾之间的“联系”。例如,SLM 无法有效处理患者多年来的大量病史或大型法律文件。
3. 应急能力差距
许多“突发能力”只有当模型达到一定规模阈值时才会出现。SLM通常达不到高级逻辑推理或深度语境理解所需的参数水平。Google Research 的一项研究通过数学应用题证明了这一点:虽然小模型难以进行基本算术运算,但较大的模型却突然展现出复杂的数学推理能力。
然而,Hugging Face 最近的研究表明,测试时计算扩展可以部分弥补这一差距。使用迭代自我改进或采用奖励模型等策略,小型模型可以对复杂问题“思考更长时间”。例如,随着生成时间的延长,小型模型(1B 和 3B)在 MATH-500 基准上的表现优于大型模型(8B 和 70B)。
?提示:如果您的工作环境中的任务每周都会发生变化、需要分析大型文档或涉及解决复杂的逻辑问题,那么更大的 LLM 通常更可靠、用途更广泛。
结束语
正如我在上一篇文章中提到的在 OpenAI 和自托管 LLM之间进行选择一样,这里没有一刀切的解决方案。如果你的任务涉及不断变化、缺乏精确的专业化或需要快速原型设计,LLM 将提供一个简单的开始。
然而,随着时间的推移,您的目标变得更加清晰,转向紧凑、专业化的SLM 代理可以显著降低成本、提高准确性并简化对监管要求的遵守。
SLM 不是为了追随潮流而进行的范式转变,而是一种务实的方法,它可以让您更准确、更经济高效地解决特定问题,而无需为不必要的功能付出过多的代价。您不需要完全放弃 LLM —您可以逐渐用 SLM甚至经典的 NLP 方法替换某些组件。这完全取决于您的指标、预算和任务的性质。
IBM 就是一个很好的例子,它采用了多模型策略,将较小的模型组合起来以完成不同的任务。正如他们指出的那样:
越大并不一定越好,因为专用模型的性能优于对基础设施要求较低的通用模型。
最后,成功的关键在于适应。从大型模型开始,评估其最佳表现,然后优化您的架构,以避免为不必要的功能支付过多费用并损害数据隐私。这种方法可以让您兼具两全其美的优势:LLM 在初始阶段的灵活性和多功能性,以及 SLM 在成熟产品中的精确、经济高效的性能。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-04-13
微软PIKE-RAG开源:L0 到 L4级分阶段系统构建策略
2025-04-13
15个最佳开源 RAG 框架选型指南
2025-04-13
微软开源用于专业领域问题的RAG系统:PIKE-RAG
2025-04-13
Firecrawl深度之基础刨析篇
2025-04-12
2025年值得关注的21个RAG开源项目
2025-04-12
元老级自动化 AI 工作流平台 n8n 简介|安装n8n指南
2025-04-12
阿里达摩院开源的AI组件ChatUI,效果不错可以了解
2025-04-12
Refly正式发布 v0.5.0完全开源,自由画布进入强「知识库」时代!
2025-01-01
2024-07-25
2025-01-21
2024-05-06
2024-09-20
2024-07-20
2024-06-12
2024-07-11
2024-08-13
2024-12-26
2025-04-10
2025-04-07
2025-04-03
2025-04-03
2025-04-03
2025-04-01
2025-03-31
2025-03-25