我要投稿

为什么你需要了解小型语言模型

发布日期：2024-08-27 07:54:33 浏览次数： 1936 作者：barry的异想世界

AI效率与精确度的未来

大型语言模型（LLMs）就像游轮。

游轮为各种兴趣提供多种活动。举几个例子，你几乎可以享受任何种类的食物、现场娱乐、电影院、夜总会、水上乐园、特定年龄的俱乐部、零售购物以及各种体育赛事。

但如果我想去钓鱼，我不会预订游轮旅行，我会租一艘小型摩托艇，因为它们更灵活。

如果我想去滑水，我会选择一艘专为速度和浪花冲浪设计的滑水船。

这是小模型和大模型之间区别的一个很好的比喻。LLMs是通用的体验，几乎可以满足任何需求。它相当于访问整个网络。

但小型语言模型（SLMs）可以更高效和更有针对性。

什么是小型语言模型（SLMs）？

让我们先来定义一下SLMs的含义。

SLMs的大小主要由其包含的参数数量来定义，而语言模型中的参数是模型在训练过程中调整的旋钮和杠杆，用于生成预测。

像GPT4o这样的LLMs据说参数数量达到万亿级别。例如，Gemini Ultra大约有5000亿个参数，而新发布的开源Llama 405b正是这样——4050亿个参数。

当AI模型公司现在发布新模型时，它们往往会分层发布——通常会有大型、中型和小型版本的模型。

“小型”的定义可能会因大型模型的大小而有所不同，但可以安全地说，小型语言模型（SLMs）可以被视为任何参数少于100亿的模型。

以下是一些例子：

Meta的Llama 3.1（8B）
Google的Gemma（7B和2B）
Mistral（7B）
Microsoft的Phi-3小型（7B）、迷你（3.8B）和视觉（4.2B）
OpenAI GPT4o迷你（8B）
Anthropic Claude Haiku（?B）

除了GPT4o迷你和Haiku外，所有这些模型都可以作为开源使用，尽管它们并不是开源的，但可以用于微调。

这些模型需要提供给训练的原因是，这是SLMs的一个重要优势。

针对特定领域的定制精度

由于SLM可以针对特定领域的任务进行微调，因此对希望拥有自己定制模型的公司来说，它们非常具有吸引力。

微调一直以来都是LLM面临的挑战，因为需要大量的计算资源，更不用说成本了。随着SLM的出现，这种情况发生了变化——您可以使用单个高端GPU，如NVIDIA A100，对一个7B参数的模型进行微调。

公司可以创建一个针对特定领域的SLM，与他们自己的数据相一致，这在SLM的帮助下变得更加可控。老实说，这是每个公司都希望做到的，现在通过成本和效率的提升，这变得可能。

智能的低成本

当然，运行模型是有成本的，它们可能会消耗大量计算资源。标准的 GPT4o 定价为每百万个令牌（大约相当于一本标准书的 2500 页）输入 $5.00，输出 $15.00。

GPT-4o 输入 : $5.00 / 1M 令牌输出 : $15.00 / 1M 令牌

相比之下，以下是一些 SLM 的费用示例：

GPT-4o mini 输入 : $0.15 / 1M 令牌输出 : $0.60 / 1M 令牌

Claude Haiku 输入 : $0.25 / 1M 令牌输出 : $1.25 / 1M 令牌

Llama-3 8b (Groq) 输入 : $0.05 / 1M 令牌输出 : $0.08 / 1M 令牌

Gemini 1.5 Flash 输入 : $0.35 / 1M 令牌输出 : $1.05 / 1M 令牌

真疯狂，对吧？

当价格降到如此低的时候，AI 推理变得商品化，更多公司可以大规模发布 AI 产品。但当然，如果模型不可比或无法产生良好的输出，成本和性能就毫无意义。

当你查看下面的图表时，关注从右边数起第二个青色条，代表 GPT 3.5 Turbo。这个 LLM 一年前发布，而左侧的每个较小模型都远远超过了它。

那么这些 SLM 如何超越像 GPT 3.5 这样的 LLM？

这与数据的质量有关。

教科书就是你所需要的一切

在2023年5月，负责微软生成式AI研究的副总裁Sebastien Bubeck与他的团队进行了一个引人注目的研究。他们使用一种非常规的方法创建了一个名为“TinyStories”的数据集：

他们提示一个大型语言模型使用仅限的、精心挑选的词汇来编写儿童故事。

这种创造性的技术导致了非常小的语言模型的开发，参数仅约为1000万。尽管体积小，这些模型意外地生成了语法无误的连贯故事。

在这一成功的基础上，研究人员开发了一个更复杂的数据集，名为“CodeTextbook”，利用高质量的教育内容来训练Phi-1，一个更先进的SLM。

微软研究院在Phi-1上的工作强调了高质量数据在提高语言模型在代码生成任务中的有效性方面的重要作用。

这可以比作一本精心编写的教科书如何帮助学生理解新学科。通过开发精心策划的“教科书质量”数据，他们能够训练出一个在关键编码基准（如HumanEval和MBPP）上超越大多数开源模型的模型。

虽然Phi-1专注于代码生成，尤其是“Python编码”，但这证明了一个重要方面：

他们的模型在体积小十倍且使用的数据集小一百倍的情况下，仍然取得了卓越的表现。

边缘模型

小型语言模型（SLMs）的成功正在重塑人工智能模型的发展。虽然具有高级推理能力的大型模型仍在不断演进，但小型模型提供了一种有价值且独特的替代方案。

它们可以在您的设备上本地运行。

“SLMs 在 … 计算中具有独特优势，您无需去云端就能完成任务。”- Ece Kamar，微软研究实验室副总裁

智能手机、智能家居设备、可穿戴技术、汽车系统、个人电脑和平板电脑……基本上任何具有数字存储的设备都可以包含 SLMs。其优势不仅在于由于本地处理而实现的超快速度，还在于每个请求的隐私性。

SLMs 可能能够回答大多数请求的任务，但这种方法真正闪光的地方在于当有一个协调层可以在需要时利用更大型模型时。

因此，想法是请求最初由本地小型语言模型（SLM）处理，只有在需要时才路由到更强大的世界模型。这种方法类似于苹果正在实施的“Apple Intelligence”，尽管它使用的是专有架构。

谷歌刚刚发布了运行 Gemini 多模态 Nano SLM 的谷歌 Pixel 9，原生在设备上运行。它在 Tensor G4 芯片上每秒处理 45 个标记。

这意味着所有在设备上的 AI 应用和功能都非常快速，并且也很私密。

如果计划是将语言模型真正交到用户手中（字面意义上），那么没有比智能手机设备更接近的了。

未来是小型的

如果你听听像马克·扎克伯格这样的人工智能创新者和企业家谈论人工智能的未来，他们通常会提到，人工智能的未来将不是一个单一的大型前沿模型，而是数百万个在边缘运行的SLM的协调。

未来看起来非常像是在边缘设备上运行的小型模型，配备了人工智能功能。低延迟、快速性能、安全，最重要的是，与其他语言模型联网。代理可能会根据用户请求协调网络。

这些设备将包括你佩戴的眼镜、手腕上的手表或耳朵里的耳机。

模型的未来可能是小型的，但用户体验将是丰富而广泛的。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-04-13

Ollama部署大模型以及配置外部访问

2025-04-13

企业私有化 LLM 应用开发路径：从技术跟风到业务驱动

2025-04-13

本地部署大语言模型指南

2025-04-13

深入浅出大模型：大模型预训练、后训练、微调

2025-04-13

Cursor最新版本0.48太炸裂了

2025-04-12

什么是蒸馏技术

2025-04-12

30分钟开发完成！Trae+Claude 3.7 打造小程序全流程揭秘！

2025-04-11

6个MCP服务平台推荐，阿里百炼提供一键部署

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

一文读懂DeepSeek-R1本地部署配置要求（建议收藏）

2025-02-04

DeepSeek R1 671B 完整版本地部署教程来了！！！

2025-02-04

太爽了！o1 现在可以天天享用了

2024-09-18

万字综述 10+ 种 LLM 投机采样推理加速方案

2024-07-11

微调神器LLaMA-Factory官方保姆级教程来了，从环境搭建到模型训练评估全覆盖

2024-07-09

FP8 低精度训练：Transformer Engine 简析

2024-07-11

彻底理解系列之：FP32、FP16、TF32、BF16、混合精度

2024-07-26

别被Deepseek低成本冲昏头！本地化部署后续的“甜蜜陷阱”，你真能扛住吗？

2025-02-05

ollama 部署 deepseek-r1 70B 模型完整指南

2025-01-27

o3-mini 完全指南：一个被 DeepSeek 破大防的模型

2025-02-01

大家都在问

RAGFlow vs Dify, 商业化落地场景选哪个？

2025-04-01

如何利用Dify轻松构建你的专属语料库？

2025-03-31

从 0 到 1，Agentic Ops 如何打造企业级 AI 生产力？

2025-03-20

DeepSeek-R1的Qwen-32B蒸馏模型与QwQ-32B模型，谁更强？

2025-03-16

部署DeepSeek的4条路，企业级客户到底该咋走？

2025-03-16

谷歌Gemma 3 27b 到底能不能打，写个游戏测试下？

2025-03-13

强化学习(RL)是什么? 它和微调有什么区别?

2025-03-13

从DeepSeek到Manus：如何实现本地LLM微调+联网开发？

2025-03-11

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB