微信扫码
与创始人交个朋友
我要投稿
大型语言模型(LLMs)就像游轮。
游轮为各种兴趣提供多种活动。举几个例子,你几乎可以享受任何种类的食物、现场娱乐、电影院、夜总会、水上乐园、特定年龄的俱乐部、零售购物以及各种体育赛事。
但如果我想去钓鱼,我不会预订游轮旅行,我会租一艘小型摩托艇,因为它们更灵活。
如果我想去滑水,我会选择一艘专为速度和浪花冲浪设计的滑水船。
这是小模型和大模型之间区别的一个很好的比喻。LLMs是通用的体验,几乎可以满足任何需求。它相当于访问整个网络。
但小型语言模型(SLMs)可以更高效和更有针对性。
让我们先来定义一下SLMs的含义。
SLMs的大小主要由其包含的参数数量来定义,而语言模型中的参数是模型在训练过程中调整的旋钮和杠杆,用于生成预测。
像GPT4o这样的LLMs据说参数数量达到万亿级别。例如,Gemini Ultra大约有5000亿个参数,而新发布的开源Llama 405b正是这样——4050亿个参数。
当AI模型公司现在发布新模型时,它们往往会分层发布——通常会有大型、中型和小型版本的模型。
“小型”的定义可能会因大型模型的大小而有所不同,但可以安全地说,小型语言模型(SLMs)可以被视为任何参数少于100亿的模型。
以下是一些例子:
Meta的Llama 3.1(8B)
Google的Gemma(7B和2B)
Mistral(7B)
Microsoft的Phi-3小型(7B)、迷你(3.8B)和视觉(4.2B)
OpenAI GPT4o迷你(8B)
Anthropic Claude Haiku(?B)
除了GPT4o迷你和Haiku外,所有这些模型都可以作为开源使用,尽管它们并不是开源的,但可以用于微调。
这些模型需要提供给训练的原因是,这是SLMs的一个重要优势。
由于SLM可以针对特定领域的任务进行微调,因此对希望拥有自己定制模型的公司来说,它们非常具有吸引力。
微调一直以来都是LLM面临的挑战,因为需要大量的计算资源,更不用说成本了。随着SLM的出现,这种情况发生了变化——您可以使用单个高端GPU,如NVIDIA A100,对一个7B参数的模型进行微调。
公司可以创建一个针对特定领域的SLM,与他们自己的数据相一致,这在SLM的帮助下变得更加可控。老实说,这是每个公司都希望做到的,现在通过成本和效率的提升,这变得可能。
当然,运行模型是有成本的,它们可能会消耗大量计算资源。标准的 GPT4o 定价为每百万个令牌(大约相当于一本标准书的 2500 页)输入 $5.00,输出 $15.00。
GPT-4o 输入 : $5.00 / 1M 令牌 输出 : $15.00 / 1M 令牌
相比之下,以下是一些 SLM 的费用示例:
GPT-4o mini 输入 : $0.15 / 1M 令牌 输出 : $0.60 / 1M 令牌
Claude Haiku 输入 : $0.25 / 1M 令牌 输出 : $1.25 / 1M 令牌
Llama-3 8b (Groq) 输入 : $0.05 / 1M 令牌 输出 : $0.08 / 1M 令牌
Gemini 1.5 Flash 输入 : $0.35 / 1M 令牌 输出 : $1.05 / 1M 令牌
真疯狂,对吧?
当价格降到如此低的时候,AI 推理变得商品化,更多公司可以大规模发布 AI 产品。但当然,如果模型不可比或无法产生良好的输出,成本和性能就毫无意义。
当你查看下面的图表时,关注从右边数起第二个青色条,代表 GPT 3.5 Turbo。这个 LLM 一年前发布,而左侧的每个较小模型都远远超过了它。
那么这些 SLM 如何超越像 GPT 3.5 这样的 LLM?
这与数据的质量有关。
在2023年5月,负责微软生成式AI研究的副总裁Sebastien Bubeck与他的团队进行了一个引人注目的研究。他们使用一种非常规的方法创建了一个名为“TinyStories”的数据集:
他们提示一个大型语言模型使用仅限的、精心挑选的词汇来编写儿童故事。
这种创造性的技术导致了非常小的语言模型的开发,参数仅约为1000万。尽管体积小,这些模型意外地生成了语法无误的连贯故事。
在这一成功的基础上,研究人员开发了一个更复杂的数据集,名为“CodeTextbook”,利用高质量的教育内容来训练Phi-1,一个更先进的SLM。
微软研究院在Phi-1上的工作强调了高质量数据在提高语言模型在代码生成任务中的有效性方面的重要作用。
这可以比作一本精心编写的教科书如何帮助学生理解新学科。通过开发精心策划的“教科书质量”数据,他们能够训练出一个在关键编码基准(如HumanEval和MBPP)上超越大多数开源模型的模型。
虽然Phi-1专注于代码生成,尤其是“Python编码”,但这证明了一个重要方面:
他们的模型在体积小十倍且使用的数据集小一百倍的情况下,仍然取得了卓越的表现。
小型语言模型(SLMs)的成功正在重塑人工智能模型的发展。虽然具有高级推理能力的大型模型仍在不断演进,但小型模型提供了一种有价值且独特的替代方案。
它们可以在您的设备上本地运行。
“SLMs 在 … 计算中具有独特优势,您无需去云端就能完成任务。”- Ece Kamar,微软研究实验室副总裁
智能手机、智能家居设备、可穿戴技术、汽车系统、个人电脑和平板电脑……基本上任何具有数字存储的设备都可以包含 SLMs。其优势不仅在于由于本地处理而实现的超快速度,还在于每个请求的隐私性。
SLMs 可能能够回答大多数请求的任务,但这种方法真正闪光的地方在于当有一个协调层可以在需要时利用更大型模型时。
因此,想法是请求最初由本地小型语言模型(SLM)处理,只有在需要时才路由到更强大的世界模型。这种方法类似于苹果正在实施的“Apple Intelligence”,尽管它使用的是专有架构。
谷歌刚刚发布了运行 Gemini 多模态 Nano SLM 的谷歌 Pixel 9,原生在设备上运行。它在 Tensor G4 芯片上每秒处理 45 个标记。
这意味着所有在设备上的 AI 应用和功能都非常快速,并且也很私密。
如果计划是将语言模型真正交到用户手中(字面意义上),那么没有比智能手机设备更接近的了。
如果你听听像马克·扎克伯格这样的人工智能创新者和企业家谈论人工智能的未来,他们通常会提到,人工智能的未来将不是一个单一的大型前沿模型,而是数百万个在边缘运行的SLM的协调。
未来看起来非常像是在边缘设备上运行的小型模型,配备了人工智能功能。低延迟、快速性能、安全,最重要的是,与其他语言模型联网。代理可能会根据用户请求协调网络。
这些设备将包括你佩戴的眼镜、手腕上的手表或耳朵里的耳机。
模型的未来可能是小型的,但用户体验将是丰富而广泛的。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-09-18
2024-07-11
2024-07-11
2024-07-26
2024-07-09
2024-06-11
2024-10-20
2024-07-20
2024-09-02
2024-07-12