微信扫码
与创始人交个朋友
我要投稿
今年年初开始,ChatGPT、Kimi、文心一言、抖音豆包等聊天产品在互联网爆火,所有这些 AI 聊天机器人,都是基于大语言模型,通过特定的训练来实现人机对话的。
对于非人工智能从业者而言,如何理解“模型”?今天小野就用大白话给大家整明白什么是“模型”和“训练”,搞懂“大模型”背后的奥秘。
01
现在在 AI 领域中大火的“模型”概念,其实跟乐高积木模型非常相似,它们都是现实世界的一个缩影,是我们对这个世界的一种理解。
比如恐龙,没有人真的见过恐龙,所以无论是乐高积木,还是经典的电影《侏罗纪公园》,这里面的“恐龙”都是模型,是人类对真实的恐龙生物的一种猜测和理解。
“训练模型”就是“学习现有知识并理解世界”的过程。比如恐龙模型来源于各种现实世界的证据:
化石记录:比如发掘出的骨骼化石;
生物学知识:借鉴对现存的生物(比如鸟类、鳄鱼),对恐龙进行推断;
地球化学:比如树木年轮可以揭示当时的气候条件,便于我们理解恐龙存在时的环境。
......
根据这些证据,科学家们可以学到关于恐龙的知识,比如体型、习性等,然后复原恐龙外观。
以棘龙为例,在发掘棘龙的化石后,科学家根据骨骼的表面结构、现存“恐龙近亲”动物(比如鸟类和鳄鱼)的肌肉等知识,了解棘龙并勾勒它的形态。
根据 1900 年以前发掘的棘龙化石,20 世纪初,科学家们得到了第一个棘龙模型:
(因此棘龙的英文 Spinosaurus 也意为“有棘的蜥蜴”,确实是很像...)
然而,在 20 世纪 90 年代末,棘龙的上颌化石被发掘,这个棘龙颌骨与鳄鱼颌骨有更多相似之处,表明棘龙的嘴应该更像鳄鱼,而不是蜥蜴。
因此棘龙模型也迎来了升级:
一个好的模型在面对从未见过的实据时,也应该适用——显然我们的 20 世纪模型(黄色)并没有很好,因为它与新化石“鳄鱼般的上颌”产生了冲突,因此这个模型被优化成为了右边的棘龙模型(蓝色)。
20 世纪之前的化石是初版模型的“训练数据”,即构成这个模型的数据;这个模型出现之后的化石就是“验证数据”,用于检验这个模型是否正确——这两个分类也是 AI 模型的数据分类。
所有模型都会经历上面的阶段:训练-建模-验证-模型优化,如果这个优化过程多次发生,我们称为“模型迭代”。棘龙模型也经历了 100 年的迭代:
棘龙模型的迭代揭示了所有的模型(包括计算机的模型概念)的共性:不断出现的证据帮助我们学习并贴近“真相”,但模型永远不会等同于真相。
02
总的来说,“模型”就是我们对真实世界的一种理解,“训练”就是这个理解和学习的过程。
这个解释对于计算机模型而言同样适用。
比如我们想要把棘龙放到电影《侏罗纪公园》里,就需要给计算机提供物体光影数据、肌肉数据、纹理材质等数据,让计算机学习和计算,获得一个动态棘龙模型:
一般来说,数据越多,模型越贴近真实世界的模样——这也是为什么现在基于大模型做出来的聊天机器人这么像真人,因为这些模型背后是海量的数据(这也是大模型为什么叫“大”模型)。
但由于计算机建模是需要“计算”的,因此模型的效果也受到载体计算机性能的影响。这也就是为什么你和 Kimi、豆包聊天必须联网,因为它们的载体实际上是远端更专业的计算机,个人设备很难实现很真实的模型效果。
比如在游戏中,由于个人电脑性能有限且需要画面实时加载,因此棘龙模型比较“假”:
而在电影《侏罗纪公园》中,棘龙打架不再“穿模”,可以正确用嘴而咬到对方(而不是上图中的“脖子咬人”),打斗效果更逼真:
这也是为什么开源的聊天机器人常常提供多个版本——比如我们之前介绍的大模型 Llama 3 就有 8 B 参数和 70 B 参数两个版本的模型,因为参数越少意味着需要更低的计算机性能,个人电脑也更可能负担得起。如果模型的参数很大,就需要超级计算机了。
棘龙的例子帮我们理解了通用的模型概念:“模型”就是我们对真实世界的一种理解,“训练”就是这个理解和学习的过程。
但是不同的模型实际上有不同的训练/学习办法,比如过去十年大火的“机器学习”、“神经网络”、现在大模型中更常见的“深度学习”、“无监督学习”等······选择正确的方法会让模型训练事半功倍。在后续的文章中,我们会继续介绍它们。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-03-30
2024-04-26
2024-05-10
2024-04-12
2024-05-28
2024-05-14
2024-04-25
2024-07-18
2024-04-26
2024-05-06
2024-12-22
2024-12-21
2024-12-21
2024-12-21
2024-12-21
2024-12-20
2024-12-20
2024-12-19