AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


关于Llama3.1模型简要总结及启示
发布日期:2024-07-25 19:08:16 浏览次数: 2133


今天凌晨Meta公司发布了史上最强的开源大模型,Llama3.1 405B模型,今天总结一下关于Llama3.1的一些关键点,以及对我们的启示。



首先总结一下关于 LLAMA3.1的特点



第一个最重要的特点当然是目前为止最大最有效的开源模型,拥有4050亿参数,模型是可以直接对标GPT4(目前最好的闭源大模型)。从参数的级别来讲,我们知道 GPT 3.5 拥有 1700 多亿的参数,GPT 4 是一个万亿级别的参数,这样一个模型提出到底给我们什么样的一些启示呢?


很直观的来讲,它重新会开启开源和闭源模型之间的竞争。



我们知道在405B模型出来之前,我们基本上认为是开源要落后于闭源的,而且基于开源的模型进行模型微调得出来的新模型,效果很多时候还是不如GPT4。有了我们最新的Llama模型之后,这样的一个格局是否会彻底的被改变?因为目前的LLAMA3.1 模型实际上它的性能是可以跟 GPT 4 可以媲美。所以在它的基础上我们进行了模型的微调或者一些调整,就有可能在一些领域上它的性能会超过 GPT 4,这其实对开发者来讲是一个非常好的消息。



第二个启示就是中文大模型,其实我们知道国内很多的大模型的构建极大地参考了 LLAMA3.1模型,比如说 LLAMA3.1 的架构或者是基于 LLAMA3.1接着去训练,或者基于 LLAMA3.1 做了一些模型的蒸馏,从这个观点来看, LLAMA3.1 1405 B 模型的诞生有可能会极大的加速我们中文大模型开发的进度,虽然目前发布的模型主要以英文为主,对中文是不太友好,但是可以通过一些像持续训练的方法。可以把这样的一个有效的模型造为有效的中文大模型。



第二个特点, Meta 同步发布了新的8 B,还有 70B 的模型,以及所有这些模型,它支持 128 K 的上下文。这里值得关注的一点是,新发布的 8B 和 70B模型要比同类参数的模型要高出一个等级,而且 128 K 的上下文大小其实满足了我们绝大多数的需求。



第三个特点是强调了数据的重要性,除了模型的发布,它也公开了非常完整的94页的技术报告,然后在这个报告里涵盖了非常详细的跟数据相关的细节。比如说数据的准备、数据处理、数据收集,以及如何用 AI 的方法来大量的去构造一些数据,而且这里提到的很多的数据上的一些细节方案,可以用在我们对模型的微调的过程里面,所以这个技术报告非常有价值。



总结一下 LLAMA3.1405B 模型成功的主要原因



也就是什么样的一些背后的技术或者手段促使它的性能能够去跟 GPT 4 媲美?



第一个也是最重要的就是模型的大小。这个跟scaling law是相关的,也就是随着我们把模型变得越来越大,它的整个的性能也会变得越来越好。



第二个数据大小,就是用于训练模型的数据量,对于 405 B 的模型来讲,我们总共使用了 15T 的token。然后相反,在 LLAMA2里面其实使用到的仅仅是 1.8T 的token。



除了模型大小和数据大小。



第三个就是数据上的一些工作,如果我们仔细看他发布的技术报告,我们会发现里面大量的篇幅其实在讲数据,包括怎么去收集数据,怎么去处理数据,以及怎么去构造数据,所以这里就涉及到很多跟数据清洗,还有就是数据的构造,包括配比等工作,这些对模型最后的效果会产生非常重要的影响。



第四点从模型的结构来讲,实际上新的模型它跟旧的模型相比没有本质的区别,所以在结构上是看不出太多的创新点。



第五点就是定向能力的提升,为了让训练出来的大模型它具备像数学能力,还有推理能力、写代码能力以及能够灵活地调用各类工具的能力。在技术报告里面我们可以看出他们做了大量的工作,那这里有些能力的提升,他们专注在模型的后训练上,然后另一批能力的提升,它既考虑模型的预训练,也考虑模型的后训练



但是不管怎么样,这些能力的提升的重点还是在于数据本身上,比如说我们收集什么样的数据,然后对这些数据我们怎么去处理,然后怎么去筛选出高质量的数据来训练相应的能力。所以从这几点可以看出,几乎所有的重点工作在于数据上,就是把模型变大,然后我们在数据上做更多的工作,从而得到一些更高质量的数据。以上是针对于LLAMA3.1 系列大模型的简单的总结,所以说了这么多,其实核心还是数据。


53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询