微信扫码
与创始人交个朋友
我要投稿
今天凌晨Meta公司发布了史上最强的开源大模型,Llama3.1 405B模型,今天总结一下关于Llama3.1的一些关键点,以及对我们的启示。
首先总结一下关于 LLAMA3.1的特点
第一个最重要的特点当然是目前为止最大最有效的开源模型,拥有4050亿参数,模型是可以直接对标GPT4(目前最好的闭源大模型)。从参数的级别来讲,我们知道 GPT 3.5 拥有 1700 多亿的参数,GPT 4 是一个万亿级别的参数,这样一个模型提出到底给我们什么样的一些启示呢?
很直观的来讲,它重新会开启开源和闭源模型之间的竞争。
我们知道在405B模型出来之前,我们基本上认为是开源要落后于闭源的,而且基于开源的模型进行模型微调得出来的新模型,效果很多时候还是不如GPT4。有了我们最新的Llama模型之后,这样的一个格局是否会彻底的被改变?因为目前的LLAMA3.1 模型实际上它的性能是可以跟 GPT 4 可以媲美。所以在它的基础上我们进行了模型的微调或者一些调整,就有可能在一些领域上它的性能会超过 GPT 4,这其实对开发者来讲是一个非常好的消息。
第二个启示就是中文大模型,其实我们知道国内很多的大模型的构建极大地参考了 LLAMA3.1模型,比如说 LLAMA3.1 的架构或者是基于 LLAMA3.1接着去训练,或者基于 LLAMA3.1 做了一些模型的蒸馏,从这个观点来看, LLAMA3.1 1405 B 模型的诞生有可能会极大的加速我们中文大模型开发的进度,虽然目前发布的模型主要以英文为主,对中文是不太友好,但是可以通过一些像持续训练的方法。可以把这样的一个有效的模型造为有效的中文大模型。
第二个特点, Meta 同步发布了新的8 B,还有 70B 的模型,以及所有这些模型,它支持 128 K 的上下文。这里值得关注的一点是,新发布的 8B 和 70B模型要比同类参数的模型要高出一个等级,而且 128 K 的上下文大小其实满足了我们绝大多数的需求。
第三个特点是强调了数据的重要性,除了模型的发布,它也公开了非常完整的94页的技术报告,然后在这个报告里涵盖了非常详细的跟数据相关的细节。比如说数据的准备、数据处理、数据收集,以及如何用 AI 的方法来大量的去构造一些数据,而且这里提到的很多的数据上的一些细节方案,可以用在我们对模型的微调的过程里面,所以这个技术报告非常有价值。
总结一下 LLAMA3.1405B 模型成功的主要原因
也就是什么样的一些背后的技术或者手段促使它的性能能够去跟 GPT 4 媲美?
第一个也是最重要的就是模型的大小。这个跟scaling law是相关的,也就是随着我们把模型变得越来越大,它的整个的性能也会变得越来越好。
第二个数据大小,就是用于训练模型的数据量,对于 405 B 的模型来讲,我们总共使用了 15T 的token。然后相反,在 LLAMA2里面其实使用到的仅仅是 1.8T 的token。
除了模型大小和数据大小。
第三个就是数据上的一些工作,如果我们仔细看他发布的技术报告,我们会发现里面大量的篇幅其实在讲数据,包括怎么去收集数据,怎么去处理数据,以及怎么去构造数据,所以这里就涉及到很多跟数据清洗,还有就是数据的构造,包括配比等工作,这些对模型最后的效果会产生非常重要的影响。
第四点从模型的结构来讲,实际上新的模型它跟旧的模型相比没有本质的区别,所以在结构上是看不出太多的创新点。
第五点就是定向能力的提升,为了让训练出来的大模型它具备像数学能力,还有推理能力、写代码能力以及能够灵活地调用各类工具的能力。在技术报告里面我们可以看出他们做了大量的工作,那这里有些能力的提升,他们专注在模型的后训练上,然后另一批能力的提升,它既考虑模型的预训练,也考虑模型的后训练
但是不管怎么样,这些能力的提升的重点还是在于数据本身上,比如说我们收集什么样的数据,然后对这些数据我们怎么去处理,然后怎么去筛选出高质量的数据来训练相应的能力。所以从这几点可以看出,几乎所有的重点工作在于数据上,就是把模型变大,然后我们在数据上做更多的工作,从而得到一些更高质量的数据。以上是针对于LLAMA3.1 系列大模型的简单的总结,所以说了这么多,其实核心还是数据。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-01-15
MiniMax 深夜首次开源,400万长文本,全新架构,挑战Transformer
2025-01-15
微软开源AI Agent大更新,重塑智能体!多层级更强架构
2025-01-14
价值「40亿美元」的AI Agent开源框架
2025-01-13
Roo-Cline:集成在 IDE 中的自主编码助手,Cursor 的开源替代
2025-01-13
微软phi-4来啦!小模型之光,14B科学、代码等能力超70B模型效果!
2025-01-13
用Ollama轻松搞定Llama 3.2 Vision模型本地部署
2025-01-13
工业界主流大语言模型后训练(Post-Training)技术总结
2025-01-09
KAG:开源大模型知识服务框架它来了
2024-07-25
2024-05-06
2024-08-13
2024-06-12
2024-07-11
2024-07-20
2024-09-20
2024-06-16
2024-06-10
2024-06-06
2024-12-24
2024-12-20
2024-12-19
2024-11-22
2024-11-19
2024-11-13
2024-11-13
2024-10-07